Apusic文档中心
首页
  • 应用服务器 AAS
  • 负载均衡器 ALB
  • 分布式消息队列 ADMQ
  • 分布式缓存 AMDC
  • 分布式配置中心 ADCC
  • Java开发工具包软件 AJDK
  • 搜索引擎 ASE
  • 中间件云平台 ACP
  • 统一管理平台 AUMP
  • 云原生中间件管理 ACMP
  • DevOps平台 ADOP
  • 许可授权中心 ACLS
  • Copilot智能问答系统 ACS
  • 监控平台 AMP
  • 智能日志 AILP
  • 应用性能管理 AAPM
  • 智能告警 AAlarm
  • 主数据管理 AMDM
  • 数据交换平台 ADXP
  • 企业服务总线 AESB
  • 数据智脑 ADPR
  • 服务治理 ASGP
  • 统一身份管理 AIDM
  • 标准模板
  • Markdown教程 (opens new window)
  • VuePress官方社区 (opens new window)
  • 帮助
贡献文档 (opens new window)
首页
  • 应用服务器 AAS
  • 负载均衡器 ALB
  • 分布式消息队列 ADMQ
  • 分布式缓存 AMDC
  • 分布式配置中心 ADCC
  • Java开发工具包软件 AJDK
  • 搜索引擎 ASE
  • 中间件云平台 ACP
  • 统一管理平台 AUMP
  • 云原生中间件管理 ACMP
  • DevOps平台 ADOP
  • 许可授权中心 ACLS
  • Copilot智能问答系统 ACS
  • 监控平台 AMP
  • 智能日志 AILP
  • 应用性能管理 AAPM
  • 智能告警 AAlarm
  • 主数据管理 AMDM
  • 数据交换平台 ADXP
  • 企业服务总线 AESB
  • 数据智脑 ADPR
  • 服务治理 ASGP
  • 统一身份管理 AIDM
  • 标准模板
  • Markdown教程 (opens new window)
  • VuePress官方社区 (opens new window)
  • 帮助
贡献文档 (opens new window)
文档中心
  • 金蝶Apusic监控平台

    • v3.4

      • 发版说明
      • 产品简介
      • 产品白皮书
      • 快速入门
      • 安装手册
      • 用户手册
      • 开发手册
  • 金蝶Apusic应用性能监控

  • 金蝶Apusic智能日志

  • 金蝶Apusic智能告警

用户手册

# 产品简介

金蝶Apusic监控平台软件(Apusic Monitor Platform ,以下简称AMP)是金蝶天燕云计算股份有限公司经过多年经验积累,维护实践、自主研发和技术创新的一体化云原生监控平台产品。

AMP从业务系统视角出发,对服务器、网络设备、存储、数据库、中间件、基础云服务、业务应用系统进行一体化、自动化、智能化的全面监控。保障IT基础设施的高可用和业务系统正常稳定可靠运行,极大提高信息中心IT运维的效率,使得对IT基础架构管理从被动分散的维护转变为主动集中的控制和自动化,智能化的管理。

# 范围和读者

本手册介绍产品的使用详细说明,适用于AMP产品的用户,AMP产品技术顾问,AMP产品维护人员,以及希望学习了解AMP产品的相关人员。

# 设施监控

# 业务概述

设施监控是AMP的核心功能模块。设施监控是对设施资源监控指标进行采集监控进行管理。根据所监控的设施类型不同,系统将监控的资源对象划分为如下几种类型进行统一登记维护,包括主机、网络、存储、数据库、中间件、日志相关、云服务、web站点、其他等类型。AMP通过设施监控任务,任务中包含监控项,来实现各种信息的监控展示。

用户通过使用含监控指标的监控模版创建设施监控任务,将监控模版中的监控指标与具体的资源设备关联起来生成监控项。设施详情是用户配置设施信息和监控任务信息的统一展示。而在监控详情中,是监控任务和监控项指标相关具体数据的统一展示。

# 设施监控

# 设施监控列表

进入设施监控界面,可以看到设施监控的列表信息(如图所示),包括设施名称,设施类型,实例地址,监控模板,运行状态,采集器状态,可以进行信息编辑、监控配置、查看、删除的操作。

  1. 设施名称:创建基础设施输入的设施名称。

  2. 设施类型:创建基础设施选择的设施类型。

  3. 实例地址:监控对象的ip地址。

  4. 监控模板:设施配置任务时选择的监控模板。

  5. 运行状态:设施实例运行的状态,全部运行正常显示正常,存在运行异常的显示异常,没有配置监控,状态显示未知。

  6. 采集器状态:采集器运行的状态,全部运行正常显示正常,存在运行异常的显示异常,没有配置监控,状态显示提示未配置。

  7. 告警策略:设施创建的报警策略的数量。

  8. 信息编辑:进入修改基础设施界面,修改设施。

  9. 监控配置:进入修改监控配置界面,修改监控配置的设置。

  10. 删除:点击删除标签并确认,可以删除当前的基础设施和监控任务。

s

# 添加设施监控

设施监控是对监控对象所在主机的管理,根据设施类型不同,从而进行相应的监控管理。

  • 添加设施

在基础设施监控服务界面点击左侧导航栏的【设施监控】,进入设施监控界面。点击设施类型下需要创建的基础设施对象类型,点击创建基础设施按钮,弹出创建基础设施界面,如图所示。

  1. 设施名称:输入监控对象的名称。

  2. 设施类型:一级设施类型包括主机、网络、存储、数据库、中间件、日志相关、云服务、web站点、其他等类型,这里需要选择具体的子设施类型,如"主机"类型下的"Linux主机"。

主机实例:输入主机域名或IP,如需添加多个主机实例,可点击下面的添加主机按钮继续添加。

备注:输入对基础设施的一些相关说明。点击下一步按钮,跳转到监控配置界面,进行监控配置操作。

添加设施-1

  • 监控配置

在监控配置界面

添加设施-2

监控引擎:采集到的监控数据所在的存储节点,请根据采集对象所在地区选择合适的存储节点。

监控模版:可以从下拉列表中选择该设施类型对应的标准采集模版和已创建的自定义采集模版,监控任务将根据监控模版生成监控项。

高级配置:可以点击"高级配置"按钮,修改采集地址,采集端口,采集周期和超时周期等。

配置方式:默认为静态配置方式。

采集点部署:根据采集器的部署方式选择。方式包括:内置,宿主机部署,网络部署。其中内置是监控对象本身具有采集器不需要部署采集器,宿主机部署是监控对象与采集器部署在同一IP上,内置和宿主机两种方式 采集器IP和实例IP保持一致,且不可编辑。网络部署是监控对象与采集器部署在不同IP上,网络部署是根据监控对象所部署的IP选择对应采集器部署的IP,因此网络部署情况下,指定采集器IP地址,可修改编辑。

Schema:AMP访问采集器数据的方式,支持HTTP和HTTPS方式。默认HTTP方式,选择HTTPS,则CA证书必须配置。

HTTP Basic:是否开启HTTP Basic,如HTTP Basic开启后,需要填写用户账户密码等信息。

提交:点击完成按钮,生成设施监控任务,回到设施监控列表界面。

如果选择HTTPS, 并且开启HTTP Basic,如下图所示。

添加设施-http认证

目前系统支持手动以及自动两种方式创建设施:

  1. 手动创建
  • 页面添加单个设施
  • 从excel导入设施
  • 从CMDB导入设施
  • 从设施发现服务导入设施
  1. 自动创建

终端类型设施可通过数据上报方式,不需要手动添加设施,数据上报通过pushgateway实现,采集器安装后需要进行pushgateway的配置

添加设施-http认证

  • 配置采集器

    PUSHGATEWAY_URL:为pushgateway具体的部署地址,

    FACILITY_TYPE_ID参数:对应AMP监控系统中的设施类型(PC终端的FACILITY_TYPE_ID=166)

  • 配置pushgateway

    PUSHGATEWAY_PORT :一般使用默认9091 AMP_MONITORING_URL:AMP基础监控地址信息 AMP_DATACENTER_ID:数据中心ID AMP_PROMETHEUS_ID:监控引擎prometheus的ID

    采集器与pushgateway配置完成后,设施将自动创建到设施监控列表

    1. 验证指标是否推送到pushgateway

    在浏览器访问pushgateway组件地址,如http://172.24.4.165:9091/

    如果看到pushgatewy中出现该设施的任务信息

    如下面的任务信息,则说明指标数据已推送到pushgateway,下面的ip是终端服务器本身的ip地址。

    job="pushJob172.24.4.165" instance="172.24.4.165"

    如果不存在,将检查采集器中pushgateway地址是否正确。

    1. 删除设施

      ① 停止采集器

      执行停止采集器脚本
      ./stop.sh
      
      1
      2

      ② 在AMP的设施列表删除该设施

    pushgateway和采集器的安装请参考《安装部署手册》

# 设施详情

在设施监控界面点击具体的设施名称或者"查看"进入具体的一个设施,选择"设施详情"页签,可以查看设施信息,监控任务信息,监控项信息。

  • 设施信息

包括设施名称,设施类型,实例ip,更新日期,运行创建日期,描述。

  • 监控任务信息

包括任务名称,采集类型,采集模板,采集端口,采集路径采集周期,超时时间,配置方式,附件标签,采集器ip,采集器配置以及运行状态。

  • 监控项信息

该设施实例所监控指标的监控项,包括监控项名称,指标表达式,聚合维度,聚合方式,点击具体的监控项名称可以查看该监控项详情及图表信息。

具体描述如下图所示。

设施-设施详情

# 设施监控图表

在设施监控界面点击具体的设施名称或者"查看"进入具体的一个设施,切换到"监控图表"页签,,可以查看该设施的基本信息和监控静态数据和动态图表数据,监控基本信息信息包括ip地址,设施类型,状态等信息,描述如下图所示。

设施-监控图表

# 设施监控图表火焰图

在设施监控界面点击具体的Linux主机设施名称或者"查看"进入具体的一个Linux主机设施,切换到"监控图表"页签,可以查看该设施的基本信息和监控静态数据和动态图表数据,在"进程信息"中,可以点击"查看火焰图"查看该进程的火焰图信息,在查看火焰图页面中,可以自定义时间范围,生成该进程对应时间范围内的火焰图。述如下图所示。

设施-监控图表火焰图

# 设施告警策略

在设施监控界面点击具体的设施名称或者"查看"进入具体的一个设施,切换到"告警策略"页签,可以对该设施进行添加管理告警策略,可以查看该设施的目前创建的告警策略,该位置维护该设施的报警策略,也可以在"告警"模块下的"告警策略"下创建管理告警策略。描述如下图所示。

设施-告警策略

# 设施告警事件

在设施监控界面点击具体的设施名称或者"查看"进入具体的一个设施,切换到"告警事件"页签,可以查看该设施的目前所产生的告警事件信息,描述如下图所示。

设施-告警策略

# 编辑设施监控

  • 编辑基础设施

在设施监控界面点击信息编辑进入编辑基础设施界面,可以编辑设施名称,已经配置监控的设施类型不可编辑,未配置监控的设施类型不可编辑,编辑主机域名或IP,如需添加多个主机实例,可点击下面的添加主机按钮继续添加,备注中输入对基础设施的一些相关说明。点击完成按钮,返回设施监控列表界面,描述如下图所示。

  • 编辑监控配置

在设施监控界面点击监控配置进入编辑监控配置界面,可以编辑采集器的高级配置,即采集端口,采集路径,采集周期,超时周期等。编辑配置采集点部署配置方式,修改为内置,宿主机部署,网络部署。同样编辑访问方式,选择HTTP,Basic认证配置项可选择性配置,选择HTTPS,则CA证书必须配置,HTTP Basic也可以选择支持同时开启。描述如下图所示。

  • 删除设施监控

在基础设施列表界面,点击删除按钮并确认,即可删除基础设施。

# 监控模板

# 业务概述

监控模板是同一类别资源监控指标的集合概念,方便用户对监控指标进行管理。用户可以直接使用官方提供的标准模板,也可以自定义配置模板。AMP监控平台广泛支持设施的监控,包括但不限于主机服务器、数据库、网络设备、中间件、Web站点。

系统监控模板包括对多种设施类型的监控,如下所示。

监控模板-all

# 标准监控模板

# 主机监控

AMP主机监控支持windows主机监控和linux主机监控。主机监控可以监控到主机服务器的网络情况、内存使用情况、磁盘使用情况等重要运维信息。主机监控可以帮助系统管理人员实时直观的观察到主机服务器的运行状态和资源使用情况,确保主机的高可用性和运行效率。

表4.1 主机类型监控模版描述


主机标准监控模版 监控指标

Windows主机监控 监控指标包括CPU利用率、磁盘使用率、内存使用率、已使用内存、剩余内存、磁盘剩余量、磁盘读写BPS、磁盘IO读写耗时、网络上传下载速率、网络丢包错包数、系统进程数等。

Linux主机监控 监控指标包括CPU负载、CPU利用率、磁盘使用率、内存使用率、已使用内存、剩余内存、swap交换内存、磁盘剩余量、磁盘读写BPS、磁盘IO读写耗时、网络上传下载速率、网络丢包错包数等。


主机监控模板包括windows主机监控和linux主机监控,如下所示。

模板-主机{width="6.690972222222222in" height="2.091666666666667in"}

# 网络设备监控

AMP通过SNMP协议监控网络设备,理论上兼容所有支持SNMP协议的终端设备。AMP集成了SNMP监控模版。通过SNMP监控模版,用户可以监控到网络设备的流入流出字节数据大小、流入流出速率、接收和发送的数据包情况、网络带宽等。当然,用户也可以创建自定义的SNMP监控模版,根据网络设备的情况,灵活的选择要监控的指标数据。

网络监控模板SNMP模板如下所示。

模板-网络{width="6.678472222222222in" height="2.0388888888888888in"}

# 数据库监控

AMP集成了绝大多数的主流数据库的监控。包括sqlserver数据库、oracle数据库、mysql数据库、mongodb数据库、etcd数据库、redis数据库、达梦数据库、gbase数据库、神通数据库、kingbase数据库。通过采集数据库的运行状态数据,对数据库的运行状态、资源使用情况、性能状态、执行命令记录等重要指标信息进行监控,监控运维人员可以实时地进行预警处理和性能分析。

表4.2 数据库标准监控模版描述


数据库标准监控模版 监控指标

Mysql数据库监控 监控指标包括数据库运行状态、连接数情况、内存资源使用情况、线程情况等。

Oracle数据库监控 监控指标包括数据库运行状态、语句执行情况、解析情况、会话数情况、进程数情况、事件等待时间等。

Sqlserver数据库监控 监控指标包括sqlserver数据库的连接数情况、本地时间、死锁情况、内存资源使用情况、界面错误情况等。

PostgreSQL数据库监控 监控指标包括数据库运行状态、连接数情况、数据库锁情况等

Kingbase ES数据库监控 监控指标包括数据库回话情况、当前锁情况、事务情况、磁盘情况等。

达梦7数据库监控 监控指标包括数据库状态、cpu使用情况、内存使用情况、数据传输情况、回话状态等。

神通7数据库监控 监控指标包括数据库运行状态、回话数情况、等待时间情况、进程情况、缓冲区命中率情况等。

Gbase8s v8.7数据库监控 监控指标包括数据库运行状态、读写磁盘情况、连接数情况、数据库锁情况等

Gbase8s数据库监控 监控指标包括数据库运行状态、慢查询情况、连接数情况、数据库锁情况等

Gbase8a数据库监控 监控指标包括数据库运行状态、慢查询情况、连接数情况、数据库锁情况等

Gbase8t数据库监控 监控指标包含数据库运行状态、数据库锁情况、磁盘使用情况、连接数情况等

Gauss100 监控指标包括会话数、a冲突锁数、分区数、任务状态、SQL语句解析次数等。

OpenGauss 监控指标包括会话数、冲突锁数、连接数、连接状态、内存使用等。

Redis数据库监控 监控指标包括采集器状态、数据库模式情况、数据库运行状态、内存使用情况等。

MongoDB数据库监控 监控指标包括数据库运行状态、连接数情况、锁情况、线程情况等

Etcd数据库监控 监控指标包括leader情况、读写耗时情况、读写次数统计、文件句柄使用情况等

AMDC监控 监控指标包括连接情况、运行时长情况、内存使用情况、CPU响应情况等


数据库监控模板如下所示。

模板-数据库

# 中间件监控

AMP中间件监控支持aas-v9(Apusic Application Server V9.0)、Tomcat、Kafka、Nginx等中间件的监控。对于不同的中间件可以进行不同监控配置,确保中间件的高可用性和实时监控记录。


中间件标准监控模版 监控指标

ApusicAS V9监控 监控指标包括cpu使用情况、内存使用情况、线程池情况、数据源情况、http连接器情况等。

ApusicAS V10监控 监控指标包括中间件运行状态、JMX连接情况、JSP页面数情况、事务数情况等。

Tomcat监控 监控指标包括ajp连接器情况、http连接器情况、jvm gc情况等。

Kafka监控 监控指标包括内存使用情况、jvm gc情况、文件句柄使用情况、消费请求耗时情况、生产请求耗时情况等

RabbitMQ监控 监控指标包括中间件运行状态、连接数情况、内存使用情况、队列数情况等。

Pulsar监控 监控指标包括包括吞吐量、jvm、namespace、topic等。

Nginx监控 监控指标包括返回码情况、请求数情况、数据传输情况、连接数情况等。

Haproxy监控 监控指标包括中间件运行状态、cpu使用情况、内存使用情况、线程池情况、数据源情况、http连接器情况等。

ApacheHttpd服务器监控 监控指标包括中间件运行状态、堆字节数情况、内存使用情况等。

APISIX监控 监控指标包括http连接数、出入流量、连接状态,带宽等。

Zookeeper监控 监控指标包括包括吞吐量、jvm、namespace、topic等。

bookKeeper监控 监控指标包括包括吞吐量、jvm、namespace、topic等。


中间件监控模板列表如下所示。

模板-中间件

# Web站点监控

AMP的Web站点监控可以通过HTTP、ICMP、DNS、UDP、TCP协议进行网络站点监控。通过Web站点监控,用户可以了解 web 站点的可用性、性能和运行状态,能够帮助用户了解网络站点的可用率和响应时间,当界面不可访问或是响应时间过长时发送告警信息。

站点监控支持如下类型的监控:

  • 网址(HTTP/HTTPS)

监控Web站点中任何指定的URL,获得可用率以及相应事件详细分析

  • ICMP

对指定的站点服务器进行ICMP Ping检测,获得可用率及响应时间,丢包率等

  • DNS

监控DNS服务器的可用率和响应时间,并获得各种DNS记录列表

  • TCP

监控服务器TCP端口的可用率和响应时间

  • UDP

监控服务器UDP端口的可用率和响应时间

# 虚拟平台监控

对于虚拟平台相关指标进行监控,目前支持的平台有openstack、vmware。


虚拟平台类型标准监控模版 监控指标

openstack 虚拟机数量、CPU使用率、运行时间、内存使用等。

vmware 虚拟机数量、内存使用、CPU使用、镜像数等。


虚拟平台类型监控模板如下所示。

模板-其他

# 终端监控

对于终端设备相关指标进行监控,目前支持的操作系统为中标麒麟、UOS的国产PC终端设备监控。


终端类型标准监控模版 监控指标

PC终端 操作系统、CPU利用率、运行时间、内存使用等。


模板-其他

# 其他监控

其他类型监控包括Linux进程监控, ElasticSearch监控,Prometheus监控,Docker监控, Nacos监控等监控模板。其中ElasticSearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。


其他类型标准监控模版 监控指标

Linux进程监控 监控指标包括进程个数、CPU使用率、读写速率、内存使用等。

ElasticSearch监控 监控指标包括集群、节点、分片、线程池、 QPS、索引状态等。

Prometheus监控 监控指标包括Http请求耗时、查询耗时、查询速率、告警通知失败次数等。

Docker监控 监控指标包括宿主机内存、CPU利用率,内存使用量、容器数量、网络流速等。

Nacos监控 监控指标包括注册中心,配置中心,jvm,CPU利用率,内存使用量等。


其他类型监控模板如下所示。

模板-其他

# 自定义监控模板

如果标准监控模板不能满足用户的监控需求,用户可以通过自定义监控模板来监控想要监控的资源和指标数据。AMP的自定义监控模版有自定义普通监控模版、自定义SNMP监控模版、自定义Web站点监控模版三种类型,支持绝大多数设备的监控集成。

# 自定义普通监控模板

自定义普通监控模板包括主机、数据库、中间件等资源的监控。用户可以根据自己需要监控的指标数据,在自定义模板中配置监控项,完成相应的自定义的监控模板。在自定义监控模版界面中点击"创建监控模版"按钮,弹出自定义监控模版窗口,如图所示,默认创建普通监控模版。

模板名称:监控模版的名称,用于展示区分监控模板。

模版类型:监控模版的类型,有普通模版、SNMP协议模版、站点监控模板三种类型。

设施类型:确定该监控模版的归档分类,可选如中间件、主机、数据库等。

备注:对该监控模版的备注说明。

采集端口:采集器的部署端口。

采集路径:采集器采集指标的相对路径,如指标暴露到url: 127.0.0.1:9090/metric,那么采集路径为 /metric。

采集周期:采集器的数据采集周期。

采集方式:采集模版需要样本数据配置监控指标。可以根据url 获取样本数据,也可以直接粘贴样本数据到数据框中。如果选择根据url 获取样本数据,需要填入采集器的数据采集地址,然后点击"curl" 按钮获取样本数据。

# 自定义SNMP监控模板

SNMP协议以OID表示网络设备的数据信息,而被监控设备的本地mib则是oid的描述映射。用户需要先上传包含监控设备的oid的mib包文件,然后填入需要监控的oid,填入协议的相关配置信息,生成监控模板。生成的监控模板会生成SNMP采集器的配置文件,用户通过下载该配置文件替换采集器中原来的配置文件,就可以实现采集自己需要的oid数据。然后用户根据这些数据配置监控项,完成自定义SNMP监控模板。在创建自定义模板窗口界面点击SNMP协议模板进入到创建自定义SNMP协议模板界面。

SNMP协议版本:选择要监控的设备所采用的SNMP协议版本,v1、v2版本需要填写community认证信息,而v3则需要填写被监控设备的SNMP-v3协议的用户名、安全级别、账号密码、报文加密密码、加密方式等信息。如下图所示:

MIB文件:被监控设备的SNMP协议的oid映射文件。

OID列表:填入需要监控的oid,一个oid一行,不能重复填写。

其他配置同自定义普通监控模版配置,不再赘述。

# 自定义Web站点监控模板

用户可以自定义Web站点监控模板来实现监控需要的网站和信息。Web站点监控有五种类型,分别为Http、Ping、DNS、TCP、UDP,这是根据网络协议和功能进行划分。

  • 网址(HTTP/HTTPS)

请求方法:监控请求方式,可选get、post、head。

匹配相应方式:可选匹配响应内容和不匹配响应内容,如果选择匹配响应内容,需要在"响应内容"文本框中填入期望响应的内容,需要填入正则表达式的形式。监控请求返回的响应将会与"响应内容"中的数据进行匹配。

HTTP请求头:如果发送的监控请求需要请求头带上数据,则填写在"HTTP请求头"输入框中,请求头格式:key:value(多个请换行分隔), 比如:User-Agent: Mozilla/4.0; 若POST提交的数据为Json格式, 请添加Content-Type: application/json。

Cookie:如果请求需要cookie,填写在此处。cookie格式:key1=value1;key2=value2, 比如:token=d09de9; pvid=90654。

HTTP验证用户名/密码:如果请求地址有验证要求,则要填入用户密码等认证信息。

  • ICMP (Ping)

对指定的站点服务器进行ICMP Ping检测,获得可用率及响应时间,丢包率等对网站发送报文的确认网站连接状态,也可以用来确认服务器的运行状态。

  • DNS

监控DNS服务器的可用率和响应时间,并获得各种DNS记录列表。

DNS查询类型:支持六种DNS查询类型。分别是A、MX、NS、CHAME、TXT、ANY。

DNS服务器:如果需要指定DNS解析服务器,请在此栏输入。

  • TCP

监控服务器TCP端口的可用率和响应时间。

  • UDP

监控服务器UDP端口的可用率和响应时间。

# 监控模板示例说明

监控平台内置了多种标准监控模板,下面以Linux主机监控模板为例,介绍一个监控模板的详细信息。

下面是linux主机监控模板的信息。

监控模板-linux主机

  • 采集模板

点击"查看详情",可以看到监控模板的基本配置,采集器,以及采集指标说明,如下所示。

监控模板-linux详情

  • 图表模板

切换到"图表模板"页签,可以看到该监控模板的多个图表模板,下面是进入一个Linux主机监控图表模板的内容。

监控模板-图表模拟

  • 告警模板

切换到"告警模板"页签,可以看到该监控模板的告警模板,告警模板是针对该监控模板设置的默认告警策略信息,下面是进入一个Linux主机监控告警模板的内容。

监控模板-告警模板

# 自定义图表模板

监控模板下会内置一批图表模板,如果标准图表模板不能满足用户的需求,用户可以通过自定义图表指标数据创建模板,内置的图表模板不可修改,用户自定义的图表模板支持修改。目前支持曲线图、柱状图、表格三种图表的展现形式。

**图表名称:**自定义图表的名称,支持唯一性校验

**图表说明:**对该图表进行说明

**图表类型:**曲线图、柱状图、表格三个选项

**图例样式:**指定表格样式

监控项: 具体展示的指标数据,通过表达式的方式指定数据;同一图表中支持添加多个监控项

**别名:**给表达式定义别名,启用别名后图表中将用别名展示

**示例:**更具输入的图表设置项,展示样例图表,图表中的数据来自于该监控设施下监控对象的数据,如果该设施类型下无监控对象,则无法展示实例

# 报警管理

# 业务概述

AMP中报警主要分为两大部分,一、告警触发;二、告警处理。告警触发是通过对监控的设施对象指标进行阀值设置,触发阀值后将产生告警,该功能在AMP的告警模块中配置。

通过阀值产生告警后,后所有的告警信息将由AAlarm进行处理,包括告警事件的展示,告警通知,告警处理等,用户可以在AAlarm中进行告警通知策略配置。

该文档只介绍告警触发策略配置指南,关于告警处理相关使用指南可查看《Apusic智能告警产品使用手册》。

# 报警模板

报警模板是针对基础监控类型监控资源所设置的报警模板,AMP监控平台中对标准监控模板内置了相应的报警模板,提供了对应的一些报警策略,用户在定义报警策略时可以根据特定的报警模板批量的创建报警策略。报警模板包括默认报警模板,自定义报警模板。

# 报警模板查看

进入报警模板管理界面,选择默认报警模板,可以查看到系统中初始化的各基本监控资源的报警模板,可以看到该模板所关联的报警策略的个数,如下图所示,点击自定义报警模板,可以查看自定义报警模板的信息。

{width="6.6930555555555555in" height="2.376388888888889in"}

点击查看,可以看到该监控模板所关联的具体的报警策略,关联的监控指标,报警触发条件等。

{width="6.6930555555555555in" height="2.017361111111111in"}

# 自定义模板管理

报警模板管理除了可以使用系统自定义的报警模板,用户可以根据自己的需求,添加相应的自定义报警模板。

# 添加自定义报警模板

添加自定义报警模板操作分为3步,具体步骤如下所示。

  1. 进入报警模板查看界面,切换到自定义报警模板下,点击创建自定义报警模板按钮,出现穿件自定义报警模板的第一步,输入相应的内容。

设施类型:要创建报警模板属于的设施类型,包括主机,网络,存储,数据库,中间件,日志,云服务,web站点等,其他, 选择其中一种。

监控模板:需要创建的监控模板。

从现有模板导入:若选择从现有模板,后续可以对原有的报警模板中的策略修改,最终创建新的报警模板。

若不选择从现有模板导入,后续需要自己添加相应的报警策略。

默认报警模板:若选择从现有模板导入,则需要选择默认报警模板。

  1. 点击下一步,进入添加报警规则的第二步,修改并添加相应的报警策略,可以设置报警条件,报警级别等信息,输入相应的内容。

策略名称:报警策略的名称。

监控指标项:监控策略所对应的监控指标。

报警条件:设置监控项达到什么值,持续多久时间出发报警。

触发报警级别:三种级别,分别是警告,严重,灾难,选择一种。

  1. 点击下一步,进入添加报警规则的第三步,输入相应的内容,完成自定义报警模板的创建。

# 操作

查看自定义报警模板,如下图所示。

在列表中选择相应的查看,修改,删除,分别可以查看自定义模板报警策略内容,修改自定义模板,删除自定义模板等。

# 报警策略

# 界面内容

报警策略与基础设施关联,报警策略就是对设施指标的变化采取的措施的规则。针对不同的基础设施类型,可以通过选择报警模板,进行批量的创建报警策略展示所有报警策略的策略名称、关联对象、关联对象数、监控指标、触发条件、告警级别、通知对象、创建时间、启用禁用状态等。用户可以统一、方便地管理和查看报警策略。

# 进入管理界面

点击导航栏中的告警->报警策略。

报警策略可以通过列表进行批量的启用、禁用和删除操作,并能根据告警策略名称查询相关的报警策略。还可以查看关联对象的设施名称和设施ip地址。在操作栏中可以查看报警策略的详情。

# 操作

报警策略支持的操作包括批量添加报警策略、批量启用禁用删除报警策略、查看报警策略详情、修改报警策略等。

·添加基础设施策略

点击"添加"按钮,弹出"添加告警策略"窗口,监控类型选择设施监控,即可添加基础设施策略,选择设施类型、关联对象,并根据需求选择模板导入或自定义,还可选择报警策略启用禁用状态。最后可以配置告警通知的通知时间、通知方式、通知对象和备注等。

策略选择:模板导入,自定义两种,选择一种,选择模板导入,后续可以选择相应的报警模板,批量导入该报警模板的报警策略,只需要修改相应的报警条件,报警级别即可。若选择自定义,需要用户自己去添加相应的报警策略。

策略名称:报警策略的标识名称。

监控指标项:可从当前设施的监控项中选取。

报警触发条件:设置阈值,和监控项数据和阈值的对比公式,当达到公式条件时候,触发报警动作。

触发报警级别:警告,严重,灾难,选择其中一种。

报警通知:若开启,则产生告警通知,否则,只产生相应的报警事件记录,不产生告警通知。

通知方式:报警信息的通知发送方式。

通知时间:只在选择的时间段内发送报警信息。

通知对象:选择达到报警触发条件后通知的通知对象,可选一个或多个。

报警消息内容:报警信息附带的消息内容。

添加拨测策略

点击"添加"按钮,弹出"添加告警策略"窗口,监控类型选择拨测监控,即可创建拨测策略。选择拨测协议、关联对象,并根据需求选择模板导入或自定义,还可选择报警策略启用禁用状态。最后可以配置告警通知的通知时间、通知方式、通知对象和备注等。

·编辑

选中要操作的报警策略,点击后边的"编辑"按钮,弹出"修改报警策略"窗口进行修改报警策略名称、所属业务、拨测协议、拨测地址拨测周期、拨测点等内容,点击确认按钮,完成拨测监控的编辑操作。

·删除

选中要操作的报警策略,点击后边的"删除"按钮,弹出"确定删除"提示弹窗,点击确认按钮,完成报警策略的删除操作。或者可以勾选左侧勾选框,批量选中要删除的策略,点击左上方的删除按钮,完成批量删除操作。

·启用禁用

选中要操作的报警策略,点击后边的"启用/禁用"按钮,弹出"确定启用/禁用"提示弹窗,点击确认按钮,完成报警策略的启用禁用操作。或者可以勾选左侧勾选框,批量选中要启用/禁用的策略,点击左上方的启用/禁用按钮,完成批量启用/禁用。

·查看详情

选中要操作的报警策略,点击后边的"查看"按钮,即可进入报警策略详情页面。

# 多数据中心

# 业务概述

支持多数据中心以及集群部署的IT环境统一web端监控,按照数据中心展示相关监控数据,数据中心之间进行数据隔离,可按照各数据中心进行设施状态统计。数据中心支持多引擎,用户需要把自己部署的监控引擎访问地址注册到AMP监控平台,在基础类型监控任务,容器类型监控任务均需要监控引擎的支持,用户可以对监控引擎进行增加,修改,删除,启用,禁用等功能。

# 数据中心管理

# 列表查看

进入监控引擎管理界面,可以看到监控引擎的列表信息,包括引擎名称,节点类型,启用状态,运行状态,访问URL地址等信息,具体描述如下图所示。

系统-监控引擎

# 添加数据中心

执行sql脚本,新增数据中心,例如:新增加的数据中心id为:2, 数据中心名称为:深圳数据中心(如果amp系统与aump系统同时部署,该数据中心id,数据中心名称需要与aump系统中保持一致)

INSERT INTO amp_monitoring.data_center(id, created_by, created_date, last_modified_by, last_modified_date, name, category) VALUES (2, 'admin', '2022-08-29 13:50:35', 'admin', '2022-08-29 13:50:35', '深圳数据中心', 'OFFICAL');
1

注意:每个数据中心下至少有一个监控引擎。

# 添加监控引擎

# 通过Web页面添加

进入监控引擎管理界面,点击添加监控引擎,进行添加监控引擎操作,如下图所示。

监控引擎名称:用于标识监控引擎的名称,必填项。

节点类型:包括三种:默认类型,容器监控类型,日志监控类型,默认类型用于创建基础类型监控任务,容器监控类型用于创建k8s容器监控任务,日志监控类型用于日志性监控任务。根据实际监控的需求设置相应的节点类型,必填项。

引擎地址:访问prometheus的地址,或者是在prometheus高可用部署时,使用的nginx的代理访问地址,必填项。

引擎创建成功后,会分配一个引擎ID,将引擎ID配置到prom-agent的agent_id。

# 通过SQL脚本手工添加

执行sql脚本,新增监控引擎,例如:新增加的数据中心id为:2,监控引擎id为:2,数据中心id为:2(表示将该引擎关联到Id=2的数据中心下),监控引擎名称为:深圳监控节点,修改监控引擎地址"http://127.0.0.1:9090"为真实的部署地址

INSERT INTO `amp_monitoring`.`prom_server`(`id`, `created_by`, `created_date`, `last_modified_by`, `last_modified_date`, `federate_cluster_mode`, `job_type`, `name`, `parent_node`, `role`, `running_status`, `status`, `type`, `url`, `weight`, `data_center_id`, `category`) VALUES (2, 'admin', '2019-11-13 17:01:34', 'admin', '2022-12-26 06:56:57', 'CLOSE', 'STATIC', '深圳监控节点', NULL, 'MASTER', 'ON_LINE', 'ENABLE', 'TYPE_PROME_DEFAULT', 'http://127.0.0.1:9090', 1, 2, 'OFFICAL');
1

# 网络拓扑

# 网络拓扑概念

网络拓扑,即是指网上计算机或设备与传输媒介形成的结点与线的物理构成模式。AMP平台中的网络拓扑是展示转换和交换信息的转接结点,包括结点交换机、集线器和终端控制器。网络拓扑图用图形化的方式直观、形象地表示出整个网络中的各子网以及子网内部网络设备之间的互连关系。

# 网络拓扑图管理

网络拓扑模块支持用户创建多个网络拓扑图,在创建网络拓扑后,可以添加一些网络设备,用户可以手动添加多个网络设备,如果网络设备支持snmp协议,在输入一个网络设备后可以自动发现其他的网络设备,系统默认创建了一个默认的拓扑图。

# 拓扑图管理

  • 创建拓扑

在进入到"网络拓扑"下的"拓扑配置"导航栏,进入拓扑配置界面,点击上方的创建拓扑,即可进行创建拓扑图。

  • 修改拓扑信息

在当前界面,选中需要操作的网络拓扑,点击修改,即可对该拓扑的名称,描述信息进行修改。

  • 删除拓扑

选中需要操作的拓扑图,点击后面的删除,即可删除该拓扑。默认拓扑图不允许删除,只允许修改。

# 设备管理

在创建完一个具体的网络拓扑图后,选择该拓扑图,可以在该拓扑图中添加对应的网络设备。

  • 添加网络设备

在进入到"网络拓扑"下的"拓扑配置"导航栏,进入拓扑配置界面,选择一个网络拓扑图,可以进行添加设备,直接拖拽左边的网络设备图标,添加相应的网络设备。

修改网络设备信息

点击选中该设备,界面右边弹出该设备的信息,修改相应的ip,类型,名称,描述等信息,如果该设备支持snmp协议,可以输入该设备的snmp协议信息,设备的snmp协议支持V1, V2C,V3等协议。

IP:设备的IP地址,必填。

类型:两种类型,一种是交换机,另一种是路由器。

名称:设备名称。

描述:设备信息描述。

版本:snmp信息的版本,支持V1,V2C, V3

社区·读:用于对设备进行写操作时的设备密码。

选择V3后,输入V3的认证信息。

版本: snmp协议的版本。

上下文: snmp上下文信息。

安全等级:snmpV3版本的安全等级,包括不认证不加密,只认证,认证加密。

用户名:认证用户名信息。

密码:认证用户的认证密码。

认证协议:认证的协议,包括SHA, MD5。

加密密码:加密的密码。

加密协议:加密的协议,包括DES, AES。

如果网络设备支持snmp协议信息,在输入一个网络设备的信息及snmp信息,即可发现相关的网络设备信息,如下图所示。

拓扑图界面操作

拓扑图中,在添加多个网络设备后,支持添加连线管理网络设备的关系。

  • 连线操作

点击两次选中网络设备A, 将鼠标移至需要连接到的网络设备B, 即网络设备A与网络设备B之间存在了A指向B的一条连线。

图 7-6连线操作

  • 删除连线

点击选中某条连线,鼠标右键单击,出现删除按钮,可以进行删除该连线。

拓扑图上方的一些按钮说明。

图 7-8拓扑按钮

居中:将拓扑图位置进行居中处理。

适应画布:拓扑图自动适应布局。

保存为图片:将该拓扑图下载保存为一张图片。

清空拓扑:删除该拓扑图中的所有设备,连线关系信息。

左右布局:拓扑图从左向右布局。

树型布局: 拓扑图进行树型布局。

星型布局:拓扑图进行星型布局。

放大:放大拓扑图展示。

缩小:缩小拓扑图展示。

刷新:刷新拓扑图信息。

# 网络拓扑信息

网络拓扑信息,包括查看具体网络拓扑的信息,查看某一个网络设备的监控信息等。

  • 拓扑展示

在进入到"网络拓扑"下的"拓扑展示"导航栏,进入拓扑展示界面,选择具体的拓扑图,即可以看到该拓扑图的信息。

上面的图标操作和上一小节拓扑图界面的图标的使用方式一致。

  • 设备节点信息

选择具体的某一个网络设备,出现该网络设备的节点描述信息。

# 网络拓扑图监控

网络拓扑监控,通过SNMP协议,获取到设备的相关信息。包括设备名称、设备地址、设备接口信息、设备接口状态、接口物理地址、设备进出流量等监控信息。

在拓扑管理界面中,点击想要查看的设备信息,可以进入到设备的监控详情界面。如下图所示:

点击设备描述中的名称,可以进入到设备的监控详情界面,显示设备的基本监控信息。如下图所示:

设备信息

切换到监控详情页面上的接口信息,可以看到该网络设备各端口的流量数据以及基础信息,如下图所示。

接口信息

# 监控可视化

# 监控可视化概念

监控可视化是为用户提供一个针对设施资源状况的立体化监控功能,帮助用户全面了解整个IT平台环境中各资源的使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。

# 监控仪表盘

仪表盘为多个不同类型监控指标图表展现的集合。用户可根据监控需要创建多个仪表盘,每个仪表盘可包含任意数量的监控图表。您可以创建、修改、删除监控仪表盘。

操作步骤:

  1. 点击"创建仪表盘"按钮,弹出"创建仪表盘"窗口,如下图所示,输入"名称",点击【确认】。

{width="6.408333333333333in" height="3.3847222222222224in"}

名称:仪表盘的名称, 必填。

  1. 点击"修改"按钮,弹出"修改仪表盘"窗口,可修改仪表盘的名称,点击【确认】。

  2. 点击"删除"按钮,弹出删除"提示"窗口,点击【确定】,即可删除仪表盘。

# 监控图表展现

监控图表可以实时查看资源的趋势和状态信息。

# 添加图表

  1. 点击查看详情,进入仪表盘详情。创建监控图表。点击"创建监控图表"按钮,弹出"创建监控图表"窗口,如下图所示。

模板导入

通过监控模板中的图标模板直接导入,根据模板中定义的指标以及图表样式渲染图表。

自定义图表

根据PromSql表达式自定义图表,可定义图表的类型,展示项等,支持一个图表中展示多个指标项。

图标类型:定义了图形展示方式,例如曲线图、柱状图、表格等,必填。

指标:从系统设施中选择对应指标项,选择完成后直接生成PromSql表达式。

别名:图例的名称,如果想用标签值作为图例名。填写格式为,例如,则会将hostname的值作为图例名。

# 监控图表列表

点击"刷新"按钮,可展示当前仪表盘下最新的监控趋势图。

时间区间:可以根据时间区间展示不同时间段的监控图表。

# 仪表盘导入/导出

通过仪表盘导入/导出功能可以快速创建仪表盘,

导出:导出为JSON文件,JSON文件中包含仪表盘信息以及仪表盘中图表信息。

导入:通过JSON文件将仪表盘以及仪表盘中的图表信息导入到系统中。

导入仪表盘时注意panel name名称是否唯一

图表分享

点击分享图标,分享成功后生成一条链接,打开链接可查看对应图表信息。

链接需要在登录状态下才可以打开

# 监控概览与大屏

监控概览与大屏主要是针对AMP监控运维平台中设施类型的资源状态进行统一、集中的展现,设施类型为主机、网络、存储、数据库、中间件、日志相关、云服务、web站点、其他。不仅展示了平台当前的设施健康状况,同时也展示了24小时内不同设施类型的报警统计以及使用情况。

# 监控概览统计

业务视角

从业务/应用的维度进行设施统计以及监控状况展示,包括资源占比,运行状态,告警情况等。

监控-概览

设施视角

概览页面统计了监控平台目前所有的监控设施对象,主机资源top3信息,监控指标,告警概览,告警趋势,告警事件等信息,如下图所示。

监控-概览

# 监控概览数据大屏

随着用户对监控可视化效果要求越来越高,需要对各种关键监控数据进行统一、集中展现,简明扼要展现用户最关心的内容。因此,通过AMP的监控运维大屏系统可以提供给各类用户一个具有震撼力、创新性、用户体验良好的感受,满足领导视察、运维值班、兄弟单位参观等管理要求。

监控概览数据大屏是监控概览的另一种展现形式,如下图所示:

概览-大屏

# 自动巡检

# 业务概述

巡检是IT系统中日常维护工作的重要任务,如果使用手工的方式进行巡检工作,不仅耗费大量的人力物力,而且效率也不高。AMP的巡检模块,支持批量设备的定时自动巡检,支持多种设施的巡检,支持自定义巡检规则,可以根据需求制定特定的巡检任务。一次巡检完成后,会生成统一的巡检报表,巡检报表展示了此次巡检的报告信息,反馈设备的运行状况。

# 巡检规则

巡检规则是用于对基础设施的巡检操作,在对创建巡检任务时,选择基础设施时需要选择对应类型的巡检规则。

# 巡检规则列表

巡检规则列表展示了规则名称,关联的监控模板,巡检指标来源, 巡检指标数量等信息。在巡检规则的操作中,可以进行修改,删除等操作。

巡检规则列表

# 添加巡检规则

进入"巡检"导航栏下的"巡检规则"操作界面,点击"新增规则"按钮,可以进行创建巡检规则。选择具体的监控模板,监控指标可以选择来自采集模板或巡检模板。

下图是创建来自采集模板的巡检规则。

创建巡检规则-采集模板

下图是创建来自巡检模板的巡检规则。

巡检规则-数据库模板

# 巡检任务

# 巡检任务列表

一个巡检任务代表一组巡检动作,巡检任务确定了需要巡检的基础设施,巡检的时间点和周期,以及巡检报告的邮件接收者等信息。

巡检任务-列表

巡检任务列表中列出了当前所有的巡检任务以及相关的操作。包括巡检任务的增删改、启用、禁用、查看巡检报告和立即巡检等按钮选项。

# 创建巡检任务

点击"创建巡检任务"按钮进入到巡检任务配置界面。从上到下依次为任务名称、任务描述、任务周期、任务开始时间。在选择巡检设施中,只有当前已经进行监控的设施才能够进行巡检。

巡检任务-创建

# 巡检任务详情

在巡检任务列表页面,点击具体的一个巡检任务的名称,可以进行该巡检任务的详情页面。包括两个页签,分别是任务详情,巡检记录。

下图是巡检任务的详情页签。

巡检任务-详情

下图是巡检任务的巡检记录列表页面,用户可以根据时间筛选一定时间范围内的巡检报告记录,可以点击"下载"按钮下载对应的巡检报告。

巡检任务-巡检记录

# 巡检报告

巡检任务每执行一次,就会生成一次巡检报表记录。巡检报表统计了巡检设施的各指标值。巡检任务如果开启了邮件订阅,则巡检报表文件会通过邮箱发送给运维人员,用户也可以在巡检报告界面自行下载巡检报告文件。

用户可以通过下面两种方式查看巡检报告

  1. 可以通过巡检任务列表页面,点击查看报告,可以看到该巡检任务最近一次巡检执行的报告结果。

  2. 进行巡检任务详情中的巡检记录页签,进入巡检报告列表页面,点击查看按钮可以看到某一次的巡检报告内容。

    下图是巡检报告详情页面。

巡检报告-详情

# 统计报表

# 业务概述

统计报表提供了IT资源设施情况总览。从资源设施类别分类,定时执行作业任务统计,并将执行结果保存,如果返现异常则进行告警通知。系统支持多种类型的任务,如时间任务(分钟、小时、每天、星期、月份)、一定间隔的重复性任务等,为改进和提升IT资源运维工作提供完善的统计和分析报表。

# 报表操作

  • 统计报表列表

统计报表列表展示,展示报表名称,报表的类型包括统计报表和故障报表,时间周期包括(日,周,月),邮件订阅,报表生成时间,以及删除,修改,生成报表可执行操作按钮。

  • 添加统计报表

点击左侧导航栏中基础设施下的【统计报表】,进入统计报表界面。点击创建报表按钮,弹出创建基础设施界面,如下图3-1所示。

报表名称:可输入报表的名称。

设施类型:可选择报表类型,包括统计报表和故障报表类型。

设施类型:可选择主机,数据库,中间件web站点和其它设施类型。

说明:输入对报表的一些相关说明。

时间周期:通过选择日报、周报、月报,系统会定期以报表的形式直观反映巡检结果。

邮件订阅:通过订阅,选择邮件订阅人或邮件订阅组,定期将生成报表并主动发送运维人员。

点击完成按钮,跳转到报表列表界面,成功创建报表。

  • 编辑统计报表

点击左侧导航栏中基础设施下的【统计报表】,进入统计报表界面。点击修改报表按钮,弹出修改基础设施界面,如下图3-1所示。

说明:可编辑对报表的一些相关说明。

时间周期:可选择日报,周报,月报周期。

邮件订阅:可选择邮件订阅人或邮件订阅组

点击完成按钮,跳转到报表列表界面,成功编辑报表。

  • 删除统计报表

点击左侧导航栏中基础设施下的【统计报表】,进入统计报表界面。点击删除报表按钮,弹出删除统计报表确认界面,如下图3-1所示。点击完成按钮,成功删除报表。

# 报表报告

统计报表

统计查询时间周期内,资源设施各类别告警百分比。

统计查询时间周期内,不同级别(警告、严重、灾难)占比。

统计查询时间周期内,资源设施各告警次数。

{width="6.679861111111111in" height="3.5277777777777777in"}

故障报表

统计查询时间周期内,资源设施各告警次数统计。

统计查询时间周期内,各资源设施类别故障持续时间统计占比。

统计查询时间周期内,资源设施故障持续时间统计。

# 业务监控

# 业务监控概念

业务监控是为用户提供的可以对用户所使用所有应用的管理及监控功能,帮助用户全面了解自己应用平台下的应用关系,应用所关联的设施状态等信息,有助于用户快速了解业务及应用的监控状态,在发生告警信息后,能快速进行处理。

# 业务管理

业务管理方便用户自定义业务平台,管理平台下的应用,以及应用下所关联的基础设施。用户可以创建业务,在业务下创建应用,应用下可以关联基础设施。

# 业务管理

业务是对用户所使用的多个应用的平台的一个抽象,业务下可以添加多个应用。对于业务功能,您可以进行增加,修改,删除操作。

创建业务

进入到业务监控下的业务管理,点击"新建业务"按钮,弹出"创建业务"窗口,如下图所示,输入业务的名称和业务内容,点击完成按钮,完成业务创建操作。

修改业务

选中要操作的业务,点击后边的"修改"按钮,弹出"修改业务"窗口进行修改业务名称和也内容,点击确认按钮,完成业务的修改操作。

删除业务

选中要操作的业务,点击后边的"删除"按钮,弹出"确定删除该业务吗"提示弹窗,弹出"确定删除平台吗"提示弹窗,点击确认按钮,完成业务的删除操作。

# 应用管理

应用管理包括在业务下添加应用,在平台下添加应用,其中应用还可以关联基础设施等内容。

# 添加应用

添加应用包括业务下添加应用,平台下添加应用等内容。

添加应用

选择具体的业务,点击选中的具体业务,后面出现"新增"按钮,选择"新增"按钮,弹出"创建平台/应用",在上方选中业务。

目前系统中添加应用最多支持:业务-平台-应用三层。

添加平台下的应用

在已创建的业务,点击业务编辑,进入业务编辑界面,在业务列表界面点击"新增"按钮,弹出"创建平台/应用",在上方选中应用,输入应用的名称和内容,点击确认按钮,完成应用的创建操作。

修改应用

在已创建的业务,点击业务编辑,进入业务编辑界面,在业务列表界面点击需要修改的应用"修改"按钮,弹出"修改应用"弹窗,修改应用的名称和内容,点击确认按钮,完成应用的修改操作。

删除应用

在已创建的业务,点击业务编辑,进入业务编辑界面,在业务列表界面点击需要删除的应用"删除"按钮,弹出"确定删除应用吗"提示弹窗,点击确认按钮,完成应用的删除操作。

# 绑定设施

应用可以进行关联设施,用户可以通过应用管理应用所使用的设施,这样使用户更方便管理所使用的基础设施资源。

关联设施的前提条件是系统中已经添加了一些基础设施。

在已创建的业务,点击业务编辑,进入业务编辑界面,选择具体的子应用,点击右上方的"绑定设施"按钮,弹出绑定设施的对话框,根据设施类型可以添加应用所使用的基础设施,选择一种类型的设施后,可以进行切换选择其他类型的设施。

查看应用的设施

选择具体的子应用,右侧可以查看该应用所关联的设施。

移除应用的设施

选择具体的应用,右侧可以查看该应用所关联的设施列表,选择右边的"移除"按钮,进行移除操作。

# 绑定拨测

应用可以进行关联设施,用户可以通过应用管理应用所使用的拨测,这样使用户更方便管理所使用的拨测资源。

关联设施的前提条件是系统中已经添加了一些拨测监控。

在已创建的业务,点击业务编辑,进入业务编辑界面,选择具体的应用,点击右上方的"绑定拨测"按钮,弹出绑定拨测的对话框,根据拨测协议类型可以添加应用所使用的拨测服务。

查看应用的设施

选择具体的子应用,右侧可以查看该应用所关联的设施。

移除应用的设施

选择具体的应用,右侧可以查看该应用所关联的设施列表,选择右边的"移除"按钮,进行移除操作。

# 业务拓扑

业务拓扑是对一个具体业务的图形化展示,可以清晰的反映该业务下有哪些应用,应用下有哪些基础设施,

业务拓扑也具有业务监控的功能,可以看到该业务拓扑下各应用及基础设施的监控状态。

进入业务管理下的业务拓扑,选择具体的业务拓扑,可以进行查看具体的业务拓扑图关系,

{width="6.679166666666666in" height="3.3569444444444443in"}

如上图所示,点击右上方的按钮可以进行居中,全屏查看,预览,放大,缩小等操作功能。

业务拓扑下应用及基础设施的监控状态信息。将鼠标移动到具体应用上,可以看到该应用的监控信息,具体如下图所示。

{width="5.768055555555556in" height="4.0159722222222225in"}

查看具体基础设施的监控信息,将鼠标移到具体的基础设施,可以看到该设施的监控信息,具体如下图所示。

{width="5.768055555555556in" height="4.1506944444444445in"}

业务拓扑下应用之间可以看到应用与应用之间的依赖关系。例如访问管理应用依赖于负载应用,则可以看到访问管理应用与负载应用之间的连线,具体如下图所示。

{width="5.768055555555556in" height="4.0875in"}

# 业务列表

业务列表方便用户统一查看业务的状态和监控情况,并可以查看业务详情、健康度详情和可用性详情,以及直观的看到业务下不同级别的告警的数量和设施状态等。帮助运维人员快速找到故障业务,并根据故障找到故障源,从而解决故障。

# 业务列表总览

业务列表总览包括所有业务的名称、状态、健康度、可用性、设施状态、告警数量等,帮助运维人员直观的看到业务和业务的信息。

# 业务详情

在业务列表中,点击业务的名称,进入到业务详情,可以看到业务的基本信息以及业务的下设施和设施的属性状态等,如下图所示。

# 健康度详情

在业务列表中,点击对应业务的健康度,进入到健康度详情,可以看到业务下正常和告警的指标数情况,并能找到每个设施下不同级别的告警数量,如下图所示。

# 可用性详情

在业务列表中,点击对应业务的可用性,进入到可用性详情,可以看到业务下设施的可用状态,并能分类看到每个设施的可用状态,如下图所示。

# 知识库

# 业务概述

AMP的知识库构建了一套涵盖知识分类、发布、管理、查找全流程的智能知识库系统,极大限度提升了知识的共享价值,将多元的不同知识库类别分类别整合管理,并提供简单高效,方便快捷的智能搜索,极大提高相关业务人员和运维人员查找相应知识的效率。

知识库系统主要提供的功能包括:提供知识的共享渠道,并提供多种便捷的查询手段,系统用户通过简单的查询操作,即可以获得所需的知识;知识库系统提供知识文档的管理维护界面,提供给相关业务人员和运维人员发布和管理知识文档的功能;知识库系统提供便捷的分类展示功能,可以即时获取最新知识,或者是最火热的知识,还能即时保存和支持自己感兴趣或喜欢的知识。

# 知识库管理

知识库管理是对知识库对象所在的类别和类别下的知识的管理,根据知识库类别不同,从而进行相应的管理,其中知识库类别管理可以根据用户自身对知识所属类别进行分类和管理,方便用户对各种类别的知识统筹管理。

# 知识库类别管理

# 界面内容

知识库类别管理界面显示为树状的知识库类别列表,可以对知识库类别进行新增、修改、删除、添加新知识等操作。

# 进入管理界面

点击导航栏中的知识库->知识库管理。

# 操作

知识库类别管理提供新增类别、修改、删除、添加新知识的操作。

·新增知识库类别

新增知识库类别的操作可以立即创建一个知识库类别

操作步骤如下:

1.点击知识库类别后的新增按钮,弹出新建知识库类别对话框,填写类别名称后,点击确认即可。如下所示。

·修改知识库类别

修改知识库类别的操作可以修改已创建的知识库类别的信息

操作步骤如下:

1.在左侧知识类别列表中选中需要修改的知识库类别,点击修改按钮。

2.弹出修改知识库类别对话框,填写修改后的类别名称后,点击确定即可。如下所示。

·删除知识库类别

删除知识库类别的操作可以删除已创建的知识库类别

操作步骤如下:

1. 在左侧知识类别列表中选中需要删除的知识库类别,点击删除按钮。

2.弹出删除对话框,点击确定即可。如下所示。

# 知识管理

# 界面内容

知识管理界面显示知识的相关信息,列表中显示知识的标题、发布者、是否推荐、创建时间;可进行添加新知识、查看、修改、推荐、删除等操作。

# 进入管理界面

点击导航栏中的知识库->知识库管理。

# 操作

知识管理提供添加新知识、查看、修改、推荐、删除的操作。

·添加新知识

添加新知识的操作可以立即发布一个新的知识

操作步骤如下:

1.点击添加新知识按钮,弹出添加新知识对话框,填写标题(唯一)、类型、标签(按需)、摘要、内容、附件后,点击确认即可。如下所示。

·修改知识

修改知识的操作可以修改已发布的知识的信息

操作步骤如下:

1.在右侧操作列中点击修改按钮。

2.弹出修改知识库类别对话框,填写修改后的标题(唯一)、类型、标签(按需)、摘要、内容、附件后,点击完成即可。如下所示。

·删除知识

删除知识的操作可以删除已发布的知识

操作步骤如下:

1. 在右侧操作列中点击删除按钮。

2.弹出删除对话框,点击确定即可。如下所示。

# 知识库清单

知识库清单是对已发布的知识进行展示并提供多种便捷的查询手段,系统用户通过简单的查询操作,即可以获得所需的知识。知识库清单提供便捷的分条件展示功能,可以根据最新、关注、推荐、热榜即时根据用户的需求灵活获取所需的知识。

# 全部清单

# 界面内容

知识库全部清单界面显示全部知识的列表,根据发布时间的先后顺序排序,在这里可以用户可以看到知识库所包含的全部的知识,并可以在知识列表中对喜欢的知识行点赞、关注、查看详情等操作。

# 进入管理界面

点击导航栏中的知识库->知识检索->全部。

{width="6.6930555555555555in" height="2.363888888888889in"}

# 操作

知识库全部清单提供点赞、关注、查看详情的操作。

·点赞

点赞操作可以对有帮助或者写的好的知识点赞

操作步骤如下:

1.点击知识下方的点赞按钮,如下所示。

{width="6.679861111111111in" height="3.388888888888889in"}

·关注

关注操作可以把喜爱或者感兴趣的知识添加到关注列表

操作步骤如下:

1. 点击知识下方的关注按钮,如下所示。

·查看知识详情

查看知识详情的操作可以查看到该知识的完整内容

操作步骤如下:

1.点击知识的标题或者知识下方的阅读全文。

2.然后会跳转到知识的详情界面。

# 关注清单

# 界面内容

知识库关注清单界面显示关注的知识的列表,在这里可以用户可以看到所有已经关注的知识,并可以在知识列表中对喜欢的知识行点赞、关注、查看详情等操作。

# 进入管理界面

点击导航栏中的知识库->知识库清单->关注。

# 推荐清单

# 界面内容

知识库推荐清单界面显示推荐的知识的列表,在这里可以用户可以看到所有被推荐的知识,并可以在知识列表中对喜欢的知识行点赞、关注、查看详情等操作。

# 进入管理界面

点击导航栏中的知识库->知识库清单->推荐。

# 热榜清单

# 界面内容

知识库热榜清单界面显示浏览量最多的5条知识的列表,在这里可以用户最受大家欢迎的知识,并可以在知识列表中对喜欢的知识行点赞、关注、查看详情等操作。

# 进入管理界面

点击导航栏中的知识库->知识库清单->热榜。

# 智能搜索框

# 界面内容

智能搜索框可以快速智能方便的查找到用户所需要的知识,包括可以根据知识标题、内容、关键词、作者等多维度智能搜索用户想要查找的知识,智能搜索,一触即达。

# 进入管理界面

点击导航栏中的知识库->知识库清单。

# 操作

操作步骤如下:

1.在搜索框中输入想要查找知识的任意关键字,可以是标题、内容、关键词、作者等多维度的关键词。

# 拨测监控

# 业务概述

AMP的拨测监控提供了一系列包括对拨测点和拨测服务的监控,通过用户的不同拨测点对站点或服务器提供不间断监控。监控的内容包括服务器端口可用性、平均响应时间、响应状态码等,可快速定位可用性问题,有效提高运维效率,并可通过拨测告警策略配置报警规则,产生报警事件后,可通过邮件、短信、企业微信、Webhook等渠道发送告警消息。

拨测监控支持多协议监控,支持主流网络传输协议,包括HTTP/HTTPS、PING、DNS、TCP、UDP等,全面问诊站点业务健康。拨测监控主要提供的功能包括:提供拨测点管理,可通过分布式监测节点,持续监测站点质量。自定义拨测周期,持续关注拨测状态。并可快速定位到最后一次拨测状态,实时了解最近一次拨测的平均响应时间和响应状态码等。拨测分析可以帮助用户根据时间筛选监控数据,实时呈现在线站点业务的关键指标。故障记录会列出历史出现故障的所有记录条目数,根据故障记录可快速定位站点或服务器出现的问题。

# 拨测点管理

拨测点管理是对拨测服务所属的拨测点进行管理,管理分布式监测节点,实现监测拨测点的状态,方便用户了解监测节点的实时情况,以便对持续监测站点质量。

拨测点管理是对分布式监测节点的一个管理,用户可以添加多个不同区域的拨测点。通过拨测点管理,您可以进行增加,修改,删除等操作。

添加拨测点

进入到系统下的拨测点管理,点击"添加"按钮,弹出"添加拨测点"窗口,如下图所示,输入拨测点名称、拨测点地址、运营商网络、所在区域和描述,点击确定按钮,完成拨测点添加操作。

编辑拨测点

选中要操作的拨测点,点击后边的"编辑"按钮,弹出"修改拨测点"窗口进行修改拨测点名称和运营商网络、所在区域、描述等内容,点击确认按钮,完成拨测点的修改操作。

删除拨测点

选中要操作的拨测点,点击后边的"删除"按钮,弹出"您确定删除该拨测点吗"提示弹窗,点击确认按钮,完成拨测点的删除操作。

# 拨测监控

拨测监控是对已监控的拨测进行展示并可添加新的拨测监控,系统用户可以通过不同时间范围查看拨测的信息,并可以对拨测进行编辑、复制、删除等操作。还可以查看某个拨测的综合指标数据、最后状态数据、拨测分析数据、故障记录数据等。拨测监控还支持根据主流网络传输协议分类查看,或可以根据拨测所属业务查看。

# 综合指标

# 界面内容

拨测综合指标界面显示拨测服务的综合指标,可根据时间范围筛选不同时间段的拨测服务指标。并可根据拨测名称和拨测地址快速查询指定的拨测服务。在这里用户可以看到添加的全部拨测服务,并可以对拨测服务进行编辑、复制、删除、导出等操作。

# 进入管理界面

点击导航栏中的监控->拨测监控->综合指标。

# 操作

拨测监控的综合指标提供编辑、复制、删除、导出的操作。

·添加

点击"添加"按钮,弹出"添加拨测监控"窗口,如下图所示,输入拨测名称、所属业务、拨测协议、拨测地址、拨测周期、拨测点和监控引擎,点击确定按钮,完成拨测监控添加操作。

·编辑

选中要操作的拨测监控,点击后边的"编辑"按钮,弹出"修改拨测监控"窗口进行修改拨测监控名称、所属业务、拨测协议、拨测地址拨测周期、拨测点等内容,点击确认按钮,完成拨测监控的编辑操作。

·复制

复制操作可以复制出相同设置的拨测监控。

操作步骤如下:

  1. 选中要操作的拨测服务,点击后边的"编辑"按钮。

·删除

选中要操作的拨测监控,点击后边的"删除"按钮,弹出"您确定删除拨测服务吗"窗口,点击确定按钮即可删除拨测监控。

·导出

点击"导出"按钮,即可下载导出的拨测监控文件,完成拨测监控导出操作。

# 最后状态

# 界面内容

拨测最后状态界面显示拨测服务的最后一次拨测的指标值。可根据拨测名称和拨测地址快速查询指定的拨测服务。在这里用户可以看到添加的全部拨测服务的最后一次拨测结果以及最后一次拨测的拨测时间、拨测结果、状态码、响应时间。

# 进入管理界面

点击导航栏中的监控->拨测监控->最后状态。

# 操作

拨测监控的最后状态列表提供导出的操作。

·导出

点击"导出"按钮,即可下载导出的拨测监控文件,完成拨测监控导出操作。

# 拨测分析

# 界面内容

拨测分析界面提供统计分析、状态码、拨测结果、响应时间趋势和可用性趋势的图表,在这里用户可以看到拨测的详细信息,包括拨测名称、所属业务、拨测地址、拨测协议、SSL证书过期时间、拨测周期等详细信息。并可通过拨测分析图表直观的看到拨测监控的情况。

# 进入管理界面

点击导航栏中的监控->拨测监控->拨测详情->拨测分析。

# 故障记录

# 界面内容

故障记录可以看到该拨测监控下的全部去故障记录,包括故障拨测监控的所属拨测点、运营商、区域、拨测协议、拨测时间、拨测结果和状态码等。

# 进入管理界面

点击导航栏中的监控->拨测监控->拨测详情->故障记录。

# 设施发现

# 业务概述

设施发现是监控系统一项重要能力,AMP目前支持通过HTTP、HTTPS、SNMP等协议发现IT系统中的设施实例。通过指定发现协议,IP或者IP范围、执行间隔时间,自定义发现规则,系统按照发现规则定期进行设施发现操作。发现的设施将在发现设施列表页面统一展示,支持将发现的设施批量导入到监控列表。

# 发现规则

设施发现是监控系统一项重要能力,AMP目前支持通过HTTP、HTTPS、SNMP等协议发现IT系统中的设施实例。通过指定发现协议,IP或者IP范围、执行间隔时间,自定义发现规则,系统按照发现规则定期进行设施发现操作。发现的设施将在发现设施列表页面统一展示,支持将发现的设施批量导入到监控列表。

# 新增规则

填写规则发现策略,点击【确定】,策略新增成功后执行一次发现操作,之后按照设置的发现周期进行自动发现。

# 删除规则

规则支持单个以及批量删除,规则删除后该规则下的设施同步删除。

# 启用/禁用规则

禁用状态下的规则不执行发现操作。

# 发现设施

通过发现规则发现的设施将在发现设施列表中展示,支持批量将设施导入到设施监控列表,导入设施列表时需要选择该设施的类型,导入成功后可以在 '设施监控'页面查找到该设施。

# 平台自监控

# 业务概述

对AMP平台自有组件服务进行监控,目前平台的组件有监控引擎服务,拨测监控服务,网络监控服务,监控应用服务,告警服务,掌握各组件的运行状态,组件运行发送故障时自动触发告警。

# 服务列表

显示各组件服务名称,服务地址,运行状态,运行状态由‘正常’转到‘离线’持续1分钟后将触发告警。

# 容器云监控

# 业务概述

容器云监控是AMP监控平台提供的容器监控功能,帮助用户监控kubernetes集群,以及对集群各种资源对象及监控数据的展示。监控包括以下内容:集群监控,命名空间,节点监控,资源监控,其中资源监控包括资源概览、工作负载,服务访问、存储卷、配置。

# 集群监控

集群监控是将用户的k8s平台注册到AMP监控平台,监控平台后续会获取到相应的资源数据信息,以及资源的监控状态。

在注册集群之前,需要用户先搭建k8s集群,以及部署监控k8s的监控引擎。

操作步骤:

  1. 点击导航栏产品,选择容器云监控,进入集群监控,选择集群,点击注册集群,如下图所示,输入及选择相应的内容,点击完成按钮,完成集群的注册。

集群名称:用于该集群的唯一标识,必选项。

集群类型:共有云集群,私有云集群,二选一,非必选项。

监控引擎:选择监控该k8s的监控引擎,可以选择的监控引擎都是容器类型的监控引擎,必选项。

CNI插件:Flannel, Calico, Weave, OpenvSwithc,其他等类型,非必选项。

认证方式:无认证,Token认证,Basic认证,TLS认证,非必选项。

若选择无认证,不需输入任何内容

若选择Token认证,在下方输入相应的Token

若选择Basic认证,在下方输入相应的用户名,密码

若选择TLS认证,在下方输入相应的CA证书,服务端证书,服务端秘钥

API服务地址:k8s集群暴露给外部可以访问资源的接口,必选项。

集群描述:集群的描述补充信息。

  1. 修改集群

在集群监控界面,选择一个集群,点击修改按钮,进入修改集群界面,进行修改相应的内容,与添加集群界面参数相同。

  1. 删除集群

在集群监控界面,选择一个集群,点击删除按钮,进入删除集群界面,点击确定删除按钮,完成集群删除操作。

  1. 查看集群

在集群监控界面,可以看到多个集群的列表信息,点击详情,可以查看集群的概览、APIServer监控、Scheduler监控、Controller Manager监控信息。

# 命名空间

namespaces是k8s集群中的虚拟化集群。在一个k8s集群中可以拥有多个命名空间,它们在逻辑上彼此隔离。可以用来将系统内部的对象划分为不同的项目组或用户组。该部分是对该具体集群中的命名空间进行展示。

命名空间列表展示。

点击产品导航栏,选择容器云监控,进入集群监控,点击命名空间,进入命名空间列表界面,选择相应的集群,也可以根据右上方搜索框进行模糊匹配,命名空间查询列表如下图所示。

# 节点监控

节点监控是可以查看某个具体k8s集群中各个工作主机,包括k8s集群中的master节点和node节点。Node通常是物理机、虚拟机或者云服务商提供的服务器资源。节点管理可以查看该节点的状态,容器组,cpu使用量,内存使用,本地存储等信息。

节点列表查看

具体操作:

点击导航栏产品,选择容器云监控,进入集群监控,点击节点,选择按CPU,内存使用率,内存存储使用率,容器组使用数量排序,可以看到排序展示所有节点的列表,可以在搜索框中输入名称模糊查询。

节点详细查看

在集群节点展示界面,点击每条节点记录右方的监控详情按钮,可以查看到该节点的详细信息,如下图所示。上边位置显示的是节点的基本信息,下边分别显示该节点中的容器组,监控详情,事件信息。

点击下方的监控按钮,可以看到该节点的详细监控图表信息,包括CPU核分配、容器组分配、内存分配等内容,如下图所示。

# 资源监控

# 资源概览

点击导航栏产品,选择容器云监控,进入集群监控,点击集群监控的详情,进入监控详情界面,可以看到24小时内集群资源用量曲线变化图信息,包括无状态、有状态、守护进程集、容器组、任务、定时任务、服务、路由、存储卷、配置项、密钥、以及命名空间变化趋势曲线图,如下图所示。

# 工作负载

进入工作负载界面,可以查询无状态、有状态、守护进程集、容器组、任务、定时任务、服务信息。

  • # 无状态

无状态管理是对集群监控的deployment管理,是k8s中众多控制器的一种,用来管理pod的生命周期,在AMP平台中,主要是查看deployment中的pod的信息。

无状态,有状态,守护进程集的列表展示,容器组,访问方式,事件等信息的查看基本一致。

具体操作:

1.查看无状态列表

点击导航栏产品,选择容器云监控,进入集群监控,点击集群监控的详情,进入监控详情,点击工作负载列表,查看无状态列表信息,如下图所示。

{width="4.471527777777778in" height="2.1180555555555554in"}

2.查看详情

点击列表中的详情按钮,可以看到一个无状态deployment的详细描述信息,及关联的容器信息,下面分别是容器组,访问方式,事件信息。

{width="5.6618055555555555in" height="2.5104166666666665in"}

查看容器组内的资源,选择容器组列表中的一个资源,点击右边的详情按钮,可以查看到该容器组内的详细信息,如下图所示。

访问方式包括两种,服务service和路由ingress两种,点击访问方式,可以看到该无状态资源的访问方式,如下图所示。

{width="6.002083333333333in" height="1.2895833333333333in"}

点击下方的事件按钮,可以看到该无状态服务相关的事件信息,如下图所示。

{width="6.014583333333333in" height="0.7604166666666666in"}

3.yaml信息查看

进入无状态列表展示界面,点击查看YAML按钮,可以看到该资源的具体yaml信息。如下图所示,可以看到该deployment的详细信息,可以进行复制和另保存。

  • # 有状态

有状态管理是对k8s集群中的statefulSet的管理,是k8s中的一种控制器,用来管理pod的生命周期,

有状态会保存pod的相关状态信息在相应的存储设备中,在pod重新启动后,相应的数据信息不回丢失。

具体操作:

  1. 查看有状态列表

点击导航栏产品,选择容器云监控,进入集群监控,点击集群监控的详情,进入监控详情,点击工作负载列表,选择有状态分页,查看有状态相应的资源列表信息,如下图所示。

  1. 查看详情

在列表展示界面,点击详情,进入详情界面,查看有状态statefulSet的基本信息,容器组,访问方式,事件等信息。

  1. Yaml信息查看

在列表展示界面,点击查看YAML按钮,查看具体的yaml信息。

  • # 守护进程集

守护进程集是对k8s集群中的daemonSet的管理, 是k8s中的一种控制器,用来管理pod的生命周期,一个DaemonSet对象能确保其创建的Pod在集群中的每一台(或指定)Node上都运行一个副本。

具体操作:

  1. 查看守护进程集列表

点击导航栏产品,选择容器云监控,进入集群监控,点击集群监控的详情,进入监控详情,点击工作负载列表,选择守护进程集分页,查看守护进程集资源列表信息,如下图所示。

  1. 查看详情

在列表展示界面,点击详情,进入详情界面,查看守护进程集的基本信息,容器组,访问方式,事件等信息。

  1. Yaml信息查看

在列表展示界面,点击查看YAML按钮,查看具体的yaml信息。

  • # 容器组

容器组管理界面是对所有的容器的管理,对于无状态,有状态,守护进程集中创建的各种pod容器,在这里都能找到,可以查看该容器的基本信息,所使用的cpu核数,内存使用量等信息。

具体操作:

  1. 查看容器组列表

点击导航栏产品,选择容器云监控,进入集群监控,点击集群监控的详情,进入监控详情,点击工作负载列表,选择容器组分页,查看容器组资源列表信息,如下图所示。

  1. 查看详情

在容器组列表展示界面,点击详情,可以看到该容器组的基本信息,所包含的容器,监控详情,以及相关的事件信息。

  1. 查看yaml详情

在容器组列表展示界面,点击查看YAML,可以看到该资源的详细信息。

  • # 任务

普通任务是k8s集群中的job资源,任务是对pod容器的管理,通过任务的方式去完成相应的操作流程,任务只需要成功完成一次,成功完成任务后,该pod容器资源的生命周期也结束。

具体操作:

1.查看普通任务列表

在集群监控界面,选择集群点击详情,进入详情,点击工作负载列表,选择任务分页,查看任务资源列表信息。每个普通任务可以看到该任务名称,所关联pod的执行情况等信息。

2. 查看详情

在任务列表展示界面,点击详情,可以看到该任务的基本信息,容器组信息,事件信息,如下图所示。

3. 查看yaml详情

在容器组列表展示界面,点击查看YAML,可以看到该资源的详细信息。

  • # 定时任务

定时任务时k8s中的cronJob资源,定时任务也是对pod容器进行的管理,与普通任务job一样,只需要成功执行一次即认为成功,与普通任务不同的是定时任务是定时触发的,在固定时间执行相应的操作。

具体操作:

1.查看定时任务列表

点击导航栏产品,选择容器云监控,进入集群监控,点击集群监控的详情,进入监控详情,点击工作负载列表,选择定时任务分页,查进入定时任务列表查看界面,可以根据集群名称,命名空间,定时任务名称等进行过滤。定时任务包括名称,镜像,挂起状态,调度计划等信息。

2. 查看详情

在定时任务列表展示界面,点击详情,可以看到该定时任务的基本信息,任务列表,以及相关的事件信息。

3.查看yaml详情

在定时任务列表展示界面,点击查看YAML,可以看到该资源的详细信息。

# 服务访问

  • 服务

服务是对k8s中service资源对象的描述,可以查看集群命名空间下的service信息,以及与service存在关系的无状态deployment,有状态的statefulSet等资源对象。

具体操作:

  1. 查看服务列表

点击导航栏产品,选择容器云监控,进入集群监控,点击集群监控的详情,进入监控详情,点击服务访问,进入服务列表,选择命名空间,查看信息。

  1. 查看服务详情

点击详情,查看服务详细信息,服务资源的详情包括服务的基本描述信息,与之关联的无状态列表,有状态列表,事件信息。

  1. 查看yaml详情

在列表查询界面,点击详情,查看该资源的详细描述。

  • 路由

路由是k8s中的ingress资源对象,用于定义与k8s内部service服务之间的访问关系。Ingress中包括访问路径与k8s服务的对应关系的一些规则等信息。

具体操作:

1.查看ingress列表

点击导航栏产品,选择容器云监控,进入集群监控,点击集群监控的详情,进入监控详情,点击服务访问,进入服务访问列表查看界面,点击路由分页,选择命名空间,查询路由的列表信息。

2查看详情

在路由列表展示界面,点击详情,查看路由详细信息,包括基本信息,规则,事件,其中规则包括:域名,路径,后端服务,服务端口,表达的含义是,通过域名,端口访问特定的路径下资源后调用k8s集群中不同的服务service,具体展示如下所示。

# 存储卷

存储卷是对k8s中PV,PVC资源的描述,在AMP平台中,是对这些资源的管理,包括对存储卷,存储声明,存储类的查看等功能。

具体操作:

1.查看存储卷列表

点击导航栏产品,选择容器云监控,进入集群监控,点击集群监控的详情,进入监控详情,选择存储卷,进入存储卷列表查看界面,选择存储卷那一项,可以根据集群名称,存储卷名称等进行过滤查询。

2. 查看存储声明列表

在存储卷列表展示界面,切换到存储声明那一项,可以根据集群名称,命名空间名称,存储声明名称等进行过滤查询。存储声明中包括名称,内存总量,访问方式,存储类型,匹配的存储卷,状态等信息,具体如下图所示。

3. 查看存储类列表

在存储卷列表展示界面,切换到存储类那一项,可以根据集群名称,命名空间名称,存储类名称等进行过滤查询。存储声明中包括名称,供应者,卷绑定模式,回收策略,允许卷拓展等信息,具体如下图所示。

4.查看yaml详情

在对上面三种资源进行列表查看时,均可以点击查看YAML,查看某特定资源的详细信息。

# 配置

  • 配置项

配置项是k8s中的configMap资源,一般是对配置信息的保存于描述。

具体操作:

1.查看配置项列表

点击导航栏产品,选择容器云监控,进入集群监控,点击集群监控的详情,进入监控详情,点击配置,进入配置项列表查看界面,可以根据命名空间,配置项名称等进行过滤。

2. 查看详情

在配置项列表展示界面,点击详情,可以看到该配置项的基本信息,所包含的配置项Key,配置项值得信息。配置项Key一般是配置文件,而配置项的值则是配置文件的内容,如下图所示。

3.查看yaml详情

在配置项列表展示界面,点击查看YAML,可以看到该资源的详细信息。

  • 保密字典

保密字典是k8s中的secert资源,保存是的一些具有保密类型的资源信息,包括名称以及对应的值相关信息。

具体操作:

1.查看保密字典列表

在集群监控界面,选择集群点击详情,进入详情,点击配置,进入配置项列表查看界面,选择保密字典分页,进入保密字典列表界面,可以根据命名空间,保密字典名称等进行过滤查询。列表信息包括名称,类型,命名空间等基本信息。

2. 查看详情

在保密字典列表展示界面,点击详情,可以看到该保密字典的基本信息,详细信息,其中详细信息包括key及对应的值,如下图所示。

3.查看yaml详情

在保密字典列表展示界面,点击查看YAML,可以看到该资源的详细信息。

# 工单管理

# 业务概述

工单管理系统,是IT运维系统重要的一个功能。一个设计良好的工单管理系统,可以提升管理效率,优化服务体系。用户可以通过工单提单页面,将需要处理的问题通过工单的形式提交上报,工单会流转到运维手中,并开始处理。用户可以随时查看工单的处理进度,并且可以得到及时的反馈。同时在,在工单流转的过程中,用户可以补充问题,参与问题的解决,使问题能够得到更快更好的处理。

AMP的工单系统分工单提单系统和工单处理系统两部分。用户在控制台首页通过快捷入口进入到提单页面和管理用户已经创建的工单。运维工程师则通过工单处理系统对用户工单进行响应和处理。AMP创建工单的方式有两类,一是自己提交工单,根据实际需求提交工单,二是系统自动生成的工单,由运维监控系统自动创建的工单,具有一定的自动化能力。工单处理系统除了处理工单之外,还提供一定对数据统计能力,展示出工单的整体处理情况和运维人员对工单的响应和处理效率。

# 工单提单系统

工单提单系统是面所有向AMP用户的,用户可以根据实际情况和需求提交工单。入口如下图所示:

# 我的工单

我的工单菜单是用户管理和查询自己创建的工单的页面。在这个页面中用户可以随时查看工单的进度,和运维工程师进行沟通,撤销不需要处理的工单,关闭已经解决的工单并给此次工单处理服务打分。

# 新建工单

用户通过控制台首页的工单快捷入口可以进入到创建工单界面。AMP的工单根据服务和具体问题划分,首先用户需要选择工单所属的服务,然后是工单的问题类型,平台已经集成了常见的问题类型。然后用户需要填写工单的详细描述信息,保密字段用于用户需要提交的敏感信息,如账号密码等,后台会对数据做加密处理,保护用户数据安全。用户可以填写联系方式和指定联系时间。最后点击提交按钮就完成了一个工单的新建和提交。

# 工单管理系统

工单管理系统对AMP的运维管理员和运维人员开放,主要是处理用户和系统生成的工单,获取工单的统计概览信息。

# 工单概览和统计

工单概览统计显示当前平台的所有工单的统计信息,如全部工单数、已处理工单数、当前未处理工单数、平均工单响应时间、平均工单处理时间等。工程师工单统计可以直观显示某个工程师的具体工单处理情况。只有运维管理员才有权限查看工单概览和工程师工单统计。

# 工单中心

工单中心是整个工单管理系统的工单调度中心。工单中心可以查询平台上所有工单的信息。运维人员在工单中心可以进行指派、接受工单操作,进行工单的分发,指定具体的工单处理人。

# SLA服务水平

Sla服务水平菜单界面主要是一段时间内未受理的工单的快捷入口。运维人员可以方便的查看到超过24h和48h还没被受理的工单,提醒运维人员尽快对长时间未受理的工单进行响应,提升用户体验。

# 我的工单

我的工单是运维人员需要处理的工单的展示页面,只能查看到当前登陆用户作为工单处理人的工单,分为未解决和已解决工单。未解决工单包括已受理、处理中的工单,已解决工单则是运维人员标记已解决、已关闭的工单。

# 工单详情

工单详情页面展示工单的详细信息,在工单的查询列表中点击查看详情即可进入到工单详情页面。在工单详情页中,运维人员和工单用户都可以通过发送留言随时进行沟通交流,工单处理情况则实时显示工单的当前进度和历史处理信息。

# 访问控制

# 业务概述

本章主要描述AMP的控制设置和访问管理。AMP的访问控制台集成了用户管理、用户组管理、用户授权、角色管理、项目管理、审计日志的功能模块,是整个AMP监控平台的管理和控制中心。

# 用户和用户组

用户是AMP的使用者的信息载体,一组账号密码等信息的集合。AMP通过用户进行登陆认证和权限分配等。用户组是用户的集合,用来统一管理用户。

# 用户的创建和管理

用户包含有账号、密码、用户姓名、联系电话、备注等信息。AMP平台使用用户的账号和密码进行登陆认证。在用户管理模块中可以对用户进行创建、修改、查看、启用禁用等操作。启用和禁用状态表示能够通过该用户登陆AMP,启用状态的用户可以登陆到AMP,禁用状态的用户则无法登陆。启动和禁用状态可以进行切换。

# 用户组的创建和管理

用户组是用户的集合,通过组管理用户,进行用户归档,方便用户的查询、查看和管理。在用户组管理模块中可以进行用户组创建,添加用户、查看用户组、删除用户组等操作。在创建用户组时候可以选择要添加进组内的用户,创建完成后也可以进行添加用户和移除用户的操作。删除了用户组并不会删除组内的用户。

# 用户个人信息维护

在用户信息模块中,可以查看当前登陆用户的详细信息,可以对当前登陆用户的用户姓名、手机号码、邮箱地址、密码、备注信息、用户开发商进行修改配置。

图 16-3用户信息

# 角色管理

"角色"是用于权限控制功能的一个抽象概念,一个"角色"代表了一组权限的集合,不同的角色可能会包含不同的权限。AMP监控平台通过给用户分配不同的角色,而角色又有不同的权限,实现用户的权限管理。总体上来说,就是用户所拥有的权限,就是用户当前的角色的权限的并集。

# 角色的创建和管理

在角色管理模块中,用户可以进行创建自定义角色、对自定义角色分配权限、修改角色信息、删除角色的操作。

图 166-4角色列表

  • 新建角色

角色管理界面选择新建角色进入新建角色界面。

角色名称:角色的名字标识,建议选用能够标识该角色主要功能的名称。

角色描述:对角色进行详细描述的信息。

服务类型:不同的服务包含不同的权限,根据角色功能需求选择不同的服务类型,如需要给角色分配控制台的权限,就需要勾选控制台管理服务。

点击进入下一步后就可以进行具体的权限分配,勾选中的权限就是要给角色分配的权限。勾选完后点击完成按钮,就完成了一个自定义角色的创建过程。

  • 分配权限:对于已创建好的自定义角色进行权限的修改。

  • 修改角色:修改角色的名称和备注信息。

  • 删除角色:删除自定义的角色,只能删除没有分配给用户的角色,如果该角色已经分配给了用户,需要到分配角色功能解除与用户的关系后才能继续删除。

# 系统预设角色及权限

AMP监控平台预设有五个系统角色,对权限管理进行了大体上的划分。

表16.1 AMP系统预设角色


角色名称 角色描述

super_admin 超级管理员,拥有所有的权限

sys_admin 系统管理员,拥有控制台的所有权限,可以进行用户信息修改,权限设置,查看审计日志等权限

sec_security 安全保密员,只拥有控制台下的授权管理和角色管理功能模块的权限,可以进行用户的权限管理相关功能。

sec_auditor 安全审计员,只拥有控制台下的日志审计管理的权限,只能进行日志审计的相关操作。

biz_admin 监控运维人员,只拥有监控服务下的所有权限,可以对监控服务下的所有功能模块做操作。


# 用户授权

用户授权模块是对用户的角色进行操作的模块。用户可以进行用户权限查看、用户权限修改的操作。

# 用户授予角色

角色是AMP所有功能权限的一个子集,通过对用户授予不同角色,间接地实现对用户授予不同的权限。如果角色之前的权限有重复,权限会覆盖掉。在用户授权功能页,点击要修改的用户右边的分配角色按钮,弹出分配角色窗口。通过勾选不同的角色对用户的角色进行分配,点击确认按钮就完成了分配角色的操作。

# 查看授予用户的权限

要查看某一用户所拥有的权限,在用户授权功能页点击用户的名字或者"查看"按钮就可以进入到用户的权限详情页。详情页只是展示用户的角色集合的权限集合,不能对用户的权限进行勾选和修改。

# 公告管理

公告管理模块是用来发布公告信息或及时通知的功能模块,可以帮助用户便捷高效的发布公告、查看公告、管理公告。

# 公告的创建和管理

在公告管理功能详情页中可以进行发布公告、编辑公告、删除公告的操作。公告的类型分为服务公告、安全公告、升级公告和其他公告。

# 公告栏展示

在用户登录后,可以在控制台的左侧找到公告栏,公告栏中能看到最新发布的公告信息。

# 公告栏内容

在公告栏中点击需要查看内容的公告标题,可以查看公告详细内容。

# 操作日志

# 操作日志审计

AMP监控平台会将登陆用户所做的重要操作进行审计日志记录。通过审计日志可以知道什么用户在什么时候做了什么操作。例如:用户A在2019.12.01日新增加了一个用户,那么这个信息将会被记录下来,用户可以通过查看日志审计得知这一条信息。AMP监控平台的很多操作如用户创建删除、启用或禁用用户、用户的权限变更、监控任务变更、监控模板变更等许多的操作都会进行审计日志记录。审计日志能让平台的维护和管理更加有条理、让信息的改动变更有迹可循。

# 采集器部署

# 业务概述

在AMP v3.3版本中实现对Linux、Redis、Nginx、EAS的采集器自动部署功能。通过AMP页面进行采集器的安装部署,实现设施快速监控配置。

# 单个部署

用户在web页面输入部署地址的相关配置信息,包括远程主机IP、端口、安装路径、SSH用户名、SSH密码即可通过远程服务进行采集器的安装部署。

目前提供两个功能入口

  • 监控模板

    在监控模板页面,对于支持采集器自动部署的设施类型,可直接点击【部署采集器】按钮,填入相关信息,点击确定,将进行采集器的安装。

  • 监控配置

    在设施监控列表,对于采集器状态为'未配置'的设施,点击【监控配置】

进入到监控配置页面后在'监控配置 -> 采集器配置'中点击【部署】,填入相关信息,点击确定,将进行采集器的安装。

采集器部署成功后,采集状态将展示为'正常'

说明:

  1. 通过监控配置模块部署的采集器默认与当前设施关联,通过监控模板安装的采集器不与设施关联

  2. 如果采集器以及安装,则在监控配置中可以使用【配置】功能填入采集器IP。

#

# 术语表

# 约定与术语

一些约定的缩略词诠释:

  • AAS

    金蝶Apusic应用服务器(Apusic Application Server)

  • OID

    对象标识符(Object Identifiers)

  • MIB

    管理信息基础(Management Information Base)

  • SNMP

    简单网络管理协议(Simple Network Management Protocol)

  • SMTP

    简单邮件传输协议(Simple Mail Transfer Protocol)

  • TLS

    安全传输层协议(Transport Layer Security )

  • Kubernetes

    CNCF基金会开源的容器编排管理平台

  • APM

    应用性能管理(Application Performance Management)

  • CMDB

    配置管理数据库(Configuration Management database)

  • ApdexScore

    性能指数,Apdex(Application Performance Index)

编辑页面 (opens new window)

← 安装手册 开发手册→

  • 浅色模式