用户手册
# 仪表盘
该模块展示系统接收到的告警整体概况,包括压缩率,告警数量等。
# 告警智能处理概览
- 展示历史原始告警数量,压缩率,智能告警事件数量。
- 展示告警数量 Top3 的告警应用,点击告警应用可以查看下面最新产生的三条告警事件

# 待关闭告警总览
- 按照告警级别展示待处理和处理中的告警数量以及等级占比情况。
- 外环显示告警处理状态的占比情况,内环显示告警状态的占比情况

# 告警处理数据
- 展示过去 7 天内日新增告警数,每日关闭告警数,每日剩余未关闭告警数。

# 告警数量 Top5 应用
- 展示告警数量排名前 5 的监控应用。
- 可筛选时间过去 7 天,过去 15 天,过去 30 天。

# 各系统告警总览
- 展示各监控系统告警数据情况,可按照自定义选择时间段。
- 可筛选时间过去 7 天,过去 15 天,过去 30 天。

# 告警集成
# 功能介绍
主要提供监控数据的整合。针对不同的监控系统,不同数据源,实现多种数据结构的标准化存储。
在 AAlarm 中集成模块,找到 '系统集成' 菜单,可以创建监控应用,目前提供两种集成模式:
- 通过 webhook 集成:Apusic AMP、Apusic AILP、Apusic APM、Prometheus 可以通过 webhook 将告警信息对接到 AAlarm 平台。
- 通过 Agent 集成:Zabbix 集成需要通过安装 Agent 探针,通过探针将告警信息对接到 AAlarm 平台。
同一监控系统下支持创建多个监控应用
# Apusic 基础设施监控
Apusic AMP 是金蝶 Apusic 运维平台下基础设施监控系统,可实现对主机、网络、存储、数据库、中间件、容器云等基础设施和业务应用系统进行全栈监控。通过集成 Apusic AMP 可以将基础设施相关的告警信息推送到 AAlarm。
#
创建监控应用:在 AAlarm 系统集成页面创建一个 Apusic 基础设施监控的监控应用,获取唯一 appkey
配置接口回调地址:进入 Apusic 基础设施监控系统,配置如下 HTTP 接口回调地址
{AAlarm 域名}/api/{appkey}/events1
设置报警策略:在 Apusic 基础设施监控系统对应的报警策略中勾选 ‘ HTTP 接口回调 ’

# Apusic 日志监控
Apusic AILP 是金蝶 Apusic 运维平台下的日志监控系统,提供一站式日志数据采集、清洗、结构化处理、大规模集中存储、可视化图表等功能。通过集成 Apusic AILP 可以将日志信息推送到 AAlarm。
找到 Apusic 日志监控项目中,config/application.properties 文件,新增 webhooks 配置如下:
aops.notice.enable=true aops.notice.webhook={AAlarm 域名}/api/{appkey}/events1
2

# Apusic 应用性能监控
Apusic APM 是金蝶 Apusic 运维平台下的应用性能管理系统,实现对数据中心、云计算以及容器云等环境中各类单体架构应用、分布式应用以及微服务架构应用进行非侵入式的实时监控获取服务端新能数据。通过集成 Apusic APM 可以将应用性能相关数据推送到 AAlarm。
- 找到 Apusic 应用性能监控项目中 config/alarm-settings.yml 文件,修改 webhooks 配置如下:
webhooks:
- {AAlarm 域名}/api/{APPkey}/events
2

# Apusic 智能运维
- 进入 Apusic 智能运维平台,配置 HTTP 接口回调地址:

# Zabbix
下载 Apusic Alarm 脚本;
在 zabbix 的 alertscripts 目录下解压脚本;
在解压出的脚本中找到 alert.sh 文件,修改 DC_URL 配置信息,如下:
DC_URL = "{AAlarm 域名}/api/{APPkey}/events"1执行安装
install.sh {APPkey}1

# Prometheus
修改 Prometheus 中插件 alertmanager 的配置文件(请确保已经安装 alertmanager 插件),编辑 alertmanager.yml ,修改 webhooks 配置如下:
webhook_configs: - url: ‘{AAlarm 域名}/api/{APPkey}/events’1
2
# 告警事件处理
通过系统集成,各监控系统产生的原始告警信息,会被接入到 AAlarm 平台,经过智能算法的去重,压缩,降噪等处理成代表某一类问题的告警事件。
# 告警事件等级
AAlarm 将告警事件分为四种等级,分别为:提示、警告、严重、灾难,各监控系统集成过来的告警信息将会被映射到这四个等级(映射规则请查看告警集成中对应部分)。
# 告警事件状态
- 待处理:告警事件产生时最初的状态,事件状态为 '待处理' 时,如果有新的告警信息被推送到 AAlarm 平台,通过算法的处理被判定与当前告警事件相同/相关,将会被收敛到该告警事件下,不会产生新的告警事件,可以在告警事件详情查看被收敛的告警信息。
- 处理中:告警事件被认领后,状态由 '待处理' 变为 '处理中',已经被认领的事件将不会再触发通知,事件认领后将在工单系统生成一个工单。
- 已完成:告警事件被处理完成。
提示:关闭告警事件的两种方式:
- 直接在页面点击【关闭】

- 对应的工单处理完成

# 告警事件处理流程
事件产生
集成的告警系统所产生的告警信息将被推送至 AAlarm,经 AAlarm 处理后形成告警事件。
- 事件通知
① 通知对象,通过设置的分派策略将告警事件通知给相应的对象,对象包括:
- 人:可以选择系统用户作为通知对象
- 组:将通知对象设置为组,告警事件产生后将通知到组内的所有成员
- 运维排班:根据各时间段的排班情况,将告警信息通知给对应的值班人员

② 支持升级通知和轮询通知,在告警事件 '待认领' 的状态下,会根据设置的升级通知和轮询通知规则进行通知
升级通知:在设置的升级通知时间内,告警事件无人认领则自动升级到下一级别通知,最多支持设置三级通知
轮询通知:开启轮询通知后,可以设置轮询时间和轮询次数
案例:升级通知为 2 级,间隔时间为 5min,轮询时间为 10min,轮询次数为 3 次,当告警事件产生后根据通知策略进行第一级通知,5min 后无人认领则进行第二级通知,再过 10min 后无人认领,则重新开始第一级通知,如此轮询 3 次,3 次轮询结束后仍然无人认领,则不再通知。
③ 通知渠道,目前支持短信、邮件、钉钉、企业微信、云之家、webhook 等多种通知类型。
提示:关闭告警通知的两种方式:
- 通知策略中设置
- 告警事件列表和详情页面可以关闭当前告警的通知
- 事件处理
运维人员接收到告警事件通知之后,可以登录到 AAlarm 系统进入告警事件管理页面查看具体的告警内容,可以选择 ' 认领' 或者直接 '关闭' 告警
认领:认领成功后,将会在工单系统生成一个工单,并且自动将工单分派给当前认领的用户,当工单状态。
关闭:'待处理' 的告警事件可以直接告警列表页操作 '关闭',关闭时需要选择反馈信息。
# 压缩规则
每个监控应用对应一套压缩规则,压缩规则中分为过滤、去重、抑制三个维度进行告警信息的压缩。
过滤
将符合条件的告警直接过滤
去重
一段时间内,符合条件被认定为重复告警,重复告警进行过滤
抑制
**抑制目标:**需要抑制的对象
**抑制源:**抑制后的对象
**约束条件:**约束条件值相同时进行抑制,比如约束条件设置为 “告警等级”,则告警等级相同时才会按照规则进行抑制

# 通知策略
AAlarm 支持自定义通知策略,通过通知策略设置可以实现告警事件的自动分发,用户以实际情况设置通知方式,通知渠道等,确保及时接收到告警通知。通知策略的设置主要包含以下几个部分:
事件源
选择需要接收的告警监控应用
- 告警状态
告警产生:设置成功后在告警事件产生的时将会发送通知。
告警恢复:设置成功后在告警事件处理完成,状态变为 '已关闭' 的时候发送通知。
- 告警级别
提供四个级别,提示、警告、严重、灾难,选择相应的级别表示出现该级别的告警事件时发送通知。
各监控应用自身的级别将会映射为这四个级别,具体映射规则如下:
| AAlarm 告警级别 | Apusic AMP | Apuic AILP | Apusic APM | Prometheus | Zabbix |
|---|---|---|---|---|---|
| 提示 | 未知,正常 | 1、2 | not_classified、information | ||
| 警告 | 警告 | WARNING | WARNING | 3 | warning、average |
| 严重 | 严重 | 4 | high | ||
| 灾难 | 灾难 | 5 | disaster |
注意:如果监控应用级别未知或者为空将会转换成级别 '警告'
- 通知对象
通知对象可选择人、通知组、排班计划,同一级别的通知策略要么选择人/组,要么选择排班计划;不同级别的通知策略中可以混选。
- 通知方式
- 短信:先集成短信 SMS 服务,通过集成的短信 SMS 服务,将告警事件通过短信的方式发送到通知人账号绑定的手机号上
- 邮件:先集成邮件服务,通过集成的邮件服务,将告警事件发送到通知人账号绑定的邮箱上
- 协作方式:协作方式是通过群机器人的方式,将告警信息通知到群组,AAlarm 支持钉钉、企业微信、蓝信、云之家 4 种协作方式,选择协作方式之前先集成相应的通知服务。
- webhook:先集成 webhook 服务,通过集成的 webhook 地址进行通知。
注意:如果配置了多个短信 SMS 服务并且都是 '启用' 状态则会收到多条通知短信。
- 轮询策略
开启轮询通知后,可以设置轮询时间和轮询次数
- 通知时间
任意时间:7*24 小时全天通知
指定时段:可以根据星期,时间段来设置通知时间,只有在设置的时段产生的告警事件才会触发通知。

# 成员管理
对成员进行分组管理,在进行通知策略设置时,可以直接选择通知组,则组里所有成员将会接收到告警通知。
进入 '通知' -> '通知对象' 模块,页面默认按照创建时间降序排列,点击 '新建通知组'
填写基本信息,选择通知组成员(通知组成员在系统用户中选择,如果成员未在系统用户中,可以在平台添加用户)

# 通知服务集成
# 短信
# 阿里云 SMS
- 在阿里云 SMS 平台创建好短信模板,签名
- 在 AAlarm 通知服务模块 > 短信 > 阿里云 SMS 下创建一个服务实例
# 腾讯云 SMS
- 在腾讯云 SMS 平台创建好短信模板,签名
- 在 AAlarm 通知服务模块 > 短信 > 腾讯云 SMS 下创建一个服务实例
# 金蝶云 SMS
- 在金蝶云 SMS 平台创建好短信模板,签名
- 在 AAlarm 通知服务模块 > 短信 > 金蝶云 SMS 下创建一个服务实例
# 华为云 SMS
- 在腾讯云 SMS 平台创建好短信模板,签名
- 在 AAlarm 通知服务模块 > 短信 > 腾讯云 SMS 下创建一个服务实例
短信模板格式建议:
- 告警产生:您的监控对象{object}出现{level}等级的告警事件${Id},异常内容为{content},来自:{system},请及时处理!
- 告警恢复:您的监控对象{object}出现{level}等级的告警事件${Id}已经恢复。
注意:短信模板中 {} 中的内容按照参考格式中填写,其它内容可自定义
# 协作
# 钉钉
在钉钉群组里创建一个机器人,配置机器人信息
在 AAlarm 通知服务模块 > 协作 > 钉钉 下创建一个服务实例,配置 Webhook 地址

# 企业微信
在企业微信群组里创建一个机器人,配置机器人信息
在 AAlarm 通知服务模块 > 协作 > 企业微信 下创建一个服务实例,配置 Webhook 地址

# 云之家
在云之家群组里创建一个机器人,配置机器人信息
在 AAlarm 通知服务模块 > 协作 > 云之家 下创建一个服务实例,配置 Webhook 地址

# 蓝信
在蓝信创建一个群组
在 AAlarm 通知服务模块 > 协作 > 蓝信 下创建一个服务实例,配置基本信息
- 服务器地址:蓝信所在的服务器地址
- 蓝信版本:6.0 or 6.0 以下
- AppID:蓝信 APPID
- AppSecret:蓝信 AppSecret
- 群组 ID:接收告警信息的群组 ID

# 邮件
- 在 AAlarm 通知服务模块 > 邮件下创建一个邮件服务实例,配置基本信息

# webhook
- 在 AAlarm 通知服务模块 > webhook 下创建一个 webhook 服务实例,配置基本信息

在集成各项服务时,填写完成后可以点击 '发送测试告警',可以根据配置信息将告警发送对应对象,短信将会发送给当前登录用户的手机号上,邮件将会发送到当前登录用户的邮箱上,协作将会发送到配置的群组中,webhook 将会发送到配置的 webhook 地址中。
# 运维排班
使用运维排班可以根据值班情况设置值班人员,告警事件产生时根据值班情况,自动通知到相应的值班人员,支持创建多个排班计划,排班日历可按照 '计划/人员' 两种方式筛选查看

每个排班计划包含以下内容:
- 排班状态
- 启用:正常使用
- 禁用:关联了通知策略的排班不可以被禁用,被禁用的排班也不可以被选择为通知对象
- 失效:过了生效日期的排班计划

班次
为了排班更加灵活,每个排班计划下可以创建多个班次(举例:排班计划相当于公交线路,班次相当于该线路下不同时段的发车班次)。一个排班计划中最多可设置 5 个班次

值班人员
在系统用户中选择,值班人员设置时排序位置是有作用的,在排班时会根据排班周期按顺序安排值班人员,支持拖动成员改变排序。

排班周期
- 周:按周循环排班
- 月:按月循环排班

排班时间
按照星期和时段选择

生效时间
可以设置开始时间和结束时间,最长可以设置 180 天

修改单个排班
点击排班日历中某个排班可以修改单个排班计划
