产品白皮书
# 产品概述
# 产品名称
金蝶Apusic智能告警(Apusic Alarm,简称:AAlarm)
# 产品定位
Apusic智能告警是Apusic智能运维平台核心的告警处理模块,实现多源告警事件的统一接入和管理,同时引入AI、大数据、流式计算等技术对告警数据进行降噪,抑制,收敛,通过动态分派,升级,多渠道通知,告警处理等操作,提升运维能力。
# 产品的受众
- 运维工程师
- 技术工程师
# 核心能力
- 数据集成:多源告警事件统一接入和管理,形成丰富的大数据平台。
- 数据处理:加入AI、大数据、流式计算等技术将重复和冗余的噪音剔除,再通过规则或算法生成反映问题的事件。
- 自动化工作流:支持自定义通知策略,由行动策略根据配置动态分派给特定通知渠道通知到特定的人/班组。
- 多渠道通知:支持短信,邮件,协作工具,webhook多渠道通知告警信息。
- 知识同享:知识积累和自动复用,支持决策。
# 产品优势
# 一站式告警管理
多源监控系统的告警事件集成,自动化工作流,有效地将告警事件通知到对应的人/班组,同时集成工单系统实现事件处理跟踪,最后通过对处理方案知识积累做到知识共享,复用,支持用户决策。大大节省运维成本提升运维效率。
# 人工智能,智慧洞察风险
引入AI、大数据、流式计算等技术,我们从内容相似性、相关性进行数据挖掘和学习,对数据进行降噪,抑制,收敛,降低告警风暴的带来的影响。告别传统设置静态阀值,机动性弱的运维局面。
# 稳定可靠
利用有监督学习,提高算法收敛的准确性。高可靠的数据传输和存储,保证数据的可靠性。
# 产品架构
# 业务需求
# 告警数据接入
需要集成各类告警监控系统,实现告警数据的统一接入。
# 告警信息处理
支持各类型告警信息的存储,告警风暴的压缩处理。
# 告警通知
将告警信息通知给相关运维人员。
# 整体架构
智能告警平台提供5个功能模块,涵盖了数据接入、处理、人工智能模型训练、分析、到通知处理的完整告警处理链路。
# 技术架构

AlarmCollect
AlarmCollect是基于go编写的告警收集器,收集到的告警信息会写入Kafka中。这里选用at least once模式,保证消息不丢失,重复的消息会在告警收敛流程中被过滤。
Kafka
开源高吞吐量的分布式消息系统,用于不同组件之间的消息传递,在本系统主要传递告警源数据和收敛后的告警数据。系统会为不同的数据源创建不同的topic,保证的数据的隔离性。
AlarmConvergence
AlarmConvergence是整个智能告警服务的核心,即AI告警收敛引擎。基于Flink流式计算框架实现的AI算法,保证了告警数据的实时性。AlarmConvergence实现了告警信息的解析、去重、分组、抑制,收敛后的告警事件会被写入的Kafka中,供业务系统消费。
机器学习平台 基于MLFLow搭建的机器学习平台,主要提供模型托管,离线训练的能力
AlarmManager 智能告警平台的web服务,提供告警集成、告警通知等功能。
# 主要功能
# 监控系统集成
系统集成主要提供监控数据的整合。针对不同数据源,实现多种数据结构的标准化存储。
目前支持Apusic基础设施监控、Apusic日志监控、Apusic应用性能监控系统的集成。
# 告警管理
告警管理提供一套完整的告警管理流程。首先通过智能算法,将收集到的告警数据进行降噪,抑制,收敛,形成带有统一特征的告警事件。同时根据实际运维场景的不同支持多种处理方式。在问题解决后,将处理过程记录到事件解决方案中,沉淀知识以指导后续类似场景的处理。整个处理过程中记录关键节点相关日志,显示完整行动线。
# 通知策略管理
支持短信,邮件,钉钉,企业微信,云之家,webhook多种通知方式,稳定,多渠道将告警信息通知到相关方。
当前支持多级通知,轮询通知,通知对象群组管理,通知时间自定义,用户可以根据实际情况,灵活的配置通知策略。
# 运维排班
支持按照人员,时段,周期设置运维排班,排班计划生成后可以进行单天排班修改,满足突发造成的人员值班变动情况。
# 数据报表
系统从告警数据收敛情况,产生的告警数据情况等多个维度提供数据报表,可视化的数据呈现帮助用户更好的了解整个系统运行状况。
# 技术特性
# 统一告警
集成常用监控系统的告警通知,统一处理,大大节省运维成本提升运维效率。
# 智能告警
通过AI算法对采集的告警数据进行过滤、压缩、归并、聚合,通过关联分析技术,提取有效的告警信息上报告警中心。针对报警太多,通知人容易淹没在海量告警之中错过有用的关键告警信息的情况,平台对告警进行合理的收敛。
- 报警分组
将类似的报警分组,将同类的告警进行聚合为单个通知。在大面积的设施服务中断期间尤其有用,因为许多系统一次失败,并且可能同时发射数百到数千个警报。
- 报警抑制
当某个关键报警发出后,停止重复发送由此报警引发的其他警报,防止通知数百或数千个与实际问题无关的报警触发。
- 报警静默
静默可以在给定时间简单忽略所有报警,根据静默规则,若匹配成功则不会将警报通知给接收者。
# 灵活通知
多种通知方式,灵活的通知策略,以应对不同的需求
- 通知方式
钉钉、企业微信、云之家、阿里云SMS、腾讯云SMS、华为云SMS,邮件,webhook....
- 通知策略
灵活的策略配置,可以让运维人员针对不同的系统、不同级别的事件,指定不同的通知方案。
- 通知升级
对于需要重点关注的事件,可通过通知升级的方式,将运维能力聚焦于该问题上。
# 稳定可靠
- 数据可靠 高可靠的数据传输和存储组件,保证数据的不丢失
- 数据可信 利用有监督学习,提高算法收敛的准确性
- 稳定可靠运行 支持高可用部署,能够根据需要进行系统数据备份和恢复,保障平台的可靠稳定运行。
# 运行环境
# 硬件环境
服务器
Linux 服务器,以及支持华为鲲鹏或飞腾芯片的国产服务器
内存
8G或以上
硬盘
1TB以上
网络
千兆或以上
# 软件环境
操作系统
Linux 系统、中标麒麟(龙芯)系统、银河麒麟(飞腾)系统。
数据库
MySQL V5.5 及以上版本、南大通用 GBase8s v8.7、达梦数据库 v8.0、人大金仓数据库 v8.0、神舟通用数据库 V7.0.8
客户端
Chrome,Firefox,IE 11及以上版本浏览器
# 总结
# 应用价值
告警集成,统一通知
多源监控系统的告警事件集成,支持对Metrics,Trace,Log 等监控观测系统进行全面告警事件接入,处理。
人工智能,智慧洞察风险
通过AI算法对告警风暴进行压缩处理,算法模型持续对数据进行挖掘分析,不断改进,洞察风险。
自动化工作流,提升效率
支持自定义通知策略,根据配置的行动策略动态的将告警信息通过特定渠道通知到特定的人/班组。
知识同享,减少专家依赖
系统异常处理方案积累和自动复用,支持决策,降低运营成本。