司宇 阿里智能化故障治理流程探索和实践

1. 阿里智能化故障治理流程 探索和实践 司宇(玄烨) 阿里巴巴-技术专家
3. 司宇 阿里巴巴-技术专家 • 阿里巴巴集团-安全生产委员会-GOC(全球运 行指挥中心),技术专家 • 负责阿里巴巴集团监控中心的团队管理及业 务/技术架构设计。在运维及运维平台建设领 域有丰富的经验 • 加入阿里巴巴前曾在小米、平安好医生主导 过自动化运维平台的建设
4. • 阿里巴巴故障治理背景介绍 • 阿里巴巴全局故障治理流程 • 基于AIOps的全局故障治理架构 • 故障治理实战案例 • 新零售/云计算等新业态给故障治理带来的挑战 • 智能运维大图
5. 业务环境给稳定性带来的挑战 业务数量巨大 订单量 49.1万笔/秒 业务形态差异较大 电商、金融、云计算、物流、新 零售、文娱、社交… 业务关联性复杂 用户行为对业务的影响 应用调用链路复杂
6. 线上故障需要统一的治理机制 业务故障统一发现 故障的影响面及根因统 一收口推送 要解决的问题: 平衡监控准确率和召回率 报警规则维护成本较大 跨BU故障协同处理 故障等级定义仁者见仁 故障判断条件繁多 故障快速恢复需要 统一的机制 千万级别的运维事件 哪些与业务故障相关? 跨BU故障如何定位根因 快速恢复场景稍纵即逝 如何实时决策触发切换? 如何快速响应并组织故 障处理
7. 阿里巴巴全局故障治理流程 业务流程 故障发现 故障定级 故障通告 故障辅助 定位 处理决策 故障快速 恢复 故障复盘 故障演练
8. 基于AIOps的全局故障治理架构 AIOps故障治理产品架构 智能监控大盘 相关事件推送 监控展示 智能基线 多指标关联分析 智能干系人管理 自动化通告 多维下钻 可疑应用分析 异常发现 故障通告 根因分析 故障治理生命周期 故障信息检索 快速恢复切换 故障自定义分析 信息流转 故障恢复
9. 故障治理实战案例 通告 • 自动化通告 • 核心故障秒级通告 • 故障知识图谱 排查 • 智能水位 • 故障自定义分析 故障发现 故障定级 故障通告 故障辅助 定位 处理决策 故障快速 恢复 故障复盘 故障演练
10. 人工故障通告 业务监控报警 人工判断影响 是否达到故障 人工根据故障 等级定义定级 慢 人工判断故障影响等级并组织通告内容发送一 般在5分钟左右 不可靠 人的主观因素会影响故障判级,不能确保故障 通告时效SLA,通告文案可能有错
11. 自动化故障通告 故障等级定义结构化 业务量下跌count 失败率跌至percent 智能基线计算跌幅 自动化故障通告 数据预处理 基线拟合 平滑去噪声 Modified STL 插值补缺 滑动平均 故障自动定级 通告95%准确 快速发出
12. 自动化故障通告 等级定义 监控 故障等级 故障概述 影响范围 通过多条监控规则, 触发自动化故障通告 生成自动化通告内 容,发送给业务方
13. 从分钟级通告到秒级通告 分钟级监控 故障发生 • 部分核心业务(如淘宝交易创建、支付宝交易创 建),一旦发生故障,等到分钟级报警发出,即 使立刻发出通告,报警发出之前业务已经产生巨 大损失 • 故障处理需要争分夺秒 报警发出 1-2分钟 • 涵盖了大部分业务,在业务发生重大故障时,一 般最快可在1-2分钟内发出报警,3-5分钟发出详 细故障通告 • 报警发出快慢与故障持续时长有直接的关系 减少故障损失 缩短故障时长 加快报警发现 改分钟级监控 为秒级监控
14. 核心故障秒级通告 秒级指标波动大,传统报警策略误报多 智能异常检测 异常判 定 特征工程 机器学习 时序分析 统计特征 One-hot 孤立森林 N-sigma 逻辑回归 自动反馈调节 集成 策略 接入条件:监控指标每秒数据量级>=500 准确率:80% 召回率:80% 零监控配置成本 减少故障损失 缩短故障时长 加快报警发现 趋势预测 异常发现 故障发生 通告发出 10-20秒
15. 故障知识图谱 • 故障场景复杂多样,目前暂无法做到所有故障自动化 通告。存在大量人工通告 • 人工故障通告,由值班同学根据平台提供的故障信 息,结合个人经验,组织发送给处理人。易出错 错误通告示例 rdma 1、人工发送的通告,出错率10%。其中90%由错别字导致 2、通过非结构化的故障通告, 如何快速找到故障处理人?快速 发现历史相关故障帮助处理? WHO?
16. 历史故障信息 实体识别 产品线、BU、人名、 关键词等实体抽取 实体关系 故障知识图谱 新故障通告 原因初步怀疑为RDMA异常 人工通告错误率 减少50% 实体抽取 实体查询 智能纠错 实体匹配度查 询 故障知识图谱 干系人推荐 故障推荐 历史故障匹配 度查询
17. 智能水位 关键业务包含的应用成百上千,如何快速发现应用容量瓶颈 • 多个系统指标映射为水位指标 • 取值0- 100衡量应用实时容量 • 通过水位发现业务容量瓶颈,提 供扩容依据 业务需求 水位特点 • 不受应用扩缩容影响 • 不受应用流量成分变化影响 • 无需应用压测极限值作输入 • 无需预先假设服务异常CPU临界值 多维指标映射,部分权重为线性关系,部分为非线性(阶跃拉升): 水位=w*[cpu, load, …]T+f(disk, mem, …)
18. 故障发生 故障自定义分析 监控、开发同学根据经验排查异常 人工故障分析 分机房指标 分析 容量问题排 查 全链路应用 状态分析 查看关联变 更 基础设施故 障分析 关联业务 分析 故障平均排查时间10分 钟,影响故障恢复时长 排查结果受不同人影响 较大,不可控 往往查询多个平台,影 响效率
19. 故障发生 智能异常检测 自动化故障 通告 故障秒级通告 故障知识图谱 故障自定义分析 多维下钻 分析 分机房下钻 通用分析 变更分析 变更大盘 跨BU基 础设施故 障分析 IDC/网络 全链路应 用分析 智能异常检 测 分门店下钻 中间件 故障平均排查时间1分钟 排查结论不受经验限制 自定义分析 关联业务 分析 …… 监控组 智能异常检 测
20. 新零售给故障监控带来的挑战 实体店故障给客户造成 的感受更直接 高峰期、活动业务不可 用,易引发社会群体事件 业务门店零散分布,中心 难及时感知故障及影响面
21. 故障分门店下钻 故障定位 故障总时长 20Min 减少4倍 2Min 1/4 故障分门店下钻分析->及时启动应急预案
22. 云计算给故障监控带来的挑战 云服务由于业务特 性,拥有大量个性 化基础设施,无法 统一监控 监控 系统 ECS RDS SLB OSS GOC CDN . 报警发送 . . 故障应急无法统 一查看监控、报 警数据,故障处 理成本高
23. 监控 系统 统一监控网关 ECS RDS SLB OSS CDN . . . Monitor GW 提高故障应急效率 通用参数 特定参数 报警发送 GOC 监控查看 • 抽象不同监控 系统 • 报警/监控统 一查看
24. 智能运维大图 AIOPS 质量 成本 效率 监控 根因分析 故障自愈 容量 调度 无人值守 运维机器人 时序异常检测 故障类型判定 自动化触发快恢 容量预测 资源调度 发布 信息流转 指标相关性分析 历史故障推荐 脚本执行环境 自动熔断 流量调度 值班 任务执行 报警收敛 可疑应用/事件推荐
25. 智能化故障治理总结 • 愿景 无人故障治理(完全智能化) • 困难 智能算法对数据标准化、量级、 质量要求高。满足需求的数据有 限 • 现状 人工+部分场景智能化/自动化 通过规则积累线上化数据,帮助 智能化