高校运维社区 萧田国-权威解读《企业级 AIOps 实施之路》白皮书

MDCC

2018/05/13 发布于 技术 分类

高效运维社区和云计算开源产业联盟(OSCAR联盟)牵头,和互联网大厂如 BATJ、360、华为、平安科技等的 AIOps 负责人联合编写了国内外首个《企业级 AIOps 实施建议》白皮书,以缩短贵司的 AIOps 实施路径。 在此先行放出此白皮书的诚意版,敬请赏阅。

文字内容
1. GOPS 全球运维大会 2018 2018.4.13-4.14 中国·广东·深圳·南山区 圣淘沙大酒店(翡翠店) GOPS 全球运维大会2018·深圳站
2. 企业级 AIOps 实施建议 白皮书 萧田国 高效运维社区发起人 DevOps 标准联合发起人 GOPS 全球运维大会2018·深圳站
3. 个人介绍 萧田国 高效运维社区 发起人 DevOps 时代社区 发起人 DevOps 标准体系 联合发起人 DevOpsDays 中国 联合发起人 开放运维联盟主席 复旦大学特聘讲师 提前获得演讲PPT GOPS 全球运维大会2018·深圳站
4. GOPS 全球运维大会2018·深圳站
5. GOPS 全球运维大会2018·深圳站
6. 运维的演进 • AIOps 是运维的必然归宿 • AIOps 是 DevOps 在运维侧的高阶实现 DevOps AIOps AutoOps 自动化运维 = 行业领域知识 HumanOps + 运维场景领域知识 AIOps = 自动化运维 + 机器学习知识 图片来自 Patrick Debois GOPS 全球运维大会2018·深圳站
7. 2、AIOps 目标 • AIOps,通俗的讲,是对规则的AI化,即将人工总结运维规 则的过程变为自动学习的过程。 • 具体而言,是对我们平时运维工作中长时间积累形成的自动 化运维和监控等能力,将其规则配置部分,进行自学习的 “去规则化”改造,最终达到终极目标:“有AI调度中枢管 理的,质量、成本、效率三者兼顾的无人值守运维,力争所 运营系统的综合收益最大化”。 GOPS 全球运维大会2018·深圳站
8. 3、AIOps 能力分级及能力框架 聚焦AIOps GOPS 全球运维大会2018·深圳站
9. 关于学件 • 学件(Learnware)一词由南京大学周志华老师原创, 学件(Learnware)= 模型(model)+规约(specification) • 学件,亦称AI运维组件,类似程序中的API或公共库,但API及公共库不含具体 业务数据,只是某种算法,而AI运维组件(或称学件),则是在类似API的基础 上,兼具对某个运维场景智能化解决的“记忆”能力,将处理这个场景的智能规 则保存在了这个组件中。 • 这个智能规则是在一定量的数据下学习而来的,且具有“可重用”,“可演进”, “可了解”的特性,既可共享由专家利用数据训练的算法,又可保护数据和隐私。 • 学件市场 GOPS 全球运维大会2018·深圳站
10. 3、AIOps 能力框架 //关键运维场景的能力演进 GOPS 全球运维大会2018·深圳站
11. 4、AIOps平台能力体系 GOPS 全球运维大会2018·深圳站
12. 4、AIOps平台能力体系 类似 Google 的 AutoML (https://cloud.google.com/automl/) GOPS 全球运维大会2018·深圳站
13. 5、AIOps 团队角色 GOPS 全球运维大会2018·深圳站
14. 6、AIOps 常见应用场景 效率提升 质量保障 成本优化 GOPS 全球运维大会2018·深圳站
15. 效率提升方向 质量保障方向 成本管理方向 在这个阶段,尝试在变更,问答,决策,预测领域 在这个阶段,没有成熟的单点应用,主要是 在这个阶段,运维的成本管理方向还在尝试 第一阶段 使用人工智能的能力,但是并没有形成有效的单点 手动运维、自动化运维和智能运维的尝试阶 引入人工智能,但是并没有成熟的单点应用, (尝试应用) 应用,这个阶段可以聚焦于数据采集和可视化 段,这个阶段可以聚焦于数据采集和可视化 这个阶段可以聚焦于数据采集和可视化 第二阶段 (单点应用) 在这个阶段,在一些小的场景下,人工智能 在这个阶段,在一些小的场景下,人工智能已经可 在这个阶段,在一些单点应用的场景下,人 已经开始逐步发挥自己的能力,包括成本报 以逐步发挥自己的能力,包括智能变更,智能问答,工智能已经开始逐步发挥自己的能力,包括 表方向,资源优化,容量规划,性能优化等 智能决策,智能预测 指标监控,磁盘,网络异常检测等 方向 第三阶段 (串联应用) 在这个阶段,人工智能已经将第二阶段(单 在这个阶段,人工智能已经将单点应用中的 在这个阶段,人工智能已经将单点应用中的一些模 点应用)中的一些模块串联在一起,可以综 一些模块串联在一起,可以根据成本、资源、 块串联起来,可以结合多个情况进行下一步的分析 合多个情况进行下一步的分析和操作,包括 容量、性能的实际状况进行下一步的分析和 和操作 多维下钻分析寻找故障根因等方向 操作 第四阶段 (能力完备) 在这个阶段,人工智能已经基于故障的实际 在这个阶段,人工智能能力完备,已经可以基于实 在这个阶段,人工智能的能力已经完备,能 场景实现故障定位,然后进行故障自愈等操 际场景实现性能优化,然后进行预测,变更,问答, 够实现基于成本和资源的实际场景实现成本 作。比如根据版本质量分析推断是否需要版 决策等操作 的自主优化,然后进行智能改进的操作 本回退,CDN自动调度等 在这个阶段,人工参与的成分已经很少,从 在这个阶段,人工参与的成分已经很少,性能优化 在这个阶段,人工参与的部分已经很少,从 第五阶段 成本报表方向,资源优化,容量规划,性能 等整个流程由智能大脑统一控制,并由自动化和智 故障发现到诊断到自愈整个流程由智能大脑 (终极AIOps) 优化性等整个流程由智能大脑统一控制,由 能化自主实施 统一控制,并由自动化和智能化自主实施 自动化自主实施 GOPS 全球运维大会2018·深圳站
16. 效率提升 质量保障 成本优化 GOPS 全球运维大会2018·深圳站
17. GOPS 全球运维大会2018·深圳站
18. 6、AIOps 常见场景 //智能变更 GOPS 全球运维大会2018·深圳站
19. 6、AIOps 常见场景 //异常检测 GOPS 全球运维大会2018·深圳站
20. 6、AIOps 常见场景 //故障诊断 GOPS 全球运维大会2018·深圳站
21. 6、AIOps 常见场景 //资源优化 GOPS 全球运维大会2018·深圳站
22. 7、AIOps 实施及关键技术 • 数据采集 • 数据处理 • 数据存储 • 离线和在线计算 • 面向 AIOps 的算法技术 图片来源: https://www.bmc.com/blogs/what-is-aiops/ GOPS 全球运维大会2018·深圳站
23. 7、AIOps 实施及关键技术 GOPS 全球运维大会2018·深圳站
24. 案例列表 • 海量时间序列异常检测的技术方案(腾讯) • 金融场景下的根因分析和故障检测(京东金融) • 单机房故障自愈压缩(百度) GOPS 全球运维大会2018·深圳站
25. AIOps 标准工作组 主管单位:工信部 中国信息通信研究院(国家级智库,可信云等出品单位) 联合发起:云计算开源产业联盟(OSCAR联盟)、IT运维委员会、高效运维社区 当前进展:AIOps 标准 将于 2018月4月27日 标协申请立项 【AIOps 企业标准 部分参与专家所在单位】 顾问 清华大学 AIOps 实验室 负责人 裴丹教授 高效运维社区 发起人 萧田国 腾讯IEG AIOps 负责人 刘栖铜 腾讯SNG AIOps 负责人 赵建春 百度 AIOps 负责人 曲显平 阿里 AIOps 专家 王肇刚、毛茂德 华为 消费者BG AIOps 负责人 周荣 中国银行 数据中心 刘扬清 平安科技 AIOps 负责人 陈亚殊 宜信集团 AIOps 负责人 孙熠青、张真 京东商城 AIOps 负责人 张克房 360 AIOps 负责人 王哲 【AIOps 产品标准的参与单位】 日志易 擎创 数智慧 隆正 云兴维智 灵犀 云智慧 天旦 * OneAPM * 听云 * 云敞科技 * 标 * 的是正在深入接洽或走流程中 GOPS 全球运维大会2018·深圳站
26. 本版白皮书核心编写成员(按姓氏排序) 胡飞雄 腾讯IEG 高级工程师 刘栖铜 腾讯IEG 助理总经理 饶琛琳 日志易 产品总监 孙培 陶仕敏 华为消费者智能运维方面 2012 实验室 高级工程师 资深 AIOps专家 曲显平 百度智能云事业部 技术经理 屈中泠 擎创科技 产品总监 赵建春 腾讯社交网络运营部 助理总经理 GOPS 全球运维大会2018·深圳站 张戎 腾讯 周荣 华为消费者BG云运维部 AIOps 负责人 郑华贵 深圳数智慧科技 CEO
27. 白皮书及工作组当前成员(按姓氏排序) 陈亚殊 平安科技 系统运营部总经理 党受辉 腾讯蓝鲸总监 哈晶晶 胡飞雄 黄炜 百度智能云 腾讯互动娱乐运营部 阿里巴巴 故障自愈方向技术专家 高级工程师 研发效能事业部高级专家 刘大鹏 必示科技 联合创始人 刘栖铜 腾讯IEG 助理总经理 刘洋 平安科技(深圳) 运维专家 刘扬清 中国银行 数据中心工程师 GOPS 全球运维大会2018·深圳站 毛茂德 阿里巴巴集团 基础架构事业群 运维中台架构师 曲显平 百度智能云事业部 技术经理 屈中泠 擎创科技 产品总监
28. 白皮书及工作组当前成员(按姓氏排序) 裴丹 清华大学 教授 饶琛琳 日志易 产品总监 孙培 孙熠青 华为消费者智能运维方面 宜信技术研发中心 高级工程师 高级副总裁 陶仕敏 2012 实验室 资深 AIOps专家 涂彦 腾讯游戏 运维总监 萧田国 高效运维社区 创始人 许斯亮 奇虎360 运维开发技术经理 赵建春 腾讯社交网络运营部 助理总经理 GOPS 全球运维大会2018·深圳站 张戎 腾讯 研究员 张真 周荣 宜信技术研发中心 华为消费者BG云运维部 高级架构师/研发总监 AIOps 负责人
29. 白皮书及工作组当前成员(按姓氏排序) 郑华贵 深圳数智慧科技 CEO 张辉 隆正信息科技 高级业务专家 朱品燕 LinkedSee灵犀 创始人 王超 京东金融 资深技术架构师 王肇刚 阿里巴巴集团 高级技术专家 GOPS 全球运维大会2018·深圳站 王哲 奇虎360 AIOps 牵头人 杨好颖 北京灵犀联云科技 CTO
30. 《企业 AIOps 实施建议》白皮书 抢鲜下载 GOPS 全球运维大会2018·深圳站
31. 本白皮书的线上讨论区 http://www.gaowei.vip/m/sns-69278531 二维码如下 GOPS 全球运维大会2018·深圳站
32. Thanks 高效运维社区 开放运维联盟 荣誉出品 GOPS 全球运维大会2018·深圳站
33. 想第一时间看到高效运维社区 的新动态吗? GOPS 全球运维大会2018·深圳站