华为 周荣-亿级用户百 TB 级数据的 AIOps 技术实践之路

邵令暎

2018/05/13 发布于 技术 分类

华为消费者 BG 云运维部 AIOps 负责人周荣老师随后带来重磅演讲《亿级用户百 TB 级数据的 AIOps 技术实践之路》,一起看看 AIOps 在大企业中是如何应用。

文字内容
1. GOPS 全球运维大会 2018 2018.4.13-4.14 中国·广东·深圳·南山区 圣淘沙大酒店(翡翠店) GOPS 全球运维大会2018·深圳站
2. 亿级用户百TB级数据的AIOps实践之路 (一) 周荣 华为消费者BG云运维部 GOPS 全球运维大会2018·深圳站
3. 目录 1 华为消费者业务介绍 2 云服务运维面临的挑战 3 AIOps 实践之路:数据价值(业务监控) 4 AIOps 实践之路:数据平台 5 AIOps 实践之路:数据智能 GOPS 全球运维大会2018·深圳站
4. 华为消费者BG业务介绍 消费者 BG 业务持续增长 • 17年,消费者BG(CBG)收入较16年增幅57%+,占华为总收入 43%+; • 17年,华为与荣耀品牌手机发货 1.53亿台,全球份额突破10%; 全球 TOP100 品牌 ★ BRANDZ #49 ★ Interbrand #70 ★ Forbes #88 ★ Brand Finance #25 华为&荣耀手机 笔记本&平板 穿戴设备 智能家居 软件应用 GOPS 全球运维大会2018·深圳站
5. 华为消费者BG云服务业务介绍 华为消费者云服务业务(17年,较16年) ★ 华为帐号,注册用户 3.3亿,增长 57% 350 ★ 云存储,照片&视频,195 PB,增长 108% 300 250 ★ PUSH在线,2.5亿并发,增长 221% 200 150 ★ 应用市场,下载 5.2亿/日,增长 61% 100 50 ★ 华为主题,用户数2.7亿,增长 99% 0 ★ 运动健康,用户数4600万,增长 113% 华为帐号数(百万) 31 2013 62 2014 130 2015 210 2016 330 2017 帐号 云服务 应用 市场 天际通 华为 主题 华为 图库 游戏 中心 华为 钱包 华为 穿戴 运动 智能 健康 家居 华为 视频 华为 阅读 华为 华为 生活 会员 音乐 浏览器 服务 服务 合作 伙伴 GOPS 全球运维大会2018·深圳站
6. 目录 1 华为消费者业务介绍 2 云服务运维面临的挑战 3 AIOps 实践之路:数据价值(业务监控) 4 AIOps 实践之路:数据平台 5 AIOps 实践之路:数据智能 GOPS 全球运维大会2018·深圳站
7. 快速发展下给运维带来的挑战 产品 客户体验 业务运 行稳定 每天版 本变更 保障用户 体验 尽快解 决问题 运营活动运 维保障 用户数据隐 私安全 运维 成本管 理 故障快速 恢复 可靠性要高 1. 业务多、形式多样 • 存在100+存量业务(外部、内部); • 业务场景不同,存量大,数据形式和格式多种多样; 2. 数据价值与数据成本间的平衡 • 监控指标“熵”减严重,问题难以察觉; • 采集端统计指标,数据变更成本高; 3. 数据规模大,增长速度快 • 数万+主机、千亿/天数据量 • 17年实时处理数据从4T/天增到120TB/天; • 随着数据增加,人找数据的成本越来越大; GOPS 全球运维大会2018·深圳站
8. 业界的趋势 —— 数据驱动运维(AIOps) AIOps:Gartner在16年发布的报告中首先提出了基于大数据及算法(Algorithmic IT Operations)的 IT运维概念。随着人 工智能的快速兴起,Gartner 在17年将 AIOps 概念从基于大数据及算法,扩充为基于人工智能(Artificial Intelligence for IT Operations,AIOps),认为通过大数据、机器学习及高级分析技术,提供具备主动性、人性化及动态可视化的能力,直 接或间接地提升目前传统IT运维(监控、自动化、服务台)的能力。 AIOps当前 发展阶段 知 识 信 息 数 据 GOPS 全球运维大会2018·深圳站
9. 我们的对策 —— 数据驱动运维(三板斧) 1. 业务多、形式多样 • 存在大量存量业务; • 业务场景不同,数据形式和格式多种多样; 2. 数据价值与成本不成正比 • 监控数据“熵”减严重,问题难以察觉; • 采集端统计指标,数据变更成本高; 3. 数据规模大,增长速度快 • 数万+主机、千亿/天数据量 • 17年实时处理数据从4T/天增到120TB/天; • 人找数据的成本随着数据的增加,越来越 大; GOPS 全球运维大会2018·深圳站 3. 随着运维数据的应用场景,分步 构建智能化运维服务能力(学件) 知 识 2. 围绕数据价值,分步打造高性 能、低开发成本的运维数据平台 信 息 1. 降低数据接入成本,做好业务监 数 控,体现业务数据价值 据
10. 目录 1 华为消费者业务介绍 2 云服务运维面临的挑战 3 AIOps 实践之路:数据价值(业务监控) 4 AIOps 实践之路:数据平台 5 AIOps 实践之路:数据智能 GOPS 全球运维大会2018·深圳站
11. AIOps 实践之路:从哪来,到哪去 1. 数据 到 价值 主管 Dev Ops 产品 运营 感知 用户体验质量分析 下载时长、下载完成率、卡顿比、起播时延等 产品内容数据 内容达到率、内容服务质量、页面跳转等; 业务稳定性 运行保障、灰度发布、高可用、有损服务等 故障分析处理 异常检测、故障诊断、故障预测、故障自愈等 执行 成本 IT成本报表、瓶颈分析、资源优化、容量管理、性能优化等; 流程效率 智能规划、智能决策、智能问答等; 分析 GOPS 全球运维大会2018·深圳站 用户 业务 设备
12. AIOps 实践之路:核心价值与演进 质量保障 数据感知 v1.0 v2.0 业务指标监控 异常检测 智能分析 v3.0 故障诊断 智能执行 v4.0 v5.0 故障预测 故障自愈 成本管理 成本指标监控 异常检测 流程效率 流程数据可视 异常检测 资源优化 智能问答 容量规划 智能决策 性能优化 智能变更 GOPS 全球运维大会2018·深圳站
13. AIOps 实践之路:架构总览 服务器 zabbix HCW 业务侧 端采集服务器 端采集服务 采集Agent 业务服务器B 服务器日志 [接口/访问/自定义日志] 采集Agent PC/大屏运维监控 手机端运维监控 故障诊断 业务监控大盘 主机资源数据 故障预测 日志检索服务 磁盘/网络 故障数据 运维大数据应用服务 资源优化 IT成本报表 端侧业务数据 容量规划 调用链分析 云侧业务数据 性能优化 洞 察 异常检测 应 用 层 中间件数据 运维可视化 DashBoard自定义 报表自定义 运维可视化仪表仓库 运维分析定制 开 运维算法库 放 服 务 ETL 分析查询引擎 层 基础指标 模型 运维数据模型 业务数据 模型 拓扑关系 模型 调用链 模型 运维数据治理 数 据 数据源 管理 数据任务 管理 数据租户 管理 数据生命 周期管理 资 产 层 Back-End Kafka Front-End Kafka 第三方(外部) CDN厂商 Data Loader …… OLAP数据库 索引型数据库 GOPS 全球运维大会2018·深圳站 数据分析处理平台(批、流) 数 据 分 析 数据存储层 处 理 关系型数据库 缓存数据库 关系型数据库 分布式文件系统 层
14. AIOps 实践之路:业务监控 业务系统的运行情况了如指掌 GOPS 全球运维大会2018·深圳站
15. 目录 1 华为消费者业务介绍 2 云服务运维面临的挑战 3 AIOps 实践之路:数据价值(业务监控) 4 AIOps 实践之路:数据平台 5 AIOps 实践之路:数据智能 GOPS 全球运维大会2018·深圳站
16. AIOps 实践之路:数据平台 – 对策 1. 存量业务大,业务场景多 • 低成本、灵活数据接入 2. 亿级用户,数据量大 • 1年,4TB->120TB 3. 原始数据信息查询要求 • 多维分析,即席查询,实时 1. 数据后端清洗、入库 • SparkStreaming(Kettle? Talend?) 2. 支撑海量数据处理框架 • Kafka、Spark、Hive、MPP DB; 3. 实时可视化、OLAP数据引擎 • Vue(Angular)、Druid、Prometheus GOPS 全球运维大会2018·深圳站
17. AIOps 实践之路:数据平台 (数据分析) 数据展示 数据集市 探索报表 [Kibana] 占位 日志检索 [Kibana] 监控大盘/仪表盘 数据视图 [FI-MPPDB] 占位 运维报表 数据分析 数据汇聚服务 占位 质量保障 AIOps 成本管理 AIOps 离线数据分析 [FI-Hive] 数据仓库 单条粒度运维数据 [ElasticSearch5.0] 单条运维数据路由[检索查询] [FI-Flume] 时间序列多维度量数据 [Druid] Back-End Dispatcher [FI-Kafka]占位 ETL 单条数据过滤、切分、扩展、格式化[必选] [FI-SparkStreaming] Front-End Dispatcher [FI-Kafka] 统计计算[可选] [FI-SparkStreaming] 数据源 Zabbix、HCW等数据 端侧实时日志 GOPS 全球运维大会2018·深圳站 服务侧日志 日志原始文件 [FI-HDFS] 单条运维数据存储[离线分析] [FI-Flume] 数据导入服务 [DataLoader] 批量数据 运维数据治理 数据生命周期管理 数据租户管理 数据任务管理 数据源管理
18. AIOps 实践之路:数据平台 – OLAP数据引擎 • Druid 开源实时大数据分析引擎:面向列存储、shared-nothing架构、高效索引结构,来达成在秒级对十 亿行级别的表进行多维探索分析查询。 部分来源:http://druid.io/druid.html GOPS 全球运维大会2018·深圳站
19. 目录 1 华为消费者业务介绍 2 云服务运维面临的挑战 3 AIOps 实践之路:数据价值(业务监控) 4 AIOps 实践之路:数据平台 5 AIOps 实践之路:数据智能 GOPS 全球运维大会2018·深圳站
20. AIOps 实践之路:数据智能(业务背景 – 质量) 云服务当前的主机规模,业务数,数据量,复杂度都达到了新的高度,随之给业务团队带来了显著挑战:传统以人工为主的运维手段, 面对异常检测、故障定界定位、故障预测以及故障自愈的质量保障方面,不仅力不从心,而且难以做好。 业务规模增长带来运维数据的爆发式增长 运维数据的爆发式增长背景下,传统人工运维方式的痛点与问题 云服务 30000+主 机 云服务当前 已有近100 个服务(含 内部) 越来越精细、复 杂的运维场景 海量数据, 每天2000+ 亿条, 120TB+ 说明:截止17年底 业务维度组 合后指标项 1000000+ GOPS 全球运维大会2018·深圳站 数据感知 智能分析 智能执行 异常检测 故障诊断 故障预测 故障自愈 ● 数据源异常干扰 ● 异常检测漏报、 误报 ● 异常检测人工配 置费效比不理想; ● 海量数据,疲于分析 ● 诊断准确性与效率与 个人能力相关,不稳 定; ● 新增疑难故障难以识 别 ● 人工难以长期评估 海量数据的故障预 测; ● 人工分析滞后,风 险变为问题,导致影 响用户体验; ● 自愈决策的准确 性与人经验相关; ● 人工处理无法确 保7*24小时随时可 立即决策与自愈;
21. 异常检测 — 数据源干扰(算法v0.8) z-score 算法 算法原理: 算法流程: 算法表现: GOPS 全球运维大会2018·深圳站 优点:流式计算效率很高,异常发生时能突显异常。 缺点:异常数据会改变阈值,本质是因为zscore计算用到的mean和std对异常 值敏感,即使使用的抑制方法,治标不治本,具体表现为对不同序列,都需要 人工调参,增加了推广成本。
22. 异常检测 - 数据源干扰(算法v1.0) Boxplot法 算法原理: 考虑到百分位数对异常不敏感,即新来一部分异常数据,百分位数不会明显改变,使用箱线图来去除数据源异常; 算法流程: 算法表现: GOPS 全球运维大会2018·深圳站 优点:无需人工调参,对异常数据容忍性高。 缺点:该算法需要保存序列中最近的N个数据,相比z-score计算量大。 此外,使用多种指标推广发现,该算法得出的下限偏高,因此推荐在上限场景 中使用。
23. 异常检测 — 指标异常检测(算法1) 序列分解算法 算法原理: 时间序列分解为季节项(周期项)、趋势项、残差项。使用历史数据分解的趋势项和季节项之和作 为预测值的均值,使用残差项计算标准差,得到预测的波动范围,进行异常检测。 算法流程: 算法表现: GOPS 全球运维大会2018·深圳站 优点:离线计算,效率很高,无需较多调参,适用范围广,推广成本低。 缺点:存在数值波动时,算法生成的阈值不能适应,容易误告警。对于在 时间维度周期性不明显的指标,效果不佳。
24. 异常检测 — 指标异常检测(算法2) 多工况检测算法 算法原理: 算法的核心是如何合理的划分工况;采用聚类的方式,基于历史数据特征的贡献度进行聚类,不同的 类便是不同的工况;比如:某个时间段的请求量范围下是一个具有相同业务特征的工况。 算法流程: 算法表现: 优点:有效消除告警虚报; 缺点:检测结果受训练数据影响,在业务变化剧烈时检测结果会受到影响。 GOPS 全球运维大会2018·深圳站
25. 智能运维,我们在路上 数据感知 异常检测 智能分析 质量保障 故障诊断 故障预测 智能执行 故障自愈 ● 数据源异常干扰 ● 异常检测漏报、误报 ● 异常检测人工配置费效比 不理想; ● 海量数据,疲于分析 ● 人工难以长期评估海量数据 的故障预测; ● 诊断准确性与效率与个人能力相 关,不稳定; ● 人工分析滞后,风险变为问 题,导致影响用户体验; ● 新增疑难故障难以识别 ● 自愈决策的准确性与人经验 相关; ● 人工处理无法确保7*24小 时随时可立即决策与自愈; GOPS 全球运维大会2018·深圳站
26. Join us, Make a difference! 运维工程师:网络运维、CDN运维、安全运维、业务领域 运维开发工程师:自动化工具开发、大数据平台开发 运维AI工程师:数据建模、数据算法、机器学习、智能化工程落地 GOPS 全球运维大会2018·深圳站
27. Q&A GOPS 全球运维大会2018·深圳站
28. Thanks 高效运维社区 开放运维联盟 荣誉出品 GOPS 全球运维大会2018·深圳站
29. 想第一时间看到高效运维社区 的新动态吗? GOPS 全球运维大会2018·深圳站