腾讯 吴树生--监控数据的创新应用

罕飞翮

2018/05/13 发布于 技术 分类

SNG监控系统经历大数据转型后迎来AI浪潮。这个主题分享SNG监控系统的演进过程和考量因素。结合实际案例场景展示SNG立体化监控理念和数据化DevOps理念。同时分享SNG在AIOps领域的实践场景,展望未来监控转型方向。

文字内容
1. GOPS 全球运维大会 2018 2018.4.13-4.14 中国·广东·深圳·南山区 圣淘沙大酒店(翡翠店) GOPS 全球运维大会2018·深圳站
2. 监控数据的创新应用 吴树生 监控研发负责人 GOPS 全球运维大会2018·深圳站
3. 目录 1 IDC异常案例 2 三大驱动力 3 立体化监控方案 4 智能监控应用场景 GOPS 全球运维大会2018·深圳站
4. 监控案例:空调异常引发的业务迁移 IAAS监控管理 PAAS监控管理 2018年2月10日凌晨6:29,深圳XXIDC机房XX机架掉电 及时 2018年02月10日07时20分,发现机房温度异常升高 准确 6:21 业务视图告警 发现问题 6:30 启动大范围故障处理流程 分析、决 策 6:50 评估影响业务范围,启动业务迁移 2018年02月10日07时26分,排查原因为空调故障并陆续恢复 7:40 受影响业务全量恢复 GOPS 全球运维大会2018·深圳站
5. 互联网的监控视角 应用 服务器&逻辑 网络 GOPS 全球运维大会2018·深圳站 整体 全链路 局部
6. DEVOPS全流程工具 设计 开发 构建 监控 数据 运营/ 运维 GOPS 全球运维大会2018·深圳站 测试 发布/ 部署
7. 目录 1 IDC异常案例 2 三大驱动力 3 立体化监控方案 4 智能监控应用场景 GOPS 全球运维大会2018·深圳站
8. 云计算 1. 监控对象 • 虚拟节点 • 服务组件 • 多云管理 测试环境 生产环境 私有云 公有云 2. 集中化 • 集中日志 混合云 主机 主机监 控 网络监 控 服务管 理 DNS http API 腾讯织云 • 全链路跟踪 GOPS 全球运维大会2018·深圳站
9. 微服务架构 分布式系统监控的复杂性 1. 多服务实例 2. 调用关系 3. 事务流监控 GOPS 全球运维大会2018·深圳站
10. 移动化 1. 用户体验 • 成功率 • 启动速度 • 界面流畅度 • 页面切换速度 2. 多维度画像 • 运营商 • 版本 • 返回码 GOPS 全球运维大会2018·深圳站
11. 目录 1 IDC异常案例 2 三大驱动力 3 立体化监控方案 4 智能监控应用场景 GOPS 全球运维大会2018·深圳站
12. 立体化覆盖 TEG服务监控: N: 网络监控 T K D C: CDN监控 R A S D: 数据层监控 客户端(用户端) SNG服务监控: Y: 业务监控 F N GSLB R: 返回码监控 S: 测速系统 N F IDC A: 自动化测试 M: 模块间调用 L F TGW/LVS C: 组件监控 基础监控: L: 容量管理 M A C Y WEB层(Qzhttp/proxy) P: 进程监控 F: 特性监控 M C Y 中间层(SPP/SF2) C 自建CDN M C Y WNS M 自研服务 移动端监控: T: 舆情监控 K: 卡慢监控 D: 多维监控 C F 数据层(redis/MySQL) LP OS/服务器 D CKV/CDB/CMEM GOPS 全球运维大会2018·深圳站
13. 用户端监控 www.oa.com nginx 关注指标: DNS查询耗时 TCP链接耗时 request请求耗时 intf 解析dom树耗时 白屏时间 domready时间 onload时间 GOPS 全球运维大会2018·深圳站 CGI请求量 CGI成功率 CGI响应时间 CGI响应时间分布
14. 服务端监控 被动采集 主动探测 SNMP/IPMI 关注指标: 节点负载、流量 业务请求量 业务成功率 GOPS 全球运维大会2018·深圳站 intf SHM Agent intf Agent
15. 数据层监控 GOPS 全球运维大会2018·深圳站 关注点: 空间使用率 数据分布 性能 采集指标: 空间使用率 数据分布状态 连接数 慢查询数
16. 监控数据银行 采集数据 • 侵入式、非侵入式 • agent、无agent • 兼容开源组件 建立数据银行 • 海量KPI指标TSDB存储引擎 • 海量多维OLAP-TSDB存储 引擎 • 海量日志存储引擎 传递价值 • 内部预研与应用 • 提炼通用场景 提供从开发到运维的运营数据银行解决方案 GOPS 全球运维大会2018·深圳站
17. 监控数据银行:KV-TSDB 数据模型:时间、对象、特性、值 业务模型:单机、视图 架构特点: 1. 数据层与应用层分离 2. 使用统一的proxy-workers架构 3. 数据计算层使用类MR方案 4. 数据存储使用多阶hash共享内存 GOPS 全球运维大会2018·深圳站
18. 监控数据银行:OLAP-TSDB GOPS 全球运维大会2018·深圳站 数据模型:时间、维度1、维度2…维 度n、指标1、指标2…指标n 选型出发点: 1. 性能:druid查询和写入性能比 impala高1个量级 2. 存储成本:druid基于网络知识 库的列存储,存储成本比 impala略低 3. 维护对象:druid只有5个组件 优化点: 1. Realtime节点JVM调优,1核 2G,避免OOM 2. 增加Realtime节点容灾和减少 缓存时长 3. 冷热数据分离(热数据存储2天, 多份,SSD;冷数据存储30天, 2份,SATA)
19. 监控数据银行:LOG-DB GOPS 全球运维大会2018·深圳站
20. 监控大数据:流处理 实时告警 告警 策略 mysql 数据采集 http api SDK 流处理集群 接 收 sv r Rabbit mq+Mo ngoDB Storm 统翻 计译 计 算 自 定 义 中转 产品化 监控 平台 数据银行 RESTfu l API Data Router 数据 缓存 GOPS 全球运维大会2018·深圳站 落地存储 TSDB OLAPDB 1. 适配各种日志格式 2. 解决消息队列性能和可靠性问题 3. 数据处理过程插拔式配置化设计 index name dtype dvalue …. filter translate aggregate transmit spout bolt
21. 监控平台架构 DLP关键指标 H5监控 CGI自动拨测 L5路由监控 容量 高负载 变更体检 模块调用监控 统一API monitor特性监控 哈勃多维监控 全链路日志 告警平台 GOPS 全球运维大会2018·深圳站
22. 目录 1 IDC异常案例 2 三大驱动力 3 立体化监控方案 4 智能监控应用场景 GOPS 全球运维大会2018·深圳站
23. 监控目标新含义 全 1 无盲点 2 全链路 3 4 快 实时性 分析效率 GOPS 全球运维大会2018·深圳站 准 无误告 异常根源
24. 无阈值异常检测 阈值检测问题: 影响根源分析准确性 1.告警不准 故障自动发现率40% 漏告警或误告警 2. 维护困难 业务和人员变更 告警配置未持续更新 3. 告警量大 人均告警100条/天 个人最大告警量达1000条 GOPS 全球运维大会2018·深圳站 统计判别法 无监督算法 3sigma Isolation Forest 异 常 异 常 待定库 tsfresh GBDT 人工判定 样本库
25. ROOT-异常根源分析 GOPS 全球运维大会2018·深圳站
26. 异常根因分析 异常 KPI曲 线 异常维 度组合 GOPS 全球运维大会2018·深圳站 1. 通用性,应用于成功率和累积量指标 2. 准确率,增加总量权重和异常权重 3. 性能,秒级在线分析
27. 智能监控案例 GOPS 全球运维大会2018·深圳站
28. 智能监控案例 GOPS 全球运维大会2018·深圳站
29. Thanks GOPS 全球运维大会2018·深圳站 高效运维社区 开放运维联盟 腾讯运维体系专场 荣誉出品
30. 想第一时间看到高效运维社区 的新动态吗? GOPS 全球运维大会2018·深圳站