美团点评下一代全栈监控 尤勇

Razor

2019/10/19 发布于 技术 分类

文字内容
1. 美团点评监控系统介绍 美团点评 基础技术部 尤勇
3. • i人简介 • l什n要做 • y品介绍 • 架构介绍 • 故障定位 • 开源介绍
4. i人介绍 • &00)-&0%%年 南京大学,软件学院 • &0%%至今 美团点评 基础技术部 研究员 • 目前负责 • • 研发工具栈4JXTRROU相关、应用监控平台31T、统一长连服务ShaTN 期间参与 • 全链路压测平台研发、私有t调度系统
5. • i人简介 • l什n要做 • y品介绍 • 技术介绍 • 故障定位 • 开源介绍
6. 现状 • 31Tm要负责p应用层监控、浏览端监控、以及移动端监控(侧重s 端到端监控) • 独立的系统监控,m要负责是宿m机、虚拟机以及容器指标监控 • 启动建设基础网络监控,支持秒级监控能力 • 存在一w展示聚合系统,m要从以c系统拉取数据1=7
7. 问题 • 监控能力升级,分钟级 -0 秒级 • 告警入口较多,配置方式e统一 • 用户在性能优化或者问题分析时候,多i系统切换 • 各领域监控系统独立存储监控数据,提供数据1=7,d游系统需要对接 多i监控系统来完成一w事情,(比如弹性伸缩) • 资源优化,精细化运营
8. • i人简介 • l什n要做 • y品介绍 • 技术介绍 • 故障定位 • 开源介绍
9. y品介绍 • 大盘模块 • 服务端模块 • • 移动端模块 • • TTanUaHVMRn、5XJnV、=TRbOJP、2WUMnJUU、6RUVU 端到端监控、代码级ORK 前端模块 • 接口监控、性能监控、异常错误 • 指标查询 • 告警模块
10. 场景一 • • 指标大盘 • )%+运营大盘等 • 核心h务指标 指标来源较多 • 移动端、系统端、应用层 • 来源s某ih务系统数据
11. 自定o4aUhbRaTI
12. 场景r • 监控所有CJb 1=7、>=3 SJTXMHJ接口访问量、耗时时间 • 监控所有=aaS组件,比如4aVabaUJ、3aHhJ等访问量、耗时时间 • 监控自身代码的性能相关 • 分l机房、机器都维度
15. 场景b • 核心订单指标 • 按照城市、1==渠道等监控核心订单指标 • 支付成功率/支付成功数E支付总数 • 秒级指标,秒级的订单指标等
16. 最细粒度支持%0秒级
17. 场景四 • • 9B:'>B: 容器监控指标 • HSW,PJP,VHS,nJVwRTN • 秒级监控 8B:'>B:相关指标 • • 应用内存的某i状态 • • KH,PJP,VhTJaI等 内存队列长度,线程执行状态 数据库连接池指标
20. 心跳消息扩展
21. 场景v • 查询应用的性能问题 • 执行慢的请求 • 执行错的请求
24. 前端监控
29. 移动端监控
30. • i人简介 • l什n要做 • y品介绍 • 技术介绍 • 故障定位 • 开源介绍
31. 框架升级 • • 问题 • 原3aV依赖的第b方资料少,第b方依赖em流 • 功能较l完善,界面较\丑“、体验一般 • y品整体由后端工程师进行研发 解决 • 服务端,SSTMnKm流技术栈替换,代码重写 • 前后端分离,前端完全是由gh前端开发 • gh=:、A7、AD参与到监控项目
32. 监控融合 Broker Agent Agent Agent Web Web
33. 告警系统问题 • =WOO模式a单机服务、无法水平扩展 • 监控层面较多,告警通用性较差,大量重复开发 • e支持秒级监控 • 告警延时 0 60秒 • 误告率高a发布、机器宕机受影响
34. 告警系统改造 • 推的方式lm,=WUh BU =WOO • 统一告警数据模型a 系统指标、应用层报表指标、基础网络指标、移 动端、CJb端等都转化l统一模型 • 接入新的类型只需要扩展生y数据的逻辑 • 独立分钟级以及秒级监控服务 • 1OaTP 无状态,支持水平扩展(在极端场景中牺牲p一w可用性)
35. %.消息头维护数据 完整性校验信息 %.消息队列是逻辑集群 &.e同类型告警数据独立隔离 %.1HN机制 &.多条件组合 3.无状态,可扩展 Alarm Alarm Alarm %.告警信息d游消费处理
36. • i人简介 • l什n要做 • y品介绍 • 技术介绍 • 故障定位 • 开源介绍
37. 故障定位工作 • 大规模d的故障定位目标,初步目标是定位集群以及集群的某i节点 • 线c的故障定位目标是lp尽快的进行故障恢复 • 故障定位需要多i系统协作支持,监控系统是很重要的一环,但e是 全部 • )0%+(甚至更多)的故障是由变更引起
38. 监控系统的问题 • 数据量的快速增长,监控数据采样带来数据准确性的问题 • • 数据埋点质量e够 • • h内链路分析数据都是采样(大规模集群d) 比较多的=aaS组件缺少集群相关监控数据 监控系统依赖e够准确 • 对s异步支持局限
39. 实践 • 独立故障定位系统,监控系统作l核心数据源,系统交u方式从6TT= 1=7到消息方式 • 核心是做到全局的实时依赖拓扑图 • 联合TTaHJ系统做埋点标准化,对齐监控埋点和TTaHJ系统埋点 • =aaS层埋点,加c集群维度(一般集群管理的唯一74)以及集群节点(7=信息)监控 • 客户端预计算,支持指标全量计算 • 建设公司层面的变更系统,标准化所有的手工以及自动化操作 • 联合h务团队(外卖配送)共建,h务团队在故障定位方面经验更lk富
40. TRSRORKy报表
41. • i人简介 • l什n要做 • y品介绍 • 技术介绍 • 故障定位 • 开源介绍
42. O=5N SOA>35 • 感谢持续对31T开源支持,&0%8-&0%-,UVaT 从60&%-%%)%• hVVSU.//KMVhWb.HRP/IManSMnK/HaV • 仍然在路c • &0&0年计划 • (.0 • 新增系统监控 • 新增浏览器端模块