美团外卖 刘宏伟:美团外卖自动化业务运维系统建设

巧德厚

2017/11/14 发布于 技术 分类

创业公司,运维需求变化快,资源相对有限。IT基础设施建设要以速度为中心,快速响应,降低成本,稳定安全的运维要求。因此简化流程,提高效率,以DevOps思想为指导,建设一套基于容器的持续集成发布平台成了新兴公司的首选。本次分享以跟谁学容器平台建设为实例,深入讨论以k8s docker,jenkins等软件架构出一套的可以自动配置、注册、发布、服务、测试的持续集成容器平台。本演讲主要面向企业CTO/技术总监/架构师/运维总监/高级运维开发人员,需要有一定IT基础,并希望进行持续集成以及容器化的公司或团队。

文字内容
1. 美团外卖自动S刘A化宏C伟业C美团务2外0卖运1维7 系统建设
2. 目录 • 1. 外卖业务特点 • 2. 需要解决的问题 • 3. 核心目标 SACC2017• 4. 重点系统体系建设 4.1 体系架构 4.2 业务大盘 4.3 核心链路 4.4 服务保护&故障演练 4.5 整合全链路压测 • 5. 自动化路程 • 6. 未来规划
3. 外卖业务特点-业务流程复杂 SACC2017
4. 外卖业务特点-流量陡增明显 SACC2017
5. 外卖业务特点-业务增长迅猛 日完成订单(万)  单日提单2000万  单日交易额突破5亿 1600  单日订单首破千万  单日交易额过亿 101007 美团外卖新logo 500 20 全面介入白领市场 C 美团专送全国启动 300SAC 日订单首破百万  PC初上线  业务MVP 100 0 2013/11 2014/11 2015/12 2016/8 2017/03 1300 2017/06 2017/10
6. 目录 • 1. 外卖业务特点 • 2. 需要解决的问题 • 3. 核心目标 SACC2017• 4. 重点系统体系建设 4.1 体系架构 4.2 业务大盘 4.3 核心链路 4.4 服务保护&故障演练 4.5 整合全链路压测 • 5. 自动化路程 • 6. 未来规划
7. 需要解决的问题 将开放人员从报警潮中解放, 提前发现系统潜在问题 整合串联基础监控系统 N维报警事件 Falcon 报警 自动化 健康检查 Cat Falcon Cat报 警 …… 7发版事 1件 慢查询 自动化 问题服务定位 CC20通过全链路压测验证服务保护和故障诊断, SA并对服务进行容量规划 DIGGER 问题排查流程标准化,解决问题自动化 故障诊断 故障演练 服务保护 预案验证 容量规划 全链路压测 人为排查 问题的SOP 智能化 机器自学习 问题服务 根因分析 结果
8. 目录 • 1. 外卖业务特点 • 2. 需要解决的问题 • 3. 核心目标 SACC2017• 4. 重点系统体系建设 4.1 体系架构 4.2 业务大盘 4.3 核心链路 4.4 服务保护&故障演练 4.5 整合全链路压测 • 5. 自动化路程 • 6. 未来规划
9. 核心目标 用户 服务保护 SACC2017报警事件 自动 核心链路 全链路压测, 故障演练 业务大盘
10. 目录 • 1. 外卖业务特点 • 2. 需要解决的问题 • 3. 核心目标 SACC2017• 4. 重点系统体系建设 4.1 体系架构 4.2 业务大盘 4.3 核心链路 4.4 服务保护&故障演练 4.5 整合全链路压测 • 5. 自动化路程 • 6. 未来规划
11. 重点系统体系建设-体系架构 服务保护 降级开关 手动 业务大盘 全 限流开关 链 路 预案管理 7压 手动 核心链路监控 1测 开关监控 核心链路 链路管理 0, C2故 C障 自动 A演 S练 分析诊断 预测 报警 容 量 规 划 诊断模型 定位模型 健康检查 权限管理 系统管理
12. 重点系统体系建设-业务大盘 业务 指标数据 收集 拓展功能 数据聚合层 灵活配置 监控图表 事件关联 SACC2017核心链路 压测 数据隔离 预测报警 权限控制 敏感 数据控制 业务线 隔离 支持移动端
13. 重点系统体系建设-核心链路 快速验证框架 问题画像 高权重 失败率 低权重 QPS 报警 TP99 异常 日志 …… 网络 告警 诊断模型 Dependency 模 SACC2017排查问题SOP …… Transaction 型 训 练 反 馈 服务保护预案 自动触发 问题节点 诊断结果 用户 标记 红盘报警
14. 重点系统体系建设-服务保护&故障演练 SACC2017
15. 重点系统体系建设-整合全链路压测 单链路压测 容量规划 SACC2017业务A 业务B 服务保护 故障演练 业务D 全链路压测 业务C
16. 目录 • 1. 外卖业务特点 • 2. 需要解决的问题 • 3. 核心目标 SACC2017• 4. 重点系统体系建设 4.1 体系架构 4.2 业务大盘 4.3 核心链路 4.4 服务保护&故障演练 4.5 整合全链路压测 • 5. 自动化路程 • 6. 未来规划
17. 自动化路程-异常点自动检测 SACC2017
18. 自动化路程-触发服务保护 SACC2017
19. 自动化路程-压测计划 SACC2017
20. 目录 • 1. 外卖业务特点 • 2. 需要解决的问题 • 3. 核心目标 SACC2017• 4. 重点系统体系建设 4.1 体系架构 4.2 业务大盘 4.3 核心链路 4.4 服务保护&故障演练 4.5 整合全链路压测 • 5. 自动化路程 • 6. 未来规划
21. 未来规划 业务指标监控 业务 问题定位模型 017手动 服务指标监控 服务 问题定位模型 SACC2手动 业务服务保护 系统指标监控 自动触发 诊断结果 诊断模型
22. SACC2017