原大众点评运维架构师张冠宇-亿级别PV的大型互联网公司运维架构演变

谯香彤

2017/11/14 发布于 技术 分类

张冠宇,原大众点评运维架构师、多家大型互联网公司运维技术顾问,集群、高可用、运维架构、自动化技术专家,维护过上千台服务器,亿级别PV、百万并发站点!有6年以上一线运维经验,曾独立设计过过载保护、容灾、降级、泳道化平台等企业级高级运维体系方案,对一线应用和系统调优有独到见解,目前的一些优化方案,为企业节省上千万成本。曾著作《mongodb分布式集群架构》、《手把手让你实现开源企业级web高并发解决方案》、《手把手让你了解linux上集群原理篇》深受数万网友称赞

文字内容
2. 亿级别PV的大型互联网公司运维架构演变 张冠宇 原大众点评 马哥教育 G O P S 2016 全 球 运 维 大 会 · 上 海 站
3. CONTENTS 01 运维团队和职责说明 02 运维体系架构介绍 03 运维系统工具介绍 04 运维演变过程总结
4. 1 运维团队和职责说明
5. 运维团队和职责说明 应用 开发 系统 监控 应用运维 TroubleShoorting 同开发共同支撑业务 线上服务管理、优化 运维开发 实现运维工具化 实现运维自动化 实现运维平台化 系统运维 IDC管理/装机 操作系统定制 系统级问题处理 监控运维 监控系统维护 重要告警通知 简单故障处理
6. 2 运维体系架构介绍
7. 点评IDC分布 用户 智能DNS 动态资源访问 静态资源访问 CDN加速 硬件防火墙 硬件4层负载均衡 生 产 软件7层负载均衡 服务器 集群 服务器 集群 A机房 Database 服务器 集群 光纤 硬件防火墙 硬件4层负载均衡 软件7层负载均衡 服务器 集群 服务器 集群 服务器 集群 测 试 & 灾 备 Database B机房 G O P S 2016 全 球 运 维 大 会 · 上 海 站
8. 点评运维整体架构 Centos java 智能DNS 网络设备&防火墙 硬件负载均衡(4层) 软负载均衡(7层) 开 页面缓存 页面缓存 …… 页面缓存 发 语 言6 Static &灾备 Web …… Web 系 统 Service Service …… Service 内网 DNS DB 分布式 存储 CDN加速 监控 运维管理平台 业务 流程系统 应用 交付系统 系统 网络 操作工具 CMDb G O P S 2016 全 球 运 维 大 会 · 上 海 站
9. 3 运维系统工具介绍
10. 运维系统工具介绍 全方位监控系统 Cat(业务 应用) Zabbix (网络 系统) Logscan(日志扫描) 1 自动化平台系统 Workflow(流程系统) GO平台系统 Button系统(代码上线系统) 2 配置类的管理系统 Puppet配置管理 应用配置管理 SLB配置管理 CMDB资产系统 3 记录和运营分析系统 4Issue故障管理系统 Dom运营质量平台 运维安全平台 雷达系统 LOGO COMPANY
11. 监控系统-Cat业务监控 G O P S 2016 全 球 运 维 大 会 · 上 海 站
12. 业务层面监控 G O P S 2016 全 球 运 维 大 会 · 上 海 站
13. Cat业务大盘 G O P S 2016 全 球 运 维 大 会 · 上 海 站
14. 应用报错大盘 G O P S 2016 全 球 运 维 大 会 · 上 海 站
15. Cat显示应用完整调用 G O P S 2016 全 球 运 维 大 会 · 上 海 站
16. 自动化平台系统 自动化工具目标 Ø将80%的常见操作流程化 /自动化 Ø将运维工作做成平台化, 让业务研发团队自助 Ø释放运维人力以便可以做 更多高质量的工作 为什么需要自动化? Ø大量重复工作 Ø人为操作易出错 Ø交互和沟通成本大
17. Workflow流程系统 G O P S 2016 全 球 运 维 大 会 · 上 海 站
18. 自动扩容流程展示 G O P S 2016 全 球 运 维 大 会 · 上 海 站
19. 工作流订单展示 G O P S 2016 全 球 运 维 大 会 · 上 海 站
20. 高效操作工具: Go • 目标: • 命令行操作变成网页操作 • Workflow 不能覆盖的 20%操作 • 实现所有运维操作的: • 可定制 • 可追踪 • 可重复 G O P S 2016 全 球 运 维 大 会 · 上 海 站
21. 自动化-Go平台系统 G O P S 2016 全 球 运 维 大 会 · 上 海 站
22. 自动化-Go平台系统 G O P S 2016 全 球 运 维 大 会 · 上 海 站
23. 自动化-Button上线系统 G O P S 2016 全 球 运 维 大 会 · 上 海 站
24. 配置管理-Puppet配置管理系统 G O P S 2016 全 球 运 维 大 会 · 上 海 站
25. 配置管理-SLB配置管理 G O P S 2016 全 球 运 维 大 会 · 上 海 站
26. 汇总-工具平台化 G O P S 2016 全 球 运 维 大 会 · 上 海 站
27. 平台化的效果 运维轻松了 故障变少 形成规范,标准 化,操作平台化, 故障率下降70% 运维门槛变低 开发可自主完成 原来需要运维协 助的工作 效率提升 运维从日常支撑工 作解放,自动化后 效率提升数十倍
28. 平台化后该怎么提升? 运维标准化 运维平台化和自动化 运维业务支撑 40% 50% 60% 30% 70% 持续运营以及质量优化 20% 80% 10% 90% 0% 100%
29. 持续运营和质量优化 • 关注运营和业务质量 • 目标: Ø建设一套可多方位、多层次描述运营质量的指标体系 Ø通过指标体系直观判断业务质量,给出策略建议 实现:从海量的监控数据中实时的提取 G O P S 2016 全 球 运 维 大 会 · 上 海 站
30. DOM运营质量平台 G O P S 2016 全 球 运 维 大 会 · 上 海 站
31. DOM运营质量平台 G O P S 2016 全 球 运 维 大 会 · 上 海 站
32. 数据到位,运维不再背锅 G O P S 2016 全 球 运 维 大 会 · 上 海 站
33. 记录和分析系统 G O P S 2016 全 球 运 维 大 会 · 上 海 站
34. 改变 • “运维”变为“运营”之后 Ø运维从辅助角色,变成主导角色 Ø从替补变为裁判 Ø从挨打变成打人 G O P S 2016 全 球 运 维 大 会 · 上 海 站
35. 4 运维演变过程探究
36. 运维演变过程 业务支撑化 规则标准化 平台自动化 运维运营化
37. 工作内容的转变 时时刻刻都是备战状态 把流程、规范制作进工具和系统 无序化 规范化 平台化 运营化 建立制度、流程、规范 关注运营和业务质量,给出指导方向
38. 做事方式的变化 提供支持 解决故障 G O P S 2016 全 球 运 维 大 会 · 上 海 站 制定规则 提供工具平台 做裁判
39. 运维不是什么? • 不是背锅侠 • 不是救火侠 • 不是忙成狗,还没业绩的路人 G O P S 2016 全 球 运 维 大 会 · 上 海 站
40. 运维是干什么的? • 制定规则的裁判 • 资源分配的决策者 • 保证业务服务质量的主导者 G O P S 2016 全 球 运 维 大 会 · 上 海 站
41. 谢谢 G O P S 2016 全 球 运 维 大 会 · 上 海 站
42. G O P S 2016 全 球 运 维 大 会 · 上 海 站
43. GOPS2016 全球运维大会更多精彩 G O P S 2016 全 球 运 维 大 会 · 上 海 站