唯品会 王俊峰-运维:从如履薄冰到纵横捭阖

保丝柳

2018/05/13 发布于 技术 分类

GOPS 全球运维大会由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)联合主办,指导单位为工信部信通院数据中心联盟(DCA)。全球运维大会是国内第一个运维行业大会,面向互联网及传统行业、广大运维技术人员,传播先进技术思想和理念,分享业内最佳实践。 迄今为止,GOPS 已经举行了八次,大会参会嘉宾累计突破2万人次,国内每一站均为本地区最大规模的高端运维盛会,满意度和推荐度高达95%以上。

文字内容
1. GOPS 全球运维大会 2018 2018.4.13-4.14 中国·广东·深圳·南山区 圣淘沙大酒店(翡翠店) GOPS 全球运维大会2018·深圳站
2. 从如履薄冰到纵横捭阖 ——唯品会运维生态链打通实践 王俊峰 GOPS 全球运维大会2018·深圳站
3. 目录 1 曾经面临的问题 2 标准化建设之路 3 打通生态,全面赋能 4 几点感悟 GOPS 全球运维大会2018·深圳站
4. 面临的问题 业务线复杂,技术栈不统一 不同人员面对不同业务线,盲区非常多,难以人力共享 各种运维平台都很完备,但是散兵作战没有形成集团军 平台建设要考虑各种特殊场景,甚至妥协 GOPS 全球运维大会2018·深圳站
5. 我们的反思 1. 技术人如何确保质量、成本、效率三者 的平衡? 2. 我们建设了那么多的工具平台,运维人 员为何依然疲惫不堪? 3. 运维平台建设蒙面狂奔时如何不忘初心? 质量 成本 效率 GOPS 全球运维大会2018·深圳站
6. 出路? 1. 平台建设者必须深刻理解运维痛点。 2. 平台建设的技术选型不是最重要的。 3. 标准化程度决定了运维自动化的上限。 4. 自动化的水平决定了运维新的增长点。 标准化迫在眉睫! GOPS 全球运维大会2018·深圳站
7. 目录 1 曾经面临的问题 2 标准化建设之路 3 打通生态,全面赋能 4 几点感悟 GOPS 全球运维大会2018·深圳站
8. 技术组件思想的提出 纵向是组件 最底层硬件、操作系统、各类应用基础软 件(nginx、haproxy、zookeeper等)、 应用框架等都可以拆分成一个个组件。有 助于组件服务化和组件研究的技术深度。 横向是流程 运维相关的发布流程、变更流程、故障处 理流程、问题跟踪流程等。这些流程就像 线来串联各项工作和组件。 组件思想打破了运维绑定业务线的工作模式 GOPS 全球运维大会2018·深圳站
9. 组件思想奠定了标准化基础 技术成长 组件专家组负责,专家组明确组件的 发展方向,探索最佳实践,有利于技 术积累和人员的技能成长。 消除业务壁垒 业务流程之间的差异会逐步缩小,运 维人员面对的是每个标准的组件。 组件服务化 运维人员对外转型技术输出,提供服 务化的产品,开发仅按照标准api使 用,无需关注底层细节。 GOPS 全球运维大会2018·深圳站
10. 标准化目标 GOPS 全球运维大会2018·深圳站
11. 标准化体系 GOPS 全球运维大会2018·深圳站
12. 配置标准化——分层治理 GOPS 全球运维大会2018·深圳站
13. 监控标准化 曾经的监控是这样的。。。 应用运维 • zabbix • Nagios • …… 大数据 • zabbix • Nagios • …… DBA • zabbix • Nagios • …… GOPS 全球运维大会2018·深圳站
14. 理想的监控 统一!快!精准! 自动化、监控插件标准化 监控视图定制、充分发挥数据价值 为开发赋能、系统可扩展 GOPS 全球运维大会2018·深圳站
15. 监控标准化目标拆分 事件来源即CMDB 应用信息标准化 (应用类型、基础 组件等) 监控模板标准化。 专家组负责技术 组件的监控设计、 阈值设置。 监控模板统一的 版本控制。 告警规则标准化。 监控系统与告警 系统分离,各司 其责。告警根据 设备等级、应用 等级、严重等级 区分。告警发送 对象统一来源: CMDB。 GOPS 全球运维大会2018·深圳站
16. 重新设计监控系统——VIPFalcon • 基于openfalcon二次开发 • 2万+监控节点 • 500万+metric • 重新开发数据聚合 • 落地hive数据分析 GOPS 全球运维大会2018·深圳站
17. 新老监控体系对比 架构 采集扩展 存储 管理 运维生态 编程语言 VipFalcon Zabbix 分布式架构,核心组件(Transfer,Judge、 主要功能都集中在server端,server端成为性能 Graph、hbs和api)可以根据瓶颈水平扩展, 瓶颈,不易水平扩展,数据同步导致延迟。 解决需要部署多套Zabbix的痛点。 灵活的Plugin方式,面向HostGroup维度, 以Host维度支持自定义脚本,没有版本管理, 通过Git进行维护 不易维护 支持适于时间序列数据存储的RRD和 OpenTSDB,易扩展,读写性能高于关系型 数据库。 数据存储在mysql中,数据量大时,读写性能是 瓶颈 以HostGroup为维度,支持继承和覆盖,易 模板以Host为维度,不易维护 于维护 打通变更和发布系统,屏蔽变更和发布过程 没有打通CMDB,变更和发布系统 中的无效告警,打通CMDB Go语言,良好的高并发性能,语法简单,有 C语言,不利于二次开发 利于二次开发 GOPS 全球运维大会2018·深圳站
18. 监控标准化的效果 对内提升质量 • 提升效率 • 降低维护成本 • 提升用户体验 • 控制风险 VIPFalcon 对外价值输出 • 打通运维体系 • 为开发赋能 • 精细运维/运营 • 业务成本核算 GOPS 全球运维大会2018·深圳站
19. 变更标准化 风险矩阵SDK • 变更对象和技术风险两个维度评估 • 变更对象以CMDB存储为准 标准变更模板库 • 原子组件变更模板由组件专家主负责 • 标准变更模板最终固化、沉淀专家技术、经验,既 是技术文档,又是变更单,在变更流程中平台化 GOPS 全球运维大会2018·深圳站
20. 目录 1 曾经面临的问题 2 标准化建设之路 3 打通生态,全面赋能 4 几点感悟 GOPS 全球运维大会2018·深圳站
21. 打通运维生态 运维流程为核心 运维流程+CMDB 为核心 GOPS 全球运维大会2018·深圳站
22. 整体架构 自助平台 发布系统 云 运维自动化 定时任务管 负载均衡管 理平台 。。。 理平台 运维治理 部署标准 SDK风险 矩阵 配置 Puppet 项目管理 Yum源 部署标准 应用/组件 网关 Haproxy Etcd Tomcat 。。。 基础信息 GOPS 全球运维大会2018·深圳站 流程管控 CMDB 日志管理 统一的收集/处理 /查询平台 屏蔽告警 组件信息 监控 基础监控 告警系统 业务层监控 基础信息 监控数据 成本核算 资源利用率 性能评估 容量规划 。。。
23. 各个击破,先从变更开始打通 Devops变更失控 变更流程不遵守 风险评估不准确 效率和流程总是 冲突 变更质量控制困难 GOPS 全球运维大会2018·深圳站
24. 变更打通设计思路 流程系统提供SDK给各自动化工具,提供变更的管控能力、变更的收集能力、 和SDK的自治能力; 自动化能力平台,梳理变更风险矩阵集成SDK,上报变更风险矩阵; 执行变更时,传入变更内容,SDK根据有效的规则配置进行计算,判定变更是 否可以执行,审批结果的回调接口,对于部分变更可能会有后台流程配合 GOPS 全球运维大会2018·深圳站
25. 变更打通,赋能工具 开发 自助 负载均衡管理 sdk 定时任务管理 sdk 前 置 Docker 云 赋 sdk 能 运维 tools sdk DB tools sdk 其它平台系统 sdk SA 流程 平台 SDK 变更模板库 • LVS • K8s • Zookeeper • ATS 。。。 技术组件专家 GOPS 全球运维大会2018·深圳站 固化标准变更 提高变更编写效率 沉淀专家技术、经验 技术文档平台化 简化流程 标准变更简化审批环节 风险矩阵SDK决策判断 流程 有效控制变更风险 所有变更自动计算变更 风险 不再需要人为选择 赋能 平台化赋能开发
26. 监控打通实现自动化 添加 监控 增加 模板 模板 更新 初始化 部署 应用 禁用 启用 服务 运行 服务 暂停 禁用 启用 服务 下线 监控 下线 GOPS 全球运维大会2018·深圳站
27. 监控与外部系统对接 SA 自动化运维平台 基础信息 系统上线 基础信息录入 CMDB 告警平台 数据聚合 告警 Kafka GOPS 全球运维大会2018·深圳站 VIPFalcon Core 数据上报 Falcon Agents Data API 信息同步 服务器状态 发布系统 屏蔽/开启告警 变更系统 OpenTSDB Data API 外部团队
28. 连接一切后产生了什么 全面的集中的数据 GOPS 全球运维大会2018·深圳站 效率和流程管控
29. 再回首 质量 • 转型平台建 设者 • 自动化到智 能化 效率 • 降低门槛 • 效率提升 • 流程管控 成本 • 成本核算 • 容量评估 • 服务器选型 • 应用画像 GOPS 全球运维大会2018·深圳站
30. 目录 1 曾经面临的问题 2 标准化建设之路 3 打通生态,全面赋能 4 几点感悟 GOPS 全球运维大会2018·深圳站
31. 几点感悟 • 有了标准化的土壤,自动化智能化才能生根发芽。 • 标准化需要强有力的领导、明确的方法论。 • DEVOPS建设要有业务视角。 • 单一兵种需要整合成集团军才能发挥战斗力。 GOPS 全球运维大会2018·深圳站
32. Thanks 高效运维社区 开放运维联盟 荣誉出品 GOPS 全球运维大会2018·深圳站
33. 想第一时间看到高效运维社区 的新动态吗? GOPS 全球运维大会2018·深圳站