携程 雍浩淼-卓越运维之路

牛紫丝

2018/05/13 发布于 技术 分类

GOPS 全球运维大会由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)联合主办,指导单位为工信部信通院数据中心联盟(DCA)。全球运维大会是国内第一个运维行业大会,面向互联网及传统行业、广大运维技术人员,传播先进技术思想和理念,分享业内最佳实践。 迄今为止,GOPS 已经举行了八次,大会参会嘉宾累计突破2万人次,国内每一站均为本地区最大规模的高端运维盛会,满意度和推荐度高达95%以上。

文字内容
1. 卓越运维之路
2. 回顾历史 1997 网易 1998 腾讯 搜狐 新浪 1999 携程 阿里 网易 搜狐 新浪 携程 腾讯 2000 百度 2003 2004 百度 2005 阿里 2007 GOPS
3. Sarbanes-Oxley法案(SOX) 2000年初在美国 “安然”“世通”等 一系列经济丑闻爆发, 彻底打击了投资者对 美国资本市场的信心, 为改变这一局面,美 国国会和政府2002 年7月通过了SOX法 案,其主旨在于"遵 守证券法律以提高公 司披露的准确性和可 靠性,从而保护投资 者及其他目的。" 法案中最重要的404 条款,要求在美上市 公司在公司年报中包 含一份管理层对内部 控制体系有效性的评 估报告,报告其内部 控制的效力,其中包 括利用公司数据通过 计算机系统生成报告 的可靠性,如果没有 有效设计IT系统的控 制措施,数据的质量 和可靠性就会受到影 响。 SOX法案明确要求公 司管理层对公司财务 信息披露和内部控制 效力负有直接责任, 对违反法案的公司主 管(CEO、CFO) 处罚款高达500万美 元,并可判处高达 20年的监禁; GOPS
4. 合规框架 COBIT COSO ISO17799 ITIL BS7799 GOPS
5. ITIL在Ctrip落地 GOPS
6. 基于ITIL的运维-四有 有流程 事件管理、配置管理、变更管理、 问题管理,采购管理, 数据中心管 理,服务器生命周期管理等等; 有规范 配置规范,巡检规范,机房管理规 范,OS配置规范,容器配置规范, 安全加固规范; 有文档 一个新系统上线,必须交付四篇文 档,架构,配置,维护,排错 有记录 建立了CMDB,所有所有生产环境 的变化都有记录、方便跟踪回溯; GOPS
7. 基于ITIL的运维-主要问题 流程过重 流程引入了多个的角色,申请人、 实施人、审批人、复核人等,很多 节点并不增值,只是走过场; 流程驱动运维 没有流程定义的日常工作的执行过 程,及绩效标准,没有流程指导的 工作,工程师会出现无所适从; 缺乏工具支持 各环节大量人工操作,缺乏有效工 具支持,流程流转效率低,各环节 衔接耗时长; 技术人员非技术负担重 SOP文档需要及时更新反映实际情况,但往往难以做到, 维护文档需要耗费大量精力; CMDB的准确性需要人工维护,数据的录入,检查,校 验需要投入很多资源; 变更的计划的起草需要耗费大量时间,包括,影响范围、 详细操作工艺、回退方案等; 技术导向不足 对工程师的主要考核指标,侧重 流程执行情况,OLA Miss 率,SOP文档编写质量,标准化变更率,项目交 付进度等,通过ITIL认证对晋升加薪有加分; GOPS
8. 2012年前-基于ITIL的运维 30% 20% 80% ITIL 鼠标+水泥 30%预订 PC 70%预订 电话 Linux占比 Windows + .Net技术 栈 核心DB IOE架构 商业/自研 IT管理方案80%为商业 产品 以流程为中心 流程为中心,以控制为 目标 GOPS
9. 业务战略变化-Mobile First 大幅增加技术研发投入 调整技术组织架构人员 研发人员数量快速增长 产品迭代周期大幅缩短 用户访问量快速增加 GOPS
10. 主要矛盾-资源交付效率低 环境创建,物理机、VMs、网络、存储、负载 均衡,DNS,基础软件安装,监控添加等均需 手工完成,2周的SLA承诺,无法满足业务快速 上线的需求; 工具化、自动化 • 人员结构调整,技能培养 • 工程师文化宣传,绩效考评引导 • 定义全局开发规范,众人拾柴火焰高 资源池化 • 到货库存改到货上架 • VM虚拟化推广 GOPS
11. 主要矛盾-应用部署时间长 Train发布方式,常规发布每周1次,18:00进 行,但紧急发布频发; 测试环境与生产环境一致性差,常常导致集成 测试耗时长; 单机多应用混合部署,存在站点冲突,多应用 部署需要排队,发布耗时长,小时级; 测试环境梳理 • 测试环境仿真(配置,数据) • 测试环境可用性提升 调整应用部署模式 • 以应用为中心的管理模式 • 单机多应用部署专项单机单应用 发布流程、工具优化 GOPS
12. 应用部署模式 Host-1(Physical or VM) App-A App-B App-C Instance-1 Instance-1 Instance-1 Host-2(Physical or VM) App-A App-B App-C Instance-2 Instance-2 Instance-2 单机多应用混合部署,并共享相同服务端口 VM-1 or Docker VM-3 or Docker VM-3 or Docker App-A Instance-1 App-B Instance-1 App-C Instance-1 VM-2 or Docker VM-4 or Docker VM-4 or Docker App-A Instance-2 App-B Instance-2 App-C Instance-2 单机(容器)单应用部署 GOPS
13. 主要矛盾-可用性 发布故障 架构缺陷 技术方案 变更工艺 容量问题 代码BUG 硬件故障 外部因素 故障 • 成立NOC中心,完善应急响应机制 • 优化监控,提升完整性、及时性 • 提升技术人员问题定位能力 架构 • 消除架构SPOF • 建立应用架构评审制度 • 推进架构解耦,消除技术债 • 服务降级能力,熔断限流 工具 • 发布刹车防呆 • 自动化频繁、重复的日常操作 管理 • RCA复盘机制 • 容量管理 • 发布流程工艺优化 • 代码质量 文化 • ThinkTwice GOPS
14. 可用性对Ctrip的重要性 6000亿 4300亿 3500亿 1500亿 2014 2015 2016 2017 GOPS
15. Ctrip ATP模型 ATP = Availability To Promise GOPS
16. 遭遇528滑铁卢 全员教育,对生产环境敬畏之心 梳理所有自动化工具,增加防呆 机制 如何避免再次发生? 大面积故障如何快速恢复? 成立DR Program,建设多IDC DR Site 能在多长时间内重建整个站点? 建立CD Program,推动CD流 程、工具重构 GOPS
17. 去技术债 Windows .NET转Linux JAVA SLB 转SOA服务直连 单机多应用 转 单机单应用 DB去SP SQL Server转MySql 消除架构SPOF ……
18. Ctrip运维技术体系概览 GOPS
19. 现阶段-DevOps 90% 70% 80% DevOps 拇指+水泥 90%预订 手机 10%预订 PC+电话 Linux占比 Linux + Java + PHP + Go +Node js / Windows + .Net MySql > 60% 自研/商业 IT管理方案80%为自研 以技术为核心 以质量、成本、效率、 安全为手段,以促进业 务发展为目标 GOPS
20. 部分运维数据参考 300+ 150+ 200+ N/A N/A 1200+ 2200+ 服务器 1~2周 周告警数 周变更数 周变发布数 网站可用性 成本(core) 服务器实例数 应用数量 交付时长 11000+ 6000+ 5000+ >99.97% ½ 公有云 60000+ 8000+ 应用端到端交付 VM :分钟级 Docker :秒级 ~2012 Now GOPS
21. 部分新进展 AIOPS • 异常检测 • 智能告警 • 智能诊断 • 故障关联 • ChatOps • 容量管理 Docker/SDN • Redis/DB容器化 • 自研SDN POC COST • 应用画像标签 • Online/Offline混部 • 自动缩容 GOPS
22. 新挑战-Ctrip国际化战略 海外基础设施支持 海外用户体验优化 海外站点建设 海外CallCenter建设 海外法规遵从 海外技术支持 ……
23. THANKS! 卓越的本质就是不断改善,持续优化 我们始终追求卓越! GOPS