腾讯 孙亮--社交业务运维基础技术架构选型与演进

严丽佳

2018/05/13 发布于 技术 分类

演讲内容先回溯十多年的运维变化,然后3个阶段重点讲述。从运维响应社交业务迸发开始介绍,运维满足业务需求同时并且切入主线做标准化。运维基础技术持续演进,自动化能力提升,业务高效调度实现,最终实现支撑一人万台运维,高效自动化运维先进体系搭建。业务林林总总,成本压力巨大,除了精细化成本管控的管理机制之外,引入虚拟化技术引入,加速资源流动效率降低成本。

文字内容
1. GOPS 全球运维大会 2018 2018.4.13-4.14 中国·广东·深圳·南山区 圣淘沙大酒店(翡翠店) GOPS 全球运维大会2018·深圳站
2. 社交业务运维基础技术选型与演进 孙亮 腾讯·社交网络运营部 GOPS 全球运维大会2018·深圳站
3. 个人简介 • 孙亮(三叔) • 十年运维 • 社交网络计算资源平台、组件运维团队 • 腾讯学院讲师 GOPS 全球运维大会2018·深圳站
4. 目录 1 高效率发布,织云包管理 2 高可用容错,织云路由 3 成本节约,织云成本管理方案 4 智能监控,织云AI运维 GOPS 全球运维大会2018·深圳站
5. 高效率发布, 织云包管理概况 关键事件 07年 空间千万在线亿级活跃 09年 校友“全民”农牧场 12年 管理系统内并外管 13年 “红米营销”90秒售出10万台 15年 天津港事件亿级在线QQ用户迁移 18年 走运、短视频、视频、口令红包44.5亿个 18年 两会/记者/霍金热点事件 业务覆盖 QQ、TIM、企业QQ、物联、直播、互动视频 QQ空间、相册、P图、企鹅FM、在线教育 广告、QQ视频、QQ音乐、腾讯云&多云… 外联企业 汽车、交易所、电力、电商… 包支持语言 C/C++、Node.js、Golang、Python、PHP、Java 运营数据 10K+/day 40K package 600K version 3T capacity GOPS 全球运维大会2018·深圳站
6. 高效率发布, 织云包管理产生的背景 “敏捷” 模式 “人人”发布 运营环境“复杂” 效率 交付 持续 发布 属性 运营 轻 增量 DO “分 映射 发布 离” 现网 GOPS 全球运维大会2018·深圳站
7. 高效率发布,织云包管理运维技术演进 20K/person 轻量,互助 10倍 效率 内聚外解 文件读取&备份 性能 可用 痛·快补充 容器 兼容 Merge Helm 一站式 CI/CD 社区 版 质量 提升 Coredump文件 磁盘清理 一致性梳理 GOPS 全球运维大会2018·深圳站 自动 化 前·后互通 多云 管理 视频云 腾讯云
8. 目录 1 高效率发布,织云包管理 2 高可用容错,织云路由 3 成本节约,织云成本管理方案 4 智能监控,织云AI运维 GOPS 全球运维大会2018·深圳站
9. 高可用容错,织云路由概况 业务覆盖 腾讯公司所有BG事业群 运营数据 4KB req/day 230K 1M 主被节点 11K 模块 高可用:监控 代 多 安 负载:轮询 理 通 全 4/7 (3*4)+1 网关代理路由 语言支持 C/C++、Python、PHP 给运维带来好处 单机故障忍耐性更高 名字服务 …… QOS 成功率 延时 基于访问质量路由 GOPS 全球运维大会2018·深圳站 开 调放 度就 近 100% 99% 5 就近寻址路由
10. 高可用容错,织云路由产生的背景和选型 路 业务,农牧场从小游戏 到大生意 由 服 架构,分层分割,代理、 权限、消息队列 务 作用,路由寻址、容错、 负载均衡、过载保护 架构演变 运行:从单体式到分布式 开发:协议 分而治之 产品线 运维:单机到模块纬度 GOPS 全球运维大会2018·深圳站
11. 高可用容错,织云路由设计与运维技术演进 • 权重与定向 • 静态权重 Wd=成功率+1/延时 动态权重Wd 权重W=静态权重Ws*动态权重Wd • 局部访问局部 有状态、SET化、数据库 • 唯一性 • 名字 全->增,推->拉 • Server 合法性,哈希选取 • 路由周边配套建立和演进 • 监控上报 • 自动化演进, 模块均衡 GOPS 全球运维大会2018·深圳站
12. 目录 1 高效率发布,织云包管理 2 高可用容错,织云路由 3 成本节约,织云成本管理方案 4 智能监控,织云AI运维 GOPS 全球运维大会2018·深圳站
13. 成本节约,织云成本管理方案 3个阶段 • 预、核算 • 设备成本梳理 • 带宽成本优化 设备 • 单机复用 • 存储备机 • 空闲母机超卖 • 资源流转池共享 • 访问密度管理 • 存储优化 • 冷数据纠删码应用 • 冷热数据交换 品质 兼容 性 解码 带宽 • 音视频、图片 • 编码Webp、SharpP、Guetzli • 多路混音合并 • 边下边播、转发、盗链、鉴黄 • AI·动态编码 GOPS 全球运维大会2018·深圳站
14. 目录 1 高效率发布,织云包管理 2 高可用容错,织云路由 3 成本节约,织云成本管理方案 4 智能监控,织云AI运维 GOPS 全球运维大会2018·深圳站
15. 智能监控,我们的挑战 监 控 井喷“高” 质请求 DevOps“新” 要求 “快” 热点事件 “虚” 拟化纬度叠加 告 异常分析分钟级识别 警 100-1000条告警/天 GOPS 全球运维大会2018·深圳站
16. 智能监控,AI运维 快 根因分析 根源分析 准 异常检测 统计方法 社群划分 分类算法 统计方法 有 无监督 关联 Apriori频 分析 繁项集 GOPS 全球运维大会2018·深圳站
17. 后记 1. 选型和演进是在大压力下不停优化 • “大”压力是普适环境 • “按部就班”逐步优化 • “互补” 开源技术 GOPS 全球运维大会2018·深圳站
18. Thanks GOPS 全球运维大会2018·深圳站 高效运维社区 开放运维联盟 腾讯运维体系专场 荣誉出品
19. 想第一时间看到高效运维社区 的新动态吗? GOPS 全球运维大会2018·深圳站