腾讯自研游戏业务运维总监洪楷——腾讯游戏“业务”运维转型实践及难点思考如何“贴近”智能

侍凝蕊

2017/11/14 发布于 技术 分类

在面临高速发展的移动互联网游戏行业,对运维能力和素质的要求变得越来越高,特别是业务运维团队如何贴近业务,如何转型并且以技术凸显价值: 1. 介绍腾讯游戏运维的转型,重点介绍业务运维如何切入业务和用户痛点,凸显运维的价值; 2. 从游戏业务的场景出发,通过实战案例进行介绍docker在游戏中的应用,特别是在端游中的替换实战; 3. 智能化时代的到来,腾讯游戏故障定位的新思路和技术难点;

文字内容
1. 腾讯游戏“业务”运维转型实践及难点思考如何“贴近”“智能”
2. 自我介绍 洪楷 KemHong 腾讯自研游戏业务运维总监 • 专注海量运维、高可用以及自动化运维等相关技术,致力于提升业务运维的自动化,建设运维岗位 价值体系,通过运维服务整体提升团队价值和技术能力。 • 负责运营商SP网关开发工作,涉及计费平台、网络间通讯平台构建和持续集成 • 腾讯十年: • 负责腾讯TBOSS平台的平台设计以及运维系统开发设计以及运维工作,见证TBOSS从1.0到 3.0的成长,并在多次平台升级以及故障中得以锤炼。 • 腾讯游戏代理、自研&引领云梯运维服务团队 • 爱好: • 游泳、旅行、美食
3. 目录 • 游戏业务运维的特点&难点思考 • 腾讯游戏业务运维转型的四个阶段 • 服务化之腾讯游戏业务运维服务体系介绍 • “贴近”业务“痛点”运维服务实践 • 海量&云化驱使我们走向“智能”化 • “智能”转型之故障定位实践
4. 游戏业务运维的特点&难点思考
5. 游戏业务运维的特点 业务多 异构杂 游戏品类变化快 300+的运营业务,异构杂导致标准化压力大 自动化的能力决定团队的成长 如何真正贴近“业务” 品类变化快,“痛点”变化快
6. 腾讯游戏业务运维转型的几个阶段
7. 腾讯游戏业务运维转型的几个阶段 自动化(2012) 服务化(2014) 智能化(2016) 标准化(2011)
8. 腾讯游戏业务运维转型的几个阶段 快捷的代码 部署与验证 丰富的原子层 让组合更加灵活
9. 腾讯游戏业务运维转型的几个阶段 运维服务的定义 运维基础服务:“发布、变更、故障处理”+SLA(安全、成本) 运维服务+:对你的产品或你服务的团队产生增值价值点,可计价并且关注的 幕后到台前,用户现在关注才会关心 用户潜在关注的才拥有更多核心价值 用户关注 增值效益 可计价 本份事情打基础,增值效益才体现核心竞争力 做任何事情都必须有价值,可衡量才可以对比 有价值才能够更让团队有动力
10. 腾讯游戏业务运维服务体系介绍
11. 腾讯游戏业务运维服务体系介绍 游戏运维服务体系进阶 运营 SaaS 系统 A 运营 系统 B 支撑 工具 A 支撑 工具 B …… PaaS API 网关 & 服务总线 管 前 后 调配 作 数 控 平 端 服 台 框 度 服 置 服 业 服 据 服 … 台 务 架 务务 务 务 APP Engine + Docker 基础 DB 架构 Tdo cker 网络 支撑 安全 防护 …… 服务体系升级中…. 版本服务 重例 大行 版版 本本 场景工具 紧 急 版 本 用户体验优化服务 玩玩 游 家家 戏 VIP 登付 下 内用 陆费 载 体户 体体 优 验关 验验 化 提怀 提提 升 升升 场景工具 业务安全保障服务 软 硬攻 游操 件击 戏游 作 安发 特戏 安 全现 性对 全 漏与 监 账 场景工洞具 防 审 测计 检范 测 运营活动服务 运营成本控制与优化服务 开 扩 冲周 合 缩 在年 区 容 线庆 场景工具 设带 备宽 成成 本本 优优 化化
12. “贴近”业务“痛点”-运维服务实践
13. 开合服服务场景看实践 特点 通过之前积累的数据,产品运营跟踪开服后的效果, 调整开服时间,开服策略,运营策略等,达到既能让 老区玩家对游戏的某些玩法还能够顺利进行,同时后 来新进的玩家也追赶不至于过于困难。 特点 导量速度一般会很猛,需要人力 盯着导量情况。新区的开放也一 般是人工判断,手动执行。 上线初 期 精细运 营期 导量稳 定期 合服期 特点 单服人数低于某个量后,玩家流 失速度会非常块,游戏中一些核 心团队PVP玩法也会受到影响, 业务一般通过合服降低流失。 特点 每周的放量基本固定,已经不需 要人工操作,有的业务设定注册 量,到量后自动开新区,有的业 务则会固定每周的开放时间。
14. 开合服服务场景看实践 开服 手动开服 在智慧雪球项目组通过人工点击开服按钮,调后台任务自动完成大区 对外开放操作 自动开服 根据项目组制定的开服策略,如PCU或注册其中一项达到阈值,则调 后台任务自动完成大区对外开放操作,全程无人工干预。APP会有每 天开服数量和开服时间间隔限制 定时开服 项目组在智慧雪球上配置定时开服任务,到点即开服。当定时开服与 手动、自动开服冲突时,以手动、自动开服优先 PCU与注册 游戏区服 池
15. 开合服服务场景看实践 项目组运 营团队提 交需求 游戏行业的开合服看服务实战-合服 开发提供 数据合并 工具 运营团队 提供合服 的N合M 运维团队 挑选合适 服务器 运维执行 工具 数据合并 正式对外
16. 开合服服务场景看实践
17. 开合服服务场景看实践 用户层 用户配置 数据展示 合服大区筛选 数据周报 合服大区分组 开服 大区开放服务 逻 自动开放 辑 手动开放 层 定时开放 大区推荐服务 自动推荐 人工推荐 合服 大区智能分组服务 数据 筛选 聚类 分析 大区 组合 合服操作 数据 跟踪 原子服务 数据接口层 游戏云调用 数据查询 消息推送 权限控制 蓝鲸数据平台 idata 数据缓存 tdw
18. 开合服服务场景看实践 1064 业务累计合服次数 129 合服预估累计使用次数 260H 合服累计节约时间 250 大区对外开放累计执行次数 238 合服辅助决策累计使用次数 7368 推荐区服累计执行次数
19. 服务对象的延伸 内部用户 延伸 产品用户
20. 下载服务案例实践介绍 下载服务(衡量指标:下载成功率、 成本) 版本管 成功率 成本限 包制作 理 跟踪 速 下载服务(衡量指标:下载成功率、转化率、成本、最优速度) 最 预下载渠道 包制作 新 投放 版 异常用户跟踪 普通 跨版 包更 本更 本 管 加速 鹰眼 玩家 TGP TCLS 管家 白名 用户分 新新理 监测 关怀 单 级 实时数 回据 智能限速 防 盗 源链 更 新 秒 分 用户 单 钟 等 地 用 跟 级 级 级 域 户 踪 专 专属 礼包 属 VIP
21. 下载服务案例实践介绍 玩家下载时长 下降60%+ 转化率提升10%+ 业务1 业务2 业务3 业务4 业务5 业务6 业务7 业务8 业务9 业务10 优化前 优化后 业务1 业务2 业务3 业务4 业务5 业务6 业务7 业务8 业务9 业务10 提升20%+ 玩家下载完成率 业务1 业务2 业务3 业务4 业务5 业务6 业务7 业务8 业务9 业务10
22. “微”服务的运维服务模式 下载服务(最优、最新) 端游完整包(衡量指标:下载成功率、转化率、爬虫、成本、最优速度) 端游更新包(衡量指标:成功率、成本、最优速度) TGP 盗链 付费会员体系 更新包制作 预下 载 更新中 手游 更新 包 回源 更新 下发 CDN 合作 最新版 Ebit加 智能 控速 封锁 媒体 本管理 速 加速 P2P 失败 追踪 触达 玩家 自动 同步 跨版本 更新 TGP CDN Ebit提 加速 速 P2P 失败 触达 跟踪 玩家 实时 专属下 专属下 数据 载器 载器 白名 白名 单单 心悦 专属 关怀 礼包 TCLS 白名 单 白名 单 心悦 专属 关怀 礼包 爬虫 爬虫 跟踪 跟踪 管家
23. “微”服务的运维服务模式 安装、登录服务 完整包安装(衡量指标:成 功率) 端游登录(衡量指标:成功率) 手游登录(衡量标准:成功率) 实时 数据 失败跟踪 自动 安装 TGP 网吧 TCLS MSDK MTCLS 手Q 微信 心悦 用户 关怀 触达 实时 数据 失败 跟踪 实时 数据 失败 跟踪 帐号 认证 选区 进入 游戏 失败跟踪 实时 失败 实时 失败 实时 实时 数据 跟踪 数据 跟踪 数据 数据 心悦 关怀 心悦 关怀 快速 登录 网络 调优 客户 端依 赖优 化 心悦 关怀 触达 玩家
24. “微”服务的运维服务模式 上线初期 手动开服 自动开服 大区状态更新 大区状态更新 自动推荐 数据 展示 开服 方案 开服数 量辅助 决策 预估 承载 PCU 自动推荐 数据 展示 开服 方案 开服数 量辅助 决策 预估 承载 PCU 开服服务 稳定运营期 定时开服 自动开服 大区状态更新 大区状态更新 自动状态更新 开服时间分 析 留存 LTV 效果 效果 灌服 时间 预估 分天注册玩家平衡 分析 等级 分布 战力 差距 根据单 区实际 数据智 能补偿 自动推荐 开服时间 分析 留存 LTV 效果 效果 灌服 时间 预估 分天注册玩家平 衡分析 等级 分布 战力 差距 根据单 区实际 数据智 能补偿
25. 海量&云化驱动我们走向“智能”化
26. 海量&云化驱动我们走向“智能”化
27. 海量&云化驱动我们走向“智能”化 SAAS—业务运维 PAAS IAAS 业务指标 在线人数 注册人数 登录人数 用户体验 下载 更新 登录 游戏内体验 卡顿 掉线 支付 其他舆情 问题表象 用户分布 业业 务务 整故 体障 用用 户户 分分 布布 操作数据 业务类 支撑环境 业务活动 业务发布 业务变更 网络变更 SA变更 网络 存储 运营数据 环境数据 主机 业务程序 安全 周边系统
28. 海量&云化驱动我们走向“智能”化 告警 投诉 异常现象 登录服务器 查看日志 通报上级 定位异常点 应用模块 设备 网络 周边
29. “智能”化转型之故障定位 能力层次 发现 定位 处理 呈现 验证
30. “智能”化转型之故障定位
31. “智能”化转型之故障定位
32. “智能”化转型之故障定位
33. “智能”化转型之故障定位
34. “智能”化转型之故障定位
35. “智能”化转型之故障定位—关键难点
36. “智能”化转型之故障定位 故障定位分析(传统模式)
37. “智能”化转型之故障定位 故障定位分析理论依据FTA(常见模式) “故障分析树” 故障树分析(FTA)技术是美国贝尔电报公司的电话实验室于1962年开发的,它采用 逻辑的方法,形象地进行危险的分析工作,特点是直观、明了,思路清晰,逻辑性 强,可以做定性分析,也可以做定量分析。体现了以系统工程方法研究安全问题的 系统性、准确性和预测性,它是安全系统工程的主要分析方法之一。一般来讲,安 全系统工程的发展也是以故障树分析为主要标志的。
38. “智能”化转型之故障定位 多点抛出异常时--故障定位分析模型 关联矩阵概率 故障因子可信度 转换关系图 50+ 1、故障因子排序 (父节点优先级高) 2、计算决策矩阵概率 f(F1) = f(F2) = f(F3) = f(F4) = 1 f(F6) = (1- 0. 5) * f(F1) = 0.5 f(F5) = (1-1) * f(F1) * ( 1- 0.5) * f(F6) = 0 f(F7) = (1-0.2) * f(F6) = 0.4 3、最终计算故障因子概率 故障因子概率为因子可信度 * 决策矩阵中的概率 P(F1)=0.8*f(F1)=0.8*1=0.8 P(F5) = 1 * f(F5) = 0 F5被排除掉,F1概率性最大。
39. “智能”化转型之故障定位 决策信息关键因素 1、信息级别关键性划分;  致命  异常  告知 2、非监控告警而是异常事件; 3、信息窗口(分钟级还是秒 级); 信息窗口 异常事件点 监控告警点
40. “智能”化转型之故障定位 数据源异常监测(网络动态阈值) 算法:自适应阈值异常检测算法 应用:算法已应用在网络延迟、流量异常、在线异常三个方面。 1、结合前60天数据和当前时间点数据预测下一时间点数据值 下一时刻(t+1)时刻的数据计算 注:p(t+1)为t+1时刻的数据预测值 di(t)为前i天t时刻数据 2、异常波动设定一个范围,超出上下限判断为数据异常。 U(t+1)和L(t+1)即为延迟的上下限,其中σ(t+1)为t+1时刻数据的标准差,flex为松弛 根据预测值设定一个波动范围, 在这个范围内的数据均为正常。 U(t+1)和L(t+1)即为延迟的上下限,其中σ(t+1)为t+1 时刻数据的标准差,flex为松弛。
41. “智能”化转型之故障定位 发现 定位 处理 预测 呈现 验证
42. 保护 感知 呈现 分析 执行 决策 文化 人才