黄文宇-云时代下的游戏运维-网易

OpsWorld 运维世界大会由运维帮、云技术、Linux中国三大社区联合举办,三大社区汇聚了大量的技术精英和行业领袖,拥有广泛的群众基础和专家人脉,订阅号粉丝达到20多万人,技术内容覆盖整个互联网技术圈。为了加强行业内的技术交流,本次大会希望通过分享先进的互联网技术,碰撞彼此的思想,一起打造世界领先的互联网技术分享平台!

1. 云时代下的游戏运维 网易游戏 黄文宇
2. About Me •  网易游戏2005-2016 •  天下、天谕、CC、UU •  乱斗西游、阴阳师 •  游戏运维自动化平台负责人 •  MongoDB SaaS Team Leader
3. Rules of Engagement •  本次分享专注公有云使用 •  默认各位已经熟悉主流公有云概念 •  为方便举例,使用 AWS 作为实例范本
4. 网易游戏在云端 •  触云两年 •  多个云服务商以及自建私有云都有涉及 •  在全球各地大约构建了30+游戏 •  对云处于又爱又恨的阶段
5. 为什么使用云? 多 大型云商海量服务器资源可供调用 全球资源随意调度,总有一款适合你 快 业务部署时间大幅缩短 在我们设置好的情况下,只需一天就能完成整套业务的部署 好 计算、存储、网络分离,资源按需快速调整。 可以合理选择实例,资源利用率上升 省 不需要机房维护人员,无硬件维护持有成本
6. 云可以解放运维的生产力?
7. 运维可能需要做的工作 •  机房硬件、网络维护 •  基础软件运行环境维护(包括软硬件调优) •  应用软件集群部署与维护 •  业务资源与性能规划
8. 软硬件调优 •  网卡SMP IRQ Affinity调优(TPS 差距5倍) •  时钟调整HPET – TSC(CPU性能差距30%以上) •  电源策略调整Performance (CPU性能差距50%) •  针对硬件类型选择合适的kernel与驱动
9. 网络带宽与PPS •  ec2 network performance受诸多因素影响,是否跨 az、是否跨vpc、是否跨region等。 •  这里整理了下同个 AZ 下我们测试的结果: 实例类型 M4.large C4.large C4.xlarge C4.2xlarge 标称带宽 Moderate Moderate High High 测试带宽 447Mb/s 620Mb/s 1.24G/s 2.48G/s 测试pps 5w 5w 7.5w 20w
10. 网络带宽与PPS •  为了获取上面表格的最高性能,你还需要做: •  启用 Linux 上的增强联网(SR-IOV) •  内核升级到4.4.34以上(解决 CPU0 %so] 使用率 100%)
11. 默认时钟源 •  因为某些未知原因,我们发现在日本的AWS启动的 高配实例默认时钟源是HPET •  导致服务端性能表现非常低下 •  强制设置为TSC后解决
12. Kernel与实例兼容性 •  C4.8xlarge、M4.10xlarge 等 HasWell 架构下的实例 如果使用3.x 的kernel 在压⼒力力负载⼤大时会导致系统 Crash,需要升级到4.7 kernel。 •  虚拟网卡在3.x kernel 下 pps 性能无法打满
13. 故障解决时间变长 •  很多参数并不透明 •  需要应用自己测试 •  不知道是业务的问题还是厂商的问题 •  有时定位到故障也需要等厂商上线修复
14. 性能瓶颈并没有消失,只是躲起来了。 需要运维人员自己找出来优化~
15. 全球资源一体化
16. 云实例被攻击
17. 接入外部清洗
18. 第三方监控
19. 多云混合使用 •  把全球公有云看成一个资源池使用,给我们提供了 非常大的灵活性 •  但是不同云从名称、技术细节上的差异也为我们带 来了巨大的工作量 •  资源集庞大后的计费、调度、统计,包括商务洽谈 等都会给使用者提出挑战
20. 云可以解放运维的生产力?
21. 总结 •  云的趋势不可抗拒 •  云在降低了我们某些工作量的同时,也给我们带了 了很多新的工作量 •  运维的工作价值依然重要,不会被云替代
22. THANKS