腾讯 朱海洋-百亿级别营收体系的监控能力建设

查弘懿

2018/05/13 发布于 技术 分类

短歇之后,腾讯增值产品部会员支付团队负责人朱海洋老师带来精彩议题《百亿级别营收体系的监控能力建设》。

文字内容
1. 百亿级别的营收体系监控能力建设 朱海洋 腾讯QQ会员 GOPS 全球运维大会2018·深圳站
2. 目录 01 背景介绍 02 监控体系建设 03 总结回顾 GOPS 全球运维大会2018·深圳站
3. About me Ø 朱海洋 Ø 2010年本科毕业加入腾讯 Ø 后台开发、数据可视化开发、前端开发 Ø 互联网事业群=>增值产品部=>QQ会员营收团队技术负责人 GOPS 全球运维大会2018·深圳站
4. 我们的业务 QQ会员 游戏运营 鹅漫U品 企鹅电竞 动漫 GOPS 全球运维大会2018·深圳站
5. 监控体系是业务营收的后盾 Ø 系统异常造成损失巨大 Ø 有后盾才能放心冲锋 Ø 完善监控不做背锅侠 GOPS 全球运维大会2018·深圳站
6. 监控体系助力提升体验和营收 监控是手段 创造业务价值才是核心 每年创造数亿营收增量 稳定性问题 性能问题 体验问题 GOPS 全球运维大会2018·深圳站
7. 目录 01 背景介绍 02 监控体系建设 03 总结回顾 GOPS 全球运维大会2018·深圳站
8. 营收监控体系 应用层 页面pv监控 badjs错误监控 qta页面自动化测试 图片错误监控 cgi返回码监控 页面测速 cgi测速 接入层 cgi自动化测试 门神扫描 逻辑层 错误日志 流量监控 模块间调用 支 错误日志 付 结 果 监 名字服务结果监控 控 存储层 模块间调用 GOPS 全球运维大会2018·深圳站
9. 营收监控体系 webserver错误 后台服务错误 错误日志 服务器端监控 模块间调用 js错误 错误监控 图片错误 前端监控 现网cgi返回码 页面pv监控 后台服务流量 流量监控 发布前 线上 qta页面自动化测试 发布前 线上 cgi自动化测试 自动化测试 功能监控 营收监控体系 安全监控 性能监控 结果监控 门神扫描 发布前 线上扫描 页面测速监控 现网cgi测速监控 AID支付结果自动监控 按天 实时 多维度数据报表监控 按天 实时 GOPS 全球运维大会2018·深圳站
10. 如何保证快速迭代与高质量 Ø 高质量面临的挑战 ü 系统复杂 ü 任务紧迫 ü 是人总会犯错 我们要又快又稳 GOPS 全球运维大会2018·深圳站 Ø 快速迭代 ü 小步快跑,迭代优化 ü 速度是核心竞争力 ü 速度是互联网生存法 则
11. qta页面自动化测试 Ø 效果接近于人工测试 Ø python控制测试桩获取和操作app控件 Ø 针对具体业务场景编写自动化测试用例 Ø 统一支付组件自动化测试用例800个 GOPS 全球运维大会2018·深圳站
12. qta页面自动化测试 开发 qta 发布 Ø 保证代码质量 Ø 减少测试人力投入 Ø 提升测试效率 Ø 提升现网运营质量 现网 定时qta监控 GOPS 全球运维大会2018·深圳站
13. 总结 01 监控,始于上线之前 02 监控是快速迭代的坚强后盾 03 监控可以通过提升效率,创造价值 GOPS 全球运维大会2018·深圳站
14. 营收监控体系 webserver错误 后台服务错误 错误日志 服务器端监控 模块间调用 js错误 错误监控 图片错误 前端监控 现网cgi返回码 页面pv监控 后台服务流量 流量监控 发布前 线上 qta页面自动化测试 发布前 线上 cgi自动化测试 自动化测试 功能监控 营收监控体系 安全监控 性能监控 结果监控 门神扫描 发布前 线上扫描 页面测速监控 现网cgi测速监控 AID支付结果自动监控 按天 实时 多维度数据报表监控 按天 实时 GOPS 全球运维大会2018·深圳站
15. 提升页面速度至关重要 Ø 40%的人会放弃那些加载时间 超过3s的网站 Ø 增加1s的延迟会使用户满意度 下降16个百分点 GOPS 全球运维大会2018·深圳站
16. 页面速度监控指标 Ø 核心指标 ü 首屏可交互耗时 Ø 各环节耗时细分指标 ü 终端耗时 ü 网络耗时 ü 页面耗时 GOPS 全球运维大会2018·深圳站 DNS解析 下载html 检查缓存 加载资源 渲染首屏 终端创建 webview 终端响应 事件 用户点击 入口 绑定事件 首屏可交 互
17. 页面测速监控系统架构 X5内核 webview 页面 上报接入层 数据接入 数据清洗 数据计算 数据展现与监控 GOPS 全球运维大会2018·深圳站 数据获取 数据上报 数据统计 数据监控
18. 优化效果 1.1s 1.6s 2.0s 3.0s 6.0s GOPS 全球运维大会2018·深圳站
19. 做了哪些优化 减少http请求 减少资源体积 图片优化 代码优化 sonic秒开技术 接入http2/quic CDN支持图片优化 支持资源合并加载 支持http2/quic GOPS 全球运维大会2018·深圳站 优化webview 预加载 支持sonic 支持图片优化 支持php并行调用 优化耗时的后台服务
20. 总结 0011 监控不仅仅是维稳,还应引导提升业务体验 0022 性能监控对持续优化业务体验有重要意义 0033 性能监控要找准核心指标,并提供辅助指标 0044 核心指标要切中要害,覆盖面要广 Lorem ipsum dolor sit amet, consectetur adipiscing elit. GOPS 全球运维大会2018·深圳站
21. 营收监控体系 webserver错误 后台服务错误 错误日志 服务器端监控 模块间调用 js错误 错误监控 图片错误 前端监控 现网cgi返回码 页面pv监控 后台服务流量 流量监控 发布前 线上 qta页面自动化测试 发布前 线上 cgi自动化测试 自动化测试 功能监控 营收监控体系 安全监控 性能监控 结果监控 门神扫描 发布前 线上扫描 页面测速监控 现网cgi测速监控 AID支付结果自动监控 按天 实时 多维度数据报表监控 按天 实时 GOPS 全球运维大会2018·深圳站
22. 影响支付结果因素众多 面试造火箭,入职拧 螺丝 这次的任务是修改一个 URL,so easy! 马上要月度汇报了 怎么数据不对, 真捉急! My God! URL配错了 GOPS 全球运维大会2018·深圳站 产品经理 反思 系统应自动发现问题
23. 影响支付结果因素众多 GOPS 全球运维大会2018·深圳站
24. 监控算法 01 基于近万个AID统计分析 02 对比多种监控算法 03 经过反复试验调整算法参数 平滑预测算法 F[t] = α * y[t - 1] + (1 - α)F[t - 1] 注:我们给每个开通入口分配一个唯一标识符“AID”, 用于追踪该入口开通情况 GOPS 全球运维大会2018·深圳站
25. 难以避免出现虚警 01 流量的周期性正常波动 02 产品运营推广策略变化 03 访问人群付费意愿变化 04 运营活动到期下线 GOPS 全球运维大会2018·深圳站
26. 过滤虚警 最近一周下降趋势 没有扩大不告警 对比近四周周同比波动率均 值 结合PV变化数据过滤 日、周、月预测 下降趋势 周同比均值 周同比波动率 开通量 PV 按天、周、月预测 均超阀值才告警 对比近四周周同比均值 GOPS 全球运维大会2018·深圳站 过滤开通量小的非掉0告警
27. 快速定位原因 提供aid开通历史记录 和走势图 预测值 提供按天、周、月的预测 值及偏离幅度 开通数据 PV数据 提供天、周、月的pv数 据和变化幅度 提供aid开通来源页面 url 快速定位原因 来源页面 运营信息 提供运营活动到期时间 信息 提供告警处理历史记录 处理记录 信息 GOPS 全球运维大会2018·深圳站
28. 避免监而不控 多渠道触达 邮件、微信、企业 微信触达 督促处理 处理周报 闭环处理 处理便捷 移动端、PC端均可 以处理 减少定位耗时 提供完善数据支持 快速定位 责 明确负责人 每个aid都有明确负责人 GOPS 全球运维大会2018·深圳站 持续优化策略 减少虚警
29. 总结 0011 监控系统建设以结果为导向 0022 告警宜准不宜多 0033 提供告警分析辅助工具,减少定位时间 0044 监而不控,等于没有监控 Lorem ipsum dolor sit amet, consectetur adipiscing elit. GOPS 全球运维大会2018·深圳站
30. 质量考核体系 0011 建立于监控体系基础之上 0022 有利于充分利用监控优化系统 0033 考核指标要精简、核心、覆盖面广 GOPS 全球运维大会2018·深圳站
31. 质量考核体系 页面首屏可交互时间 badjs badjs错误率 页面测速 模块间调用成功率 模调 GOPS 全球运维大会2018·深圳站 考核 cgi质量 现网用户返回码错误率 cgi自动化监控错误率 安全漏洞 安全漏洞工单数量
32. 目录 01 背景介绍 02 监控体系建设 03 总结回顾 GOPS 全球运维大会2018·深圳站
33. 总结回顾 Ø 从上线前开始监控质量 Ø 从功能、性能、安全、结果数据四个方面建设监控体系 Ø 监控不仅仅是坚强后盾,也能提升效率、优化业务系统提升体验 Ø 告警要精准、定位要高效 Ø 建设好“监”系统,同时要落实好“控”,避免监而不控 Ø 考核指标要精简、核心、覆盖面广 GOPS 全球运维大会2018·深圳站
34. GOPS 全球运维大会2018·深圳站