陆琴 FreeWheel实时监控系统如何支持超级赛事直播广告

1. FreeWheel 实时监控系统如何支持超级赛事直播广告 陆琴 2018.12.07
2. 2
3. 概要 # FreeWheel 业务背景及直播广告业务特点 # FreeWheel 监控平台设计原则 # FreeWheel 实时监控系统基础架构 # 实时监控系统在 FreeWheel 的应用及典型案例分享 # 总结与展望 3
4. FreeWheel 业务背景及 直播广告业务特点 CONFIDENTIAL 4
5. 业务背景:多样化客户定制需求 5
6. 业务背景:客户示例(2018 SuperBowl 超级碗直播 - NBCu) • 超级碗 = 赛事 + 中场秀 + 广告, “美国春晚” • 30秒广告 ≈ 500万美元, 总广告收入 ≈ 5亿美元, 商业价值 > 奥运会 + 世界杯 • FreeWheel 承担了 NBCu SuperBowl 全部的数字视频广告业务: • 广告请求:超过7千万次 • 广告观看:约2亿次 6
7. 业务背景:客户示例(2018 WorldCup 世界杯直播季) • 世界杯直播季: 6月14日 23:00 -- 7月15日 23:00 • 客户: • 美国:NBCu, FOX • 欧洲:TF1, Mediaset, RTE • 广告观看:约20亿次 7
8. 业务背景:直播广告及其特点 • 高并发 • 实时响应 • 高可用性 8
9. FreeWheel 监控平台设 计原则 CONFIDENTIAL 9
10. FreeWheel 监控平台设计原则 1 统一监控平台 2 数据的可插拔 3 实时响应 4 可视化 5 故障分析与定位 6 自动化 & 智能化 10
11. FreeWheel 实时监控系 统基础架构 CONFIDENTIAL 11
12. 通用监控系统 12
13. FreeWheel 实时监控系统基础架构 13
14. FreeWheel 监控框架 - Prometheus • CNCF Kubernetes 原生监控平台 • 强大的功能特性 • 标准的监控指标类型: Counter, Gauge, Histogram, Summary • 多维数据模型 • 强大的查询语句 PromQL • 丰富的集成选择 • 提供多种语言的 SDK • 大量的 exporter • 支持多种 remote storage 14
15. 数据采集 • 统一的数据接入标准 • 非侵入式的数据采集方式 • 充分利用开源 exporter • 统一的监控指标采集适配 器 -- Gather • 同时支持 Pull & Push 15
16. 数据存储 – InfluxDB • 时序数据库 Ø 支持每秒百万级的数据写入 Ø 灵活的数据保留策略 • 支持 Prometheus 数据远程存储 • 技术栈丰富( TICK ),社区活跃 Ø 报警模块 Kapacitor 流式消费数据,实时性高 Ø 版本更新快 16
17. 数据存储 – 自研的中间件 • 自研的中间件 DB-Proxy Ø PromQL à InfluxQL 解 析、优化 Ø 数据读写高可用 Ø 负载均衡 Ø 数据库的水平扩展 Ø 故障节点摘除 Ø 支持每秒千万级 Series 的存储 17
18. Alert • 产品化的报警平台 Ø Kapacitor Ø 简单易用的 UI/API Ø 灵活丰富的报警规则表 达式 Ø 支持不同维度的过滤及 聚合 • 报警聚合,防止警报洪泛 • 警报自动化运维处理及故 障定位与分析 18
19. 实时监控系统在 FreeWheel 的应用及典型案例分享 CONFIDENTIAL 19
20. 监控系统在 FreeWheel 的应用 • 统一监控平台 Ø AWS / On-Prem / Kubernetes / Micro Service Ø AdServer / Forecasting / Data Platform / UI/API • 线上运维 20
21. FreeWheel 实时监控系统典型案例分享 帮助广告投放系统找到系统热点 • 典型问题: 广告投放系统的性能下降,广告请求未能在 300ms内返回 21
22. FreeWheel 实时监控系统典型应用场景 细化性能指标 22
23. FreeWheel 实时监控系统典型应用场景 定位到服务器 23
24. FreeWheel 实时监控系统典型应用场景 ELK 定位、还原问题 24
25. FreeWheel 实时监控系统典型应用场景 业务监控 • 典型问题:某一集成广告投放异常 • 基于spark streaming 实时业务数据处理发现问题 • 基于ELK定位、还原问题 25
26. FreeWheel 实时监控系统典型应用场景 业务监控 – 发现问题 26
27. FreeWheel 实时监控系统典型应用场景 ELK – 定位、还原问题 27
28. 总结与展望 CONFIDENTIAL 28
29. 总结与展望 • 统一监控平台: o 系统、应用监控: Ø 开源:Prometheus + InfluxDB + Kapacitor + Grafana Ø Gather + DB-Proxy + Alert Manager + Monitor UI o 日志收集: Ø ELK o 业务监控: Ø Spark Streaming + InfluxDB + Kapacitor + Grafana • 存储引擎的选择(AWS Timestream / OpenTSDB) • 自动化运维 • 智能化 29
30. 30
31. 31
32. THANK YOU