腾讯 范晶晶_十亿元背后的价值

衡云韶

2018/05/13 发布于 技术 分类

范晶晶,腾讯社交网络运营部 高级工程师,十年专注腾讯(QQ、空间)资源管理、预核算、成本优化能力建设,打磨十万台实体机背后的全生命周期自动化闭环管理流程,善于运用技术手段优化运营成本每年数亿元,致力于打造精细化资源管理预核算体系。

文字内容
1. GOPS 全球运维大会 2018 2018.4.13-4.14 中国·广东·深圳·南山区 圣淘沙大酒店(翡翠店) GOPS 全球运维大会2018·深圳站
2. 十亿元背后的价值 腾讯 精细化成本管理实战录(带宽篇) GOPS 全球运维大会2018·深圳站 范晶晶 SNG社交网络运营部(DSNO) (预核算管理、成本优化)
3. GOPS 全球运维大会2018·深圳站
4. GOPS 全球运维大会2018·深圳站
5. 高流量时代来临 质量不降低的前提下文件大小压缩,手机功耗降低,传输更快,就是提升用户体验 年内网费下降 30% 2020 年 5G 面世 (网速:5G>4G 5-15倍) 上网时间更长带动富媒体增长 (QQ空间、朋友圈;抖音、快手、直播) 高带宽性(文字-图片-视频) (普通图片3M、3分钟小视频400M 占存储、带宽、易卡顿、菊花) GOPS 全球运维大会2018·深圳站
6. 十亿元背后的价值思考 高清 用户 卡顿 流量 体验 功耗 GOPS 全球运维大会2018·深圳站
7. 目录 1 价值思考 2 实战案例 3 AI的运用 4 精细化成本管理五部曲 GOPS 全球运维大会2018·深圳站
8. QQ相册图片历史优化 保障图片清晰度不下降的前提下优化图片大小 用户上传图片 主流格式(JPEG、png 和 GIF 动图) 15年 使用 WebP 图片压缩格式 (google 2010 年推出,无损 & 有损 两种) 同等质量下 WebP 比 JPEG 体积小30% (质量参数默认 80、平均解码在 100ms以内) 分辨率自适应 可节约 20% 流量 (终端机型分辨率大小不一,统一标准造成低端机型浪费,按需返还) GOPS 全球运维大会2018·深圳站 万亿级 图片张数 百亿张/日 百G流量/日 百万张/日 几十T 存储/日 GIF 运营成本压力 存储 61% 带宽27%
9. 相册外网带宽暴涨分析 GIF 动图 新特性导致 相册流量暴涨 (发表说说可以把自己照片合成 GIF) 下载量仅 5% 的 GIF 流量占比 20% (剩下大部分是 WebP 格式) GIF 压缩率不高 2-4M ( 1987 年推出一种位图格式 无损压缩算法) 开源 WebP 组件 不支持 GIF 动图 源 GIF(1.79MB) 相册峰值流量 1月 2月 3月 4月 带宽成本上涨 70% GOPS 全球运维大会2018·深圳站
10. 相册应用 TPG 图片压缩-技术选型 腾讯 SNG 音视频实验室推出 采用 AVS2 国家标准内核 (采用视频编码模式 帧间参考大幅减少冗余,提升压缩率) 同等质量下 高压缩率 GIF 减少 90% WebP 减少 21% JPEG 减少 43% 原图 WebP TPG 低编码耗时 TPG 是 WebP 的 1/2 大小Kb (压缩率) 154 121(-21.4%) 88(-42.8%) 解码耗时 ms 编码耗时 ms 28 50 367 600 229 300 渐进式、透明通道、动态格式、高清 (支持 EXIF、增加时间等图片信息) GOPS 全球运维大会2018·深圳站
11. 看一看,哪个更清晰? GOPS 全球运维大会2018·深圳站
12. TPG 动态图像效果 源GIF(1.79MB) TPG 动图(153KB) 相比 GIF 原图,TPG 在几乎不失真的情况下,可以减少 85% 以上文件大小,以上图例是压缩了 11倍 TPG 支持逐帧解码,边解边播,大大减少加载时间 GOPS 全球运维大会2018·深圳站
13. 相册接入 TPG 图片压缩-解决的困难 全客户端统一后台配置 (展示场景复杂,根据 客户端能力返还优先级 TPG > WebP > JPEG) GIF文件大:分级压缩、OC 分片存储 (2M->8M) 分享出去的 GIF 使用 原url 稳定性:读灰度、写放量、冷热放量 移动、PC、H5 1 上传接入层 图片压缩 转码模块 解码 SDK 3 2 业务接入层 业务接入层 图片适配 Server 图片 oc点 图片 dc点 Docker FPGA 源站 中间源 卡 GOPS 全球运维大会2018·深圳站
14. 廉价转码资源(FPGA 转码卡与离线平台软硬结合) 图片、音频、视频压缩比的提升都是增加计算复杂度 离线平台 资源来源 (部署Docker对闲置和低负载CPU超卖) 监控能力、调度能力、分配策略 (设备获取、自动缩容、任务分级) FPGA 高性能、低功耗 可编程芯片 (自定义编程、性能高 10 倍;编码延时降 80%) 已节约 上千台 服务器 (图片转码、人脸识别、微云OCR等) 需求类型 离线 业务 活动 需求 报表 生成 资源 消耗 可用资源监控 低负载 母机 公司/部门 buffer 低负载 c.oa.c om 超卖池 闲置 buffer池 在线 业务池 公司 离线池 离线平台资源池 离线业务 低负载 任务 结束 报表 空闲 活动 结束 离线资源监控 资源 供给 资源 回收 GOPS 全球运维大会2018·深圳站
15. TPG 图片压缩-相册接入效果 外网流量日峰值 下降 60% 存储减少 图片下载 平均延时减少 30.5% TPG 访问占比 80% 成本节约 几千万/年 质量提升 用户等待时长 -22% GOPS 全球运维大会2018·深圳站
16. 全类型多场景的图片压缩解决方案 ( WebP、分辨率自适应、TPG 、Guetzli、HEIF) 客户端、浏览器需具备解码SDK,现网仍有 JPEG 等请求流量 TPG 比 JEPG 减少40% 大小 免专利费 (内核采用的是AVS2国内标准 ) 根据客户端请求优先返还最优格式 Guetzli 比 JEPG 减少30% 大小 兼容性好 、压缩耗时 ( 2017.Google 在JEPG编码格式上只对数据优化缩减) Guetzli & GPU 可 减少压缩时间 (QQ漫画等场景、兼容性好,但GPU贵) HEIF 是 H.265 标准建议格式比JPEG -40% (苹果 Iphon7 & ios11 拍摄直接生成此格式) (H.265有专利费 ) GOPS 全球运维大会2018·深圳站
17. 下载限速、边下边播(QQ 长视频 和 空间小视频) 空间、QQ、音乐 普遍存在 已下载没播放 (控制下载速度、边下边播) 策略调优(首次缓冲时间 根据卡顿率) QQ 用户 等待时长减少 冗余下载大幅减少 空间 200%->35% QQ 65% ->25% GOPS 全球运维大会2018·深圳站 卡顿1.2% 卡顿2.1% 卡顿3.2% 不 限 速 40s后 码率速 度下载 20s后 码率速 度下载 10s后 码率 速度 下载 下完 再播 放 等待时长 12.6S 边下边播 20s后码率 速度下载 等待时长 1.77S
18. 空间小视频历史优化策略 16年已使用多种优化策略,17年新的技术选型 小视频 VV 增长,外网流量暴涨 限大文件 转发次数 安全打击 码率控制 50% 热点效应明显(色情暴力&搞笑) 已用优化策略 触碰质量底线 H.265 比 H.264 压缩比提升40% (2013年、算法复杂度提升,编解码需要硬件支持) GOPS 全球运维大会2018·深圳站 关闭 自动播放 已用 策略 高峰期 柔性 H.265 新一代视频编码标准 高压缩比(多方面算法性能提升)  块的大小从16*16变大为64*64  创新使用四叉树 编码更灵活  帧内预测方向从 9个扩展到 35个 X 专利风险大 X 性能消耗大 X 需硬件解码支持
19. 空间小视频 H.265 实践困难 H.265 播放比从 8% 提升到 30%,可节约头部视频40%带宽 市面终端复杂,哪些机型不支持? 动态维护客户端机型库 H265 兼容问题 云适配后台 软解 or 硬解?软硬结合 质量 卡顿率在 1% 软解  95% 支持 X 耗电发热 X 消耗CPU 硬解 &  70% 支持  功耗低、快 X 兼容性差 GOPS 全球运维大会2018·深圳站
20. QQ 多人通话后台混音 下行带宽减少路数 带宽少 50% 客户端混音改为 后台混音 根据房间成员数分布提升性价比 (排除 房间人数<3 ) 离线平台 廉价计算能力 无参考打分 质量提升 GOPS 全球运维大会2018·深圳站
21. 企鹅电竞直播带宽成本高 头部主播 房间人数多 分辨率高 GOPS 全球运维大会2018·深圳站
22. NOW直播答题造成带宽暴涨 17年春节开始NOW直播全民闯关 每晚8点(答对观众瓜分 100万奖金)答题房间91万人同时在线 GOPS 全球运维大会2018·深圳站
23. 直播成本优化(视频云统一架构) 根据不同直播产品特征,使用不同优化策略 空间直播小房间多,OC分发回源高, 采用 IP直连 带宽 降1/2 NOW直播房间大,音视频 DC 改 OC (OC单价是DC的一半以下) 企鹅电竞 头部主播 H.265 带宽 降20% (top300 主播有 61% 的用户,结合GPU使用) NOW直播 答题房间 H.265 带宽 降30% (一个答题房间峰值 百万 观众) 热门主播 推H265流 大房间转 H265 接入 逻辑 (鉴 黄) 热存储 冷存储 上传 转码/ 转封 装 主播信用 画像降频 P2P 降码 率、降 冷、删 除 清理 存储 动态 码率 DC源 降回 源 OC源 GOPS 全球运维大会2018·深圳站
24. 低成本高质量的优化策略 以往使用的平均码率,动态码率具有为用户提供更好的质量的优势 根据 预测用户网络质量的变化 (如果质量将变差,下一帧切低码率码流) 根据 内容分类 不同编码参数 (标签:电视剧、体育、游戏 等) 恒定码率 CBR 根据 场景 不同编码参数 (深度学习 CNN 根据:光亮、光暗、色彩绚丽等) 平均码率 ABR 码率 控制 动态码率 VBR GOPS 全球运维大会2018·深圳站
25. 低成本高质量的优化策略 ROI 人眼 感兴趣区域 低压缩比 其他区域高压缩比 (人脸->人物->其他) 自适应分辨率:固定码率下 最佳编码分辨率 (用户网速受限制的情况下) GOPS 全球运维大会2018·深圳站
26. 目录 1 价值思考 2 实战案例 3 AI的运用 4 精细化成本管理五部曲 GOPS 全球运维大会2018·深圳站
27. QQ相册-图像增强(超分辨率技术) 大图高清放大应用 TSR 技术,图片无损的情况下可以节省 75% 的流量和存储 基于深度神经网络,业界领先的超分辨率技术 超分技术 RAISR TSR PSNR 32.5 33.6 性能 100ms 60ms TSR 采用了动态探测与模型动态加载技术 保证了手机端全覆盖 用户 真实 图片 构造 样本 分集 图片 尺寸 压缩 PRelu 初始化 反向传播 ADAM模 型求解卷 积模板参 数 (W, B) 生成 超分 后图 片 计算误差 超分模 型 GOPS 全球运维大会2018·深圳站 用户真 实图片 测试集 超级分 处理 PSNR自动对比测试 可视化评测试系统 参数优化
28. AI & 安全打击 空间是网盘 、分享是途径 赢利点是QQ群付费或微信群红包、赌博群 新的栅格识别服务后,TOP1000 热点分析 视频涉黄占比从 25% 下降到 5% 栅格识别 能力提升 (卷积神经网络 CNN 识别模型) OCR 识别 招嫖信息 (提取图片上文字) 传统手段:用户行为聚类 (接入天象系统养号、信安信用度、转发) 涉黄热度 90%来源分享 (手Q付费群,、微信红包群) GOPS 全球运维大会2018·深圳站
29. 目录 1 价值思考 2 实战案例 3 AI的运用 4 精细化成本管理五部曲 GOPS 全球运维大会2018·深圳站
30. 带宽优化方法论(一小、两少 ) 文件小、下载次数少、冗余下载少 质量模型 主观 客观 盲测 PSNR •码率控制(降、限、 动态) •压缩率提升(编码格 式、调参、编码标 准) •分辨率 •超分辨率 •混音 abtest 用户打分 无参考评分 卡顿率 延时 功耗 •播放策略(自动) •限制转发次数 •安全打击 防盗链 •P2P 文件 压缩 减少下 载次数 高峰期 柔性 •削峰填谷 •预加载 •柔性开关 减少冗余 下载量 •边下边播 •切片 •限速 •降回源 带宽模型= 文件大小 * 高峰期单位时间内 下载次数 / 时间 GOPS 全球运维大会2018·深圳站
31. 精细化成本运营(五部曲) •资源消耗场景 •资源模型 理清构成 抓大放小 •解决主要矛盾 •精力有限 •技术架构 •算法实现 庖丁解牛 双管齐下 •技术优化 •产品策略优化 •动态运营 •优化无止境 持之以恒 GOPS 全球运维大会2018·深圳站
32. 带宽 预算&优化模型(对产品的每个场景分别建模) 系统根据采集以下数据,自动推导 带宽的预算 和 合理性分析 图片类 预测带宽=F ( D, V,E ) •D 图片平均大小 •V 高峰期下载次数(5分钟) •E 回源率 视频类 预测带宽= F ( T,V,E) •T 视频实际播放码率 GOPS 全球运维大会2018·深圳站 图片可优化带宽=F( C,S, X, O, V, Z ) •C 图片压缩格式(JEPG、png、GIF、sharpP等) •S 不同压缩格式下载量占比 •X TOP100 色情暴力抽查占比 •O OC占比 •C 各分辨率下载量占比 •Z 质量数据信噪比PNSR、肉眼评测、下载超时 视频类可优化带宽= F ( T1,B,V, H, Z1) •T1目标码率 •B 各分辨率占比 •H H2.65下载占比 •Z1质量数据:卡顿率、用户下载时间、二次缓冲等
33. Thanks GOPS 全球运维大会2018·深圳站 高效运维社区 开放运维联盟 腾讯运维体系专场 荣誉出品
34. 想第一时间看到高效运维社区 的新动态吗? GOPS 全球运维大会2018·深圳站