爱奇艺智能播放技术及应用 冯巍

1. 爱奇艺智能播放技术及应用 冯巍 爱奇艺 研究员
3. 在全球整体的互联网下行流量中,视频占到了近58%。 ——《全球互联网现象报告》
4. AI在视频行业中的应用 智能创作 智能生产/分发 智能变现 智能播放 智能选角 个性化推荐 创可贴 自适应码率 辅助后期制作 封面图选取 随视购 窄带高清 短视频拍摄 审核 前情提要 ZoomAI 直播美颜/贴纸 只看他 Video In 人像弹幕
5. 智能播放 更清晰 更流畅 更有趣
6. 主要内容 • 更清晰-画质增强 • 更流畅-智能倍帧 • 更有趣-人像弹幕 • 展望
7. 主要内容 • 更清晰-画质增强 • 更流畅-智能倍帧 • 更有趣-人像弹幕 • 展望
8. 超高清时代
9. 难点(一) • 用户自己上传(UGC)的图片/短视频/视频:质量参差不齐 模糊 压缩噪声 噪点 色彩灰暗 …… 暗光拍摄 多次压缩
10. 难点(二) • 老电影/电视剧/综艺视频 胶片划痕 背景噪声 画面抖动 色彩灰暗 低分辨率 …… 电影《双教子》 评书《乱世枭雄》
11. ZoomAI画质增强技术 • 视频/图像增强方案 增强工具包 超分辨率 分辨率低 去噪锐化 背景/压缩噪声 色彩增强 色彩灰暗 去划痕 胶片损伤 …… ……
12. 解决难点1:UGC图片质量问题 • v1.0版本-端到端深度神经网络 增强前图片 超分辨率 ZoomAI工具包 去噪锐化 色彩增强 工具1 工具2 …. ① 接口一致 ② 相互解耦 ③ 灵活配置 增强后图片 为各条业务线 自由定制方案
13. 解决难点1:UGC图片质量问题 • v2.0版本-基于内容理解的画质增强 需要清晰 需要无噪 需要清晰
14. 画质增强流水线 文字区域检测模块 文字区域 文字增强模块 原图 图片融合 前景区域 前景增强模块 背景区域 背景增强模块 显著性检测模块 增强图片
15. 应用落地 • 全站频道/UGC封面图增强 原图 原图 增强图 增强图
16. 解决难点2:老电影/电视剧质量问题 • 复用已有的增强方法:超分辨率、去噪、色彩/亮度增强 • 特有的问题:划痕和白点
17. 去划痕的经典方法 • two-stage:划痕检测 + 划痕去除 • 划痕检测:直线检测等 划痕 • 划痕去除:时间插值,空间插值等 • 缺点: • 一般只处理水平/竖直的划痕,无法处理水渍,白点 • 画面本身的水平/竖直线的处理
18. ZoomAI去划痕 • 前提:划痕等只在某一帧出现 • 光流估计 + warp + 多帧融合 场景切分算法 帧i-K 帧i’ from i-K …… 帧i’ from … 帧i 帧i …… 帧i’ from … 帧i+K 帧i’ from i+K 融合 CNN 修复帧i
19. 效果展示
20. 落地应用 • 国剧修复 • 经典电影修复
21. 更清晰-画质增强 • 提升UGC画质 • 方案:基于内容理解的画质增强 • 落地:全站频道/UGC封面图增强 • 提升老视频画质 • 方案:现有增强算法+基于帧间融合的去划痕算法 • 落地:国剧/老电影修复
22. 主要内容 • 更清晰-画质增强 • 更流畅-智能倍帧 • 更有趣-人像弹幕 • 展望
23. 智能倍帧 • 增加视频的帧率,使得观影体验更流畅 • 适用于3D动漫、体育比赛镜头、慢动作回放、动作大片等
24. 智能倍帧 前向预测 T+0.5 预测帧1 T+0帧 光流预测 T+1帧 逆向预测 warp T+0.5 预测帧2 融合 网络 最终结果 T+0.5
25. 智能倍帧 • 难点-插帧伪影 期望的倍帧效果 伪影
26. 伪影检测 T+0帧 插帧 T+1帧 深度神经网络 打分器 插帧画面分数 or
27. 落地应用 • 3D动漫倍帧-已上线 原片(25fps) 智能倍帧(50fps)
28. 主要内容 • 更清晰-画质增强 • 更流畅-智能倍帧 • 更有趣-人像弹幕 • 展望
29. 人像弹幕 • 弹幕不”挡”人
30. 人像弹幕 • 基于深度学习的图像分割 DeepLab
31. 人像弹幕 • 难点 • 算法准确度 • 场景复杂 • 实时性与功耗 • 蒙版文件大小 Easy mode Hard mode Hell mode
32. 人像弹幕 • 难点1:算法准确度 • 基于语义分割,全自动分割出人像作为前景 • 用综艺数据训练模型(《中国有嘻哈》)
33. 人像弹幕 • 难点1:算法准确度 • 用综艺数据训练模型 • 形态学方法,滤除误分割区域,填充孔洞
34. 人像弹幕 • 难点1:算法准确度 • 用综艺数据训练模型 • 形态学方法 • 后处理方法,修复明显错误 mIoU:87.6% -> 93.6%
35. 人像弹幕 • 难点2:场景复杂 • 远景观众
36. 人像弹幕 • 难点2:场景复杂 • 远景观众:景别识别
37. 人像弹幕 • 难点2:场景复杂 • 远景观众:景别识别 特写(CU) 中景(MS) 远景(WS)
38. 人像弹幕 • 难点2:场景复杂 • 远景观众:景别识别
39. 人像弹幕 • 难点2:场景复杂 • 远景观众:景别识别
40. 人像弹幕 • 难点2:场景复杂 • 远景观众:景别识别 • 近景观众: AI明星弹幕
41. 人像弹幕 • 难点3:实时性与功耗 优势 劣势 • Android中端机双线程25FPS • 功耗大,影响观影体验 • 模型尺寸270KB • 低端机效果差 移动端实时抠图
42. 人像弹幕 • 难点3:实时性与功耗
43. 人像弹幕 • 难点4:蒙版文件大小 • 景别识别 • 帧内:行程编码 编码后 编码前
44. 人像弹幕 • 难点4:蒙版文件大小 • 景别识别 • 帧内:行程编码 • 帧间:合并相似帧 大小:压缩至1/25
45. 主要内容 • 更清晰-画质增强 • 更流畅-智能倍帧 • 更有趣-人像弹幕 • 展望
46. 展望 • 算法 端到端 视频增强 基于内容理解的 视频增强 3:45 2:54 ? + ?
47. 展望 • 5G时代 提升分辨率 提升帧率
48. 展望 • 更有温度 – 手语主播