AiCon 全球人工智能与机器学习技术大会

王涛大规模机器学习在视频分析理解中的实践v1,0

1. 大规模机器学习在视频分析理解 中的实践 王涛 wtao@qiyi.com 爱奇艺公司 2018年12月
2. • 互联网视频发展现状 • 视频理解应用场景 • 深度学习核心算法 • 短视频分类实践 • 实验结果分析 • 总结与展望
3. 互联网视频发展现状
4. 互联网视频发展热点 IP内容连接人与服务 • 突破传统视听的全新体验 • 建立IP内容的生态体系 AI提升生产运营效率 • 大数据 • 计算芯片 爱奇艺基于IP生态链的苹果园战略 • AI算法 • 落地场景
5. • 互联网视频发展现状 • 视频理解应用场景 • 深度学习核心算法 • 短视频分类实践 • 实验结果分析 • 总结与展望
6. AI在爱奇艺视频中的应用 智能创作 智能生产 智能标注 智能分发 智能播放 智能变现 智能客服 选角 视频指纹 智能标签 智能搜索 热点预测 个性化投放 小艺机器人 剧本 智能审核 实体身份 个性化推荐 HCDN 情境化广告 在线客服 流量预测 自适应编码 情感环境 泡泡宣发 自适应码流 Video In 呼叫中心 智能剪辑 行为对白 绿镜 Video Out 描述关键词 自动分类 只看TA 智能缩略图
7. 智能创作——视频风格化 视频风格化 • 利用AI算法生成特定风格的视频 • 根据选定的风格,生成不同特效的视频 音乐创作 • 利用AI算法创作背景音乐 • 根据广告产品和表达的情感,生成对 应风格的背景音乐,自主拥有版权
8. 智能生产流程 拆分 编目 分类,标题,语义标注 视频镜头,故事拆分 播放 智能海报图 审核 版权,情色,广告视频审核
9. 智能生产——视频标注 • 人脸识别 • 行为识别 • 属性识别 • 情感识别:高兴 情感识别 • 实体识别 • 对白识别 人脸识别:蒋欣 场景识别:理发店 属性识别:长发 行为识别:自拍 实体识别:手机 对白识别:显瘦
10. 智能生产——多模态人物识别 Face AI Body AI 人脸检测、 五官定位 人体检测、 姿态估计 身份:爱奇艺-林超 年龄:25 性别:男 表情:微笑 姿态:正脸 颜值:85 人脸图像质量:优 Re-id:爱奇艺-林超 衣服:长袖T恤 风格:运动 行为:摆拍 体型:修长 手势:6+1 Audio AI 声纹识别 人物:爱奇艺-林超 Person AI
11. 智能生产—— 文字识别 • 基于CNN+BLSTM+CTC的OCR,字幕整行识别精度97.3% • 斜体字定位,对于各种字体(包括手写体)有很好的鲁棒性 让我穿的自然一点 CTC Loss 也会有默契的目光 Backward LSTM Forward LSTM Backward LSTM Forward LSTM 我觉得何炅出道22年 爸爸的头小手儿大 台词OCR算法实例 招聘 打字员 挂机专员 点赞员等多种职位 日赚200-300元时间 自由多发多得 QQ:3510795490 … CNN Character Line OCR系统结构图 性价比之王 最强 微商 厂家货源 一件代发 厂家微信100551005 审核OCR算法实例
12. 智能生产——质量评价 • • • 黑边检测:为PPC/PGC封面图识别、UGC图片识别、编辑和用户等业务线提供服务 模糊检测:将图片分为清晰和模糊类别,用于封面图评价 台标检测:支持26类台标检测 黑边监测结果:红框为识别到的黑边边界 模糊检测结果:左模糊,右清晰
13. 智能生产——内容评价 • 根据标注自动将长视频拆分为若干剧情独立的短视频 • 精彩度评价,高效生成成酷炫看点短视频 剧情拆条 热血街舞团精彩看点 小媒资后期制作
14. 智能播放—— ZoomAI超分辨 原片截图 修复后截图
15. 智能播放——蒙版弹幕 • 基于镜头检测和人体分割的蒙版弹幕 基于人体分割的蒙版检测 蒙版弹幕
16. 智能变现——情景广告 • • AI智能识别明星、行为、动作、情感、台词、场景、剧情等多种类别 广告内容自动契合视频内容,实现广告投放效果和用户体验的双重提升 《延禧攻略》情景广告示例 (a)基于京绣服饰识别推荐京绣装特仑苏牛奶 (b)基于发怒情感识别推荐推脉动饮料
17. • 互联网视频发展现状 • 视频理解应用场景 • 深度学习核心算法 • 短视频分类实践 • 实验结果分析 • 总结与展望
18. 代表性网络结构:InceptionV3 Christian Szegedy,Vincent Vanhoucke, et al. Rethinking the Inception Architecture for Computer Vision,CVPR2016
19. 代表性网络结构:MobileNet (c) depthwise conv Sandler M, Howard A, Zhu M, et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks[J]. 2018.
20. 代表性网络结构:C3D Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497.
21. 代表性网络结构:P3D Qiu Z, Yao T, Mei T. Learning spatio-temporal representation with pseudo-3d residual networks[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017: 5534-5542.
22. 代表性网络结构:I3D Carreira J, Zisserman A. Quo vadis, action recognition? a new model and the kinetics dataset[C]//Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on. IEEE, 2017: 4724-4733.
23. 代表性网络结构:更复杂的组合 Carreira J, Zisserman A. Quo vadis, action recognition? a new model and the kinetics dataset[C]//Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on. IEEE, 2017: 4724-4733.
24. Loss损失函数 • 在含有K个训练样本xk,k=1,2…K的数据集上,对于一个M类的分类模型, • 传统的交叉熵loss函数定义为: 1 cross_entropy = − K 𝐾 𝑀 { 𝑝𝑖 (x𝑘 )log⁡ ( 𝑞𝑖 (x𝑘 ))} 𝑘=1 𝑖=1 • Focal loss定义为 1 focal_loss = − K 𝐾 𝑀 𝑝𝑖 x𝑘 {𝑎𝑖 1 − 𝑞𝑖 𝑟 log⁡ ( 𝑞𝑖 (x𝑘 ))} 𝑘=1 𝑖=1 Lin T Y , Goyal P , Girshick R , et al. Focal Loss for Dense Object Detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, PP(99):2999-3007.
25. • 互联网视频发展现状 • 视频理解关键技术 • 深度学习核心算法 • 短视频分类实践 • 实验结果分析 • 总结与展望
26. 数据集 YouTube8M 目标:大规模视频理解,表示学习,噪音数据处理,迁移学习,知识推理 每一个视频的长度在 120s 到 500s 之间 每一个视频至少与一个 Knowledge Graph entities(知识图谱实体)相联系 https://research.google.com/youtube8m/
27. 数据集 Moments in Time Challenge 2018 目标:识别3秒短视频的事件标签 http://moments.csail.mit.edu/challenge.html
28. 数据集 AcitivtyNet ActivityNet 200 200 CLASSES 100 UNTRIMMED VIDEOS PER CLASS 648 1.54 VIDEO HOURS ACTIVITY INSTANCES PER VIDEO http://activity-net.org/ • Temporal Action Proposals • Temporal Action Localization • Dense-Captioning Events in Videos
29. 数据集 PRCV2018美图短视频实时分类挑战赛 50类 10万个 热门标签 短视频 中文名 英文名 ID 中文名 英文名 ID 宠物狗 dog 0 史莱姆 slime 25 宠物猫 cat 1 折纸 origami 26 宠物鼠 rat 2 编织 weave 27 宠物兔子 rabbit 3 陶艺 ceramic art 28 宠物鸟 bird 4 手机壳 phone shell 29 风景 scenery 5 打鼓 drum playing 30 风土人情 customs 6 弹吉他 guitar playing 31 穿秀 clothes showing 7 弹钢琴 piano playing 32 宝宝 child 8 弹古筝 Zheng playing 33 男生自拍 boy selfie 9 拉小提琴 violin 34 女生自拍 girl selfie 10 唱歌 singing 35 做甜品 dessert 11 游戏 game playing 36 做海鲜 seafood 12 动漫 cartoon 37 做小吃 snack 13 瑜伽 yoga 38 饮品 drinks 14 健身 fitness 39 抓娃娃 doll catching 15 滑板 skateboard 40 手势舞 finger dance 16 篮球 basketball playing 41 街舞 street dance 17 跑酷 parkour 42 国标舞 Ballroom dance 18 潜水 diving 43 钢管舞 pole dance 19 台球 billiards 44 芭蕾舞 ballet 20 画眉 brow makeup 45 绘画 painting 21 画眼 eye makeup 46 手写文字 handwriting 22 唇彩 lips makeup 47 咖啡拉花 coffee art 23 美甲 manicure 48 沙画 sand art 24 美发 hairdressing 49 https://challenge.ai.meitu.com/mtsvrc2018/introduction.html
30. 综合指标Di 算法准确度标准 算法预测正确的类与所有的测 试类之比,算法准确度基准为 78% 算法运行时间标准 从视频输入到预测出结果的总 时间,运行时间基准为150m。
31. 算法流程 解码 解码i帧 补帧 补齐n 帧 Net 特征提 取 分类 融合分 类
32. Inception模型分类准确率 测试集各类准确率 1.5 1 0.5 0 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 BNInception InceptionV3
33. • 互联网视频发展现状 • 视频理解关键技术 • 深度学习核心算法 • 短视频分类实践 • 实验结果分析 • 总结与展望
34. 抽i帧 补帧:视频的关键帧不足八帧时,需补足8帧,保持batch内视频的输入帧数相同 补尾帧 1,2,3,4,4,4,4,4 均匀补帧 降低模型的准确率 1,1,2,2,3,3,4,4 准确率提高
35. Basenet 模型选择 更小的模 更高的准 型 确度 更快的速度 https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet
36. 预训练迁移模型 • 有、无imageNet预训练模型情况下,短视频分类准确率对比 • 预训练模型对模型准确率有7%以上的提高。 实验 验证集上准确率(按个数平均) Mnasnet-无预训练模型 76% Mnasnet-有预训练模型 83.3%
37. 单网络模型对比 • • • 复杂模型的性能优于简单模型 3D网络的运行时间比2D网络会大3X 3D网络缺少有效的预训练模型,性能一般 模型 验证集准确率 (按个数平均) 验证集准确率 (按类别平均) 模型测试耗时 (每个视频) MobileNetV2 86.9% 82.73% 约6ms Mnasnet 83.3% 79.5% 约5ms BN-Inception 89.13% 86% 约25ms Inception-v3 90.51% 86.4% 约25ms Nasnet 89.3% 87.2% 约70ms Resnet101 89.3% 86.4% 约20ms P3D 87.5% —— —— i3d(无预训练模型) 76.4% 73.1% 约80ms
38. 增加小样本采样率 • 各类训练样本分布不均匀,进行加大小样本类别的采样率实验 train-count 10000 加大小样本采样率前、后比较 2 5000 0 0 0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 train-count 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 mobilenetv2_1.0-key mobilenetv2_1.0-key-hard
39. Focal loss Focalloss 方法调节各类样本loss权重 对比与原模型,验证集个数平均下降0.3%,类平均精度上升0.06% 实验 验证集上准确率 (按个数平均) 验证集上准确率 (按类平均) MobileNetV2+TRN 86.9% 82.73% 86.6% 82.79% MobileNetV2+Focalloss +TRN
40. 子数据集融合 InceptionV4在全部训练集上训练,测试集指标为83.3% 每次随机抽取80%训练数据,形成5个子集,得到5个分类模型,进行融合实验 实验 测试集上准确率(按个数平均) Full set-InceptionV4 D1: sub_set1 D2: sub_set2 D3: sub_set3 D4: sub_set4 D5: sub_set5 D1、D2、D3、D4、D5融合 83.3% 82.3% 81.8% 82.5% 83% 82.4% 84.4%
41. 多模型融合 在训练集上,使用不同模型分别训练,得到多个分类模型,最后进行结果融合 实验 M1: BNInception M2: InceptionV3 M3: Nasnet M4: MobileNetV2 M5:p3d M1、M2、M3融合 M1、M2、M3、M4融合 M1、M2、M3、M4、M5融合 测试集上准确率(按个数平均) 82.8% 84.4% 83.5% 82.6% 79.9% 86.15% 86.54% 87.08%
42. • 互联网视频发展现状 • 视频理解关键技术 • 深度学习核心算法 • 短视频分类实践 • 实验结果分析 • 总结与展望
43. 总结与展望 • 视频分类经验总结 • • • • • 解码抽取i帧处理,大幅提高视频分析速度约10倍 基于有充分预训练模型的模型准确率能提高7%左右 大模型比轻模型准确率提高4% 子数据融合准确率提高 1% 多模型融合准确率提高2% • 潜在问题 • 易混淆样本影响准确率 • 训练集收敛好,但在验证集,测试集准确率推广性差 • 样本重采样和focal loss无法改进不均匀样本的准确率
44. AI视频的未来 智能 交互 开放 敏锐感知 自然交流 人人皆媒 深刻理解 身临其境 透明互信 精准推理 善解人意 万物互联

相关幻灯片