YY在直播场景的图像识别应用

前端狗

2019/09/18 发布于 技术 分类

文字内容
1. YY在直播场景的图像识别应用 梁炎/欢聚时代(YY Inc.)
2. 个人介绍  2002-2006 中山大学-数学与应用数学-学士  2006-2012 中山大学-应用数学-博士 – 研究方向:图像超分辨率、人脸识别、子空间学习、稀疏表达  2013-2015 – 工作内容:人脸识别、图像质量评估、OCR等前沿技术预研  2015-现在 – 华为2012实验室中央研究院-计算机视觉工程师 欢聚时代(YY Inc.)AI技术部-机器学习工程师 工作内容:图像内容分析与理解,并推动在YY直播各场景的应用
3. 内容大纲  YY图像识别应用概览  应用实例1——内容安全识别  应用实例2——图像文字识别  应用实例3——图像质量识别  应用实例4——人物属性识别  总结与展望
4. YY图像识别应用概览
5. YY图像识别应用概览 图像识别 识 别 能 力 内容安全识别 画质识别 场景识别 图像内容识别 人物属性识别 色 情 暴 恐 军 警 赌 博 广 告 敏 感 人 物 黑 屏 黑 边 遮 挡 模 糊 室 内 室 外 体 育 游 戏 影 视 电 商 平 台 人脸检测 人脸关键点 检测 训练平台 人脸识别 人体检测 Logo识别 秀 场 性 别 技 术 游戏状态识别 发 长 发 色 人体解析 眼 镜 戴 帽 身 材 服 饰 图像分类 数据标注与分析平台 绝 地 求 生 荒 野 行 动 刺 激 战 场 全 军 出 击 王 者 荣 耀 图像处理 无 尽 对 决 YY 映 客 花 椒 抖 音 通用目标检测 服务平台 陌 陌 快 手 火 山 OCR
6. 技术指标  标签的丰富性——超过100个直播相关内容标签  结果的准确性——识别准确率(Accuracy)>95%  推理的实时性——耗时<10ms  服务的可靠性——每日不间断响应,总处理量达十亿级别  训练的及时性——最快模型迭代周期<1天
7. 分布式训练平台  训练数据量大 Dataset Images LFW 13233 WDRef 99773 CelebFaces 202599 VGG 2.6M FaceBook 4.4M Google 200M
8. 分布式训练平台  训练时间长 GPU network Batch size Samples/s Total times (hours) K80*3 Resnet-50 256 205 160 V100*8 Resnet-50 256 1155 29 数据来自mxnet官方
9. 分布式训练平台  现有主流框架的分布式能力 Framework 分布式 同步/ 异步 Overlap 梯度压缩 RDMA caffe x x x x x caffe2 √ √ √ x √ mxnet √ √ √ √ x tensorflow √ √ √ x √
10. 分布式训练平台  分布式训练平台架构 • 统一接口 • 统一训练数据和模型管理 • 通用的parameter-server组件 • 基于nccl库实现两级通信 • 基于RDMA的通信改造 • 半精度训练和梯度压缩
11. 数据标注与分析平台  主动学习 用当前模型测试未 标注样本及其幅本 • • 用较少且典型的标 注样本,训练一个 初始模型 未标注样本经过 augmentation,生 筛选有用的未标记 样本 成多个变体幅本 用新增标注样本和 现有标注样本,增 量训练新模型 样本及其各幅本的预测结果偏 差较大的 样本的预测分值小于0.5的 人工标注 达到终止条件
12. 数据标注与分析平台  聚类分析 整理少量样本 进行特征提取 • 进行聚类得到 合适的类中心 根据类中心对大量 的样本进行聚类 经过CNN模型提取的图像特征含有丰富的语义信息,采用模型输出的特征进行聚类 可以得到较好的同类合并效果 • 聚类后可以清晰了解样本类型以及分布情况,便于后续分析出现的问题 • 通过聚类算法对未打标签的数据可以进行快速整理,帮助加速人工标注
13. 数据标注与分析平台  采用聚类算法后的类别示意图
14. 数据标注与分析平台  聚类后对样本分布的分析例子 直播平台B 直播平台A 180000 160000 140000 120000 100000 80000 60000 40000 20000 0 250000 200000 150000 100000 50000 0
15. 服务平台 客户端 客户端 … 客户端 Thrift 协议 HTTP协议 …… 图片 视频 虚拟IP 虚拟IP 虚拟IP 虚拟IP 接入集群1 接入集群2 接入集群3 接入集群4 存储集群 GPU预测集群 存储集群 GPU预测集群 预测结果数据库 图片中心 存储集群 办公网图片缓存 中心 图片审核服务端 统计汇总展示 GPU预测集群 图片审核客户端 存储集群 GPU预测集群
16. 应用实例-1 内容安全识别
17. 应用实例1——内容安全识别  色情  暴恐  其他(包括宗教、玉石、游戏等等)
18. 应用实例1——内容安全识别  内容安全识别的基本流程 classifier1 classifier2 classifier3 normal normal normal 人工审核
19. 应用实例1——内容安全识别  内容安全识别的挑战 • 鉴图量大 ——密集截图,每天超过3亿鉴图量级,每秒平均鉴图超过4000张 • 类型众多 ——色情、血腥、暴力、广告、标语…… • 场景复杂 ——覆盖所有直播场景,包括成像质量差、角度变化大、画中画、违规区域占比过小等 • 标准难把握 ——擦边球
20. 应用实例1——内容安全识别  双线性CNN模型 • 包含两个特征提取器,其输出经过外积相乘、池化后获得图像描述子 • 优点: • 该架构能够以平移不变的方式,对局部的对级(pairwise)特征交互进行建模,适用于细粒度分类 • 能够泛化顺序无关的特征描述子,增加了特征的非线性,将低维特征映射到更高维,丰富了特征表达 • 缺点: • 模型的得到的特征维度较高,那么得到的参数数目较多,计算量较大,存储和读取开销较大 [ Bilinear cnn models for fine-grained visual recognition ]
21. 应用实例1——内容安全识别  Generalizing Pooling Functions • 常规使用到的pooling方法有Max、Avg Pooling • 将pooling层也加入参数学习,学习一种更加适合 相应任务的pooling方法 • Gate_pooling:'>pooling: 对输入进行卷积,归一化后产生权 重,对max、avg pooling的结果进行加权输出 • Tree_pooling:'>pooling: 用两个不同的卷积替换掉 Gate_pooling方法中的max和avg pooling,右图 c, tree为3层的示意 • 将部分pooling层替换为右侧几种pooling的结构, 对最终的效果有小幅提升 [ Generalizing Pooling Functions in Convolutional Neural Networks:Mixed, Gated, and Tree ]
22. 应用实例1——内容安全识别  多任务学习 • 迁移学习算法的一种,其基本目标是提高泛化性能 • 通过相关任务训练的特定信息来提高泛化能力,利用共享的网络并行训练,学习多个任务 Input Joint Learning Task Target { porn,normal } { liveshow,stone,sport,advertisement…. }
23. 应用实例1——内容安全识别  模型可视化 [ Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization ]
24. 应用实例1——内容安全识别  弱监督定位  小目标二次识别 • 对于小的违规目标,因其范围较小,总权值有可能小于正常类特征总权值(区域较大),但热图定位能 定位,故采用二次识别方法 • 先基于热图定位到可能违规区域,对包含框放大1.5倍,裁剪下来,送给模型进行二次识别,可将较小目 标召回 CNN模型
25. 应用实例1——内容安全识别  增强裁剪 • 预训练一个分类模型对违规类进行识别,使用热图定位方法,计算出热图区域,归一化后,设定一阈值 进行二值化处理,得到最大包含矩形,从而得到某类别图像的矩形框 • 将此框坐标记到文本,修改训练代码,使其在随机比例裁剪时包含此区域,避免太随机而造成的违规图 像内容丢失问题
26. 应用实例-2 图像文字识别
27. 应用实例2——图像文字识别  特定场景的文字识别 • 包括身份证、车牌、钞票号码、银行卡、驾驶证、行驶证、营业执照、彩票、发票、拍题等特定 场景下的文字识别 图像采集 字符串定位 字符分割 字符识别 输出结果 陕A906L4
28. 应用实例2——图像文字识别  任意场景的文字识别 • 目标图像来源不可控,属于非配合条件下采集的图像 • 目标图像文字的字体、大小、颜色、排版、字数等特征不可控 • 目标图像文字背景不可控
29. 应用实例2——图像文字识别 处 理 流 程 主 流 方 法 核 心 技 术 输入图像 输出结果 文字区域定位 文字行识别 CTPN、RRPN、 SSD、faster-rcnn、 textboxs CNN+RNN、 CNN+RNN +Attention、 CNN+RNN+CTC CNN、RNN CNN、RNN、CTC、 Attention
30. 应用实例2——图像文字识别  文字区域定位 [ Detecting Text in Natural Image with Connectionist Text Proposal Network ]
31. 应用实例2——图像文字识别  文本行识别
32. 应用实例2——内容安全识别  自然场景样本生成
33. 应用实例3——图像文字识别
34. 应用实例2——图像文字识别  游戏状态识别 杀人 5 存活 18 枪械 SCAR-L 剩余 4 行进 3490 物资 30 击杀 2 死亡 7 助攻 7 …… ……
35. 应用实例-3 图像质量识别
36. 应用实例3——图像质量识别  亮度识别 1 2 3 4 5 6 7 8
37. 应用实例3——图像质量识别  遮挡识别
38. 应用实例3——图像质量识别  模糊识别
39. 应用实例3——图像质量识别 图像退化形式多样 原图 模糊 局部模糊 压缩失真 噪声  传统基于梯度、频率、熵等方法难以处理各种退化情况  基于特征学习的无参考图像质量评估  开源数据集  LIVE IQA database:'>database:'>database:'>database: A statistical evaluation of recent full reference image quality assessment algorithms. 2006.  TID2008 database:'>database:'>database:'>database: Tid2008 - a database for evaluation of full-reference visual quality assessment metrics. 2009.  CSIQ database:'>database:'>database:'>database: Most apparent distortion: full-reference image quality assessment and the role of strategy. 2010. [ Unsupervised Feature Learning Framework for No-reference Image Quality Assessment ]
40. 应用实例-4 人物属性识别
41. 应用实例4——人物属性识别 不戴眼镜 不戴帽 苗条 长直发 女性 斜刘海 棕色头发 T恤
42. 应用实例4——人物属性识别
43. 应用实例4——人物属性识别  网络结构
44. 应用实例4——人物属性识别  人物属性识别基本流程 线上主播截图 多任务属性识别算法 后端逻辑处理 获取多帧结果 过滤非真人秀 投票机制 输出识别结果
45. 应用实例4——人物属性识别  检测算法
46. 总结与展望
47. 总结与展望  人工智能正循环 更强的 更好的 智能 产品 更多的 数据
48. 总结与展望  开放服务应用平台 后台服务 识图产品 服务可视化 客户端HTTP协议图 片URL请求 色情鉴图服务 涉政鉴图服务 客户展示 Nginx负载均衡 图像模糊度识别 暴恐鉴图服务 调用情况查询 图像LOGO识别 游戏文字识别 视频遮挡识别 视频黑屏识别 视频静止识别 视频黑边识别 用户鉴权,场景检查 图片预处理 图片下载 请求识别服务 结果返回 记录入库 图表展示
49. 总结与展望