腾讯优图实验室 谭国富:深度学习在图像审核的应用

势寻芹

2017/11/14 发布于 技术 分类

互联网上非法内容特别是色情,暴恐等等敏感内容泛滥,传统识别算法由于效果较差,一直是以人工审核为主, 但随着深度学习技术的兴起,识别算法已经有了质的飞跃,本次计划分享腾讯优图将深度学习应用到图像内容识别上,解决色情,暴恐,政治敏感人物识别中的一些技术,挑战,以及经验和总结。

文字内容
1. 深度学习S在腾A讯图C优谭图国C像实富2验0审室17核的应用 http://open.youtu.qq.com
2. 关于优图实验室 优图团队立足于社交网络大平台,借助社交业务积累 的海量人脸、图片、音乐等数据,专注在人脸、图像、 音乐、语音、机器学习等领域开展技术研究,并积极 推动研究成果在业务中落地产生价值。 SACC2017人脸识别 图像识别 音频识别
3. 目录 00 图像审核的行业背景 SACC201701 腾讯优图内容审核能力介绍 02 深度学习技术介绍 03 内容审核的扩展和延伸
4. 内容审核 - 行业现状 不良信息泛滥,监管猝不及防 Ø 随着互联网的飞速发展和信息量的猛增, 大量的色情图片、暴力等不良信息夹杂其 中,严重影响着互联网的健康发展。 微信朋友圈日上传图片10亿张,视频播放20亿次 Ø 直播行业的快速兴起,使得视频中不良信 4000亿QQ空间存量图片,每天空间相册新增6亿 息含量更加迅猛增长,色情暴力等不雅视 张上传图片 频频繁流出,导致各网络直播平台面临危 7机。 C201Ø 内容监管日趋严格, 2017年上半年,各 C大直播行业协会相应成立,行业平台自我 SA规范的同时,网信办、文化部等国家部门 对于直播行业监管也越发严格,几乎所有 知名的直播平台均被有关部门点名查处过, 特别2017 年月中旬,黄鳝事件引爆网络, 让色情直播再度被推上舆论浪尖。
5. 内容审核 - 痛点和诉求 业务痛点:面对越来越爆发的安全风险,解决办法门 槛高, 成本高;迫切需要技术解决方案 自建识别模型 技术诉求:自动识别图片或视频中出现的文 字、二维码、logo等内容以及违规人像、淫 秽、血腥、暴力、极端主义、恐怖主义图像 等,方便平台进行违规处理和风险管控。 默默承受 一旦出现严重违规平 台面临停业整顿风险 昂贵的专业机器、AI专家, SACC2017样本不足导致识别模型漏 过模型调优难度大 加大审核人力 人力审核疲劳容易发 生漏过,人力招聘、 管理需要耗费不小成 本 识别种类 完备 节约成本 节省审核 人力 减少人工 漏审
6. 01 腾讯优图图像技术能力 图像内容审核技术 SACC2017图像识别技术 OCR技术 图像分割以及超分辨率技术 优图图像技术还包括:图像分类、图像增强、艺术滤镜、图片去水印、图像融合、图像修补等。
7. 内容审核 - 图片鉴黄解决方案 区分图像中的色情、性感和正常内容 色情图片 性感图片 DeepEye可给出图片属于色情、性感和正常 的概率,并结合三者概率给出综合分,通过 分数所属区间判断图片性质。 17Ø 色情图片:包含露点或不雅行为的图片, 0可直接打击; C2Ø 性感图片:又称疑似图片,不含直接色情 C内容但有一定的诱惑性,建议进行人工审 SA核; Ø 正常图片:不含不良内容的正常图片。
8. 内容审核 – 图像暴恐内容识别 l 暴恐识别技术 Ø 对于输入的图片,系统将会通过对其内容的识别 分析给出其属于武装份子、管制刀具、枪支弹药、 人群聚集、火灾、血腥、极端主义或恐怖主义标 7识的概率,通过其概率最大的类型,判断其图片 01性质属于属于暴恐还是正常。 2Ø 高准确率: 在内部业务上测试,准确率97%,覆 C盖80%以上的案例 SACl 识别应用:腾讯云,微云,QQ群 武装份子 管制刀具 极端主义、恐怖主义标识 Ø 腾讯云,承担每天数亿的图像审核, 已经 累计支持上百家客户。 Ø 微云,QQ群,支持视频识别的解决方案, 成熟灵活的产品方案,帮助业务扫除掉互 联网暴力、恐怖内容,有效的降低业务风 险。 人群聚集 火灾 枪支弹药 血腥
9. 内容识别 – 人脸识别 l 人脸识别核身技术 Ø 上亿级别的人脸检索,秒级的检索速度从黑名 单,白名单数据库中返回目标人脸信息。 Ø 技术指标:优图人脸识别通过传统方法和深度 学习技术结合,以空间面孔墙和微众银行远程 17核身为基础,在性能上达到LFW 99.80%。 20政治人物识别 CCl 政治敏感人物识别, 直播, 视频等场景 SAØ QQ,微云等: 非法设置领导人头像, 公众人 检索结果:奥巴马 相似度:98% 政治人物 物, 明星等等他人肖像。 不在黑名单 Ø 直播,游戏视频等, 非法植入领导人,政府国 际公众人物, 明星等等。 无版权人物识别 检索结果:林志玲 相似度:99% 在版权库
10. 图片场景识别 l 图片场景识别技术 Ø 标签体系:面向社交领域的热词标签200余种, 涵盖人物、风景、人造物、 建筑、动植物、食物等9个大类 。 Ø 技术指标:20个类别平均准确率MAP>90%以上,200种MAP>63%以上, 7性能CPU上约200ms/张。 C201l 社交图像分类应用:微云,相册管家 CØ 微云,相册管家新版本推出智能全自动图片分类,通过上百 SA种常用图片标签,实现对所有照片的自动识别分类。 Ø 用户上传图片之后即可被智能分类,各大类下包括小类如人 物大类下有合影、女孩、男孩、聚会等小标签。只需要输入 或点击标签即可获取对应类别的图片。 识别标签效果 微云相册,相册管家
11. OCR识别 – 证件类 l 证件类OCR识别 Ø 优图OCR识别技术支持数字识别和超过7000个常用汉字 的识别 Ø 在国际ICDAR 2015文本检测项目中刷新世界纪录 17Ø 技术指标: 名片91.4%,驾驶证91.5%,行驶证85.5% C20Ø 应用场景:身份证、驾驶证、行驶证、营业执照、银行 C卡、车牌、名片等等多个垂直场景 SAl 落地应用 Ø 手Q名片识别,广点通营业执照识别: 在手Q的扫一 扫入口中,可以体验。 Ø Webank身份证识别,主播实名认证: 方便用户快速 的输入证件信息。
12. OCR识别 – 通用场景和手写 l 手写体OCR以及通用OCR识别 Ø 手写体手机/电话识别准确率可达99%以上。突破业界复杂手写体 识别的难题。 Ø 通用场景准确率和召回率均在88%以上。 Ø 应用场景:快递单据,广告识别等。 17l 落地应用: 20Ø 微云相册识别,广点通广告识别,顺丰快递单据识别,微云文本 SACC识别等
13. 更多图像定制识别功能 l 图标识别 Ø 图标形式:水印、二维码、条形码、logo等。并可根 据业务需求定制。 Ø 基于团队自研的深度识别引擎,核心算法与基础模型 17经过多轮优化,可以准确快速地识别图片中所包含的 20各类图标 SACCl 烟雾,吸烟识别 Ø 基于视频直播监管需求, 提供吸烟,烟雾,涉嫌吸毒 等场景的识别能力
14. 02 深度学习技术介绍 深度学习介绍 图像海量数据的积累 SACC2017深度网络训练选择 加快训练 - 分布式训练系统 RPN 加快计算 - 深度学习算法加速
15. 深度学习 - 带动的AI浪潮 第1阶段:人工智能起步 期 (1956-1980s) 1956 技 达特茅 术 斯会议 发 标志AI 展 诞生 1957 神经网络 Perceptr on被罗 森布拉特 发明 1970 受限于 计算能 力,进 入第一 个寒冬 应 用 突 破 第2阶段:专家系统推 第3阶段:深度学习 广 (2000s-至今 ) (1980s-1990s) 1980 XCON专 家系统出 现,每年 节约4000 万美元 SACC20172006 Hinton提出 “深度学习” 的神经网络 2013 深度学习算法在 语音和视觉识别 上有重大突破, 识别率超过99% 和95% 2016 讯飞,搜 狗,阿里 演示了实 时语音识 别翻译 1990-1991 1997 2011 2012 2016 人工智能计算 机DARPA没 能实现,政府 投入缩减,进 入第二次低谷 IBM的 Deep Blue战 胜国际 象棋冠 军 苹果的 Siri问世, 技术上不 断创新 Google的 无人驾驶 汽车上路 (2009年 宣布) Deepmind团队 AlphaGo&Ma ster运用深度学 习算法战胜围 棋冠军 深度学习全面爆发 2016 - 2016 深度学习实现 的图像风格化, 带动时光相册 等一大批风格 化软件流行 2016 优图实时 美颜美妆 在众多直 播,小视 频场景大 量应用
16. 深度学习 – 相对于传统机器学习方法的突破 图像表示:Gabor, SIFT, HOG, LBP, POEM, LGBP, LPQ 图像集表示:Manifold, GMM, Covariance SACC2017• 深度学习:多层神经网络对输入进行非线性变换的学习技术 模式分类:SVM,Boosting,决策树, 子空间学习,度量学习: PCA/LDA,Manifold, LMNN, NCA….. 词典学习&稀疏编码 鸟类 正常
17. 深度学习 – 多层深度网络在学习什么 SACC2017
18. 1深度学习 – 解决问题的统一框架 SACC2017
19. 深度学习 - 如何设计网络结构 整体结构:深度大幅增加,宽度适当增加: AlexNet,8层,,I型 VGGNet,19层,I型 GoogleNet,22层,W型 局部结构:直线型分支型 3x3, 64 3x3, 6re4lu 直线型 (I型) 稠密连接:分支连接多层连接 DenseNet ResNet,152层,V型 SACC2017局部双分支型 (V型) Dual Path Network 局部多分支型 (W型)
20. 深度学习 - 更深更复杂的网络带来效果提升,计算量提升 SACC2017 An Analysis of Deep Neural Network Models for Practical Applications https://arxiv.org/abs/1605.07678
21. 深度学习 -更多数据带来效果质的提升 数据越多,效果越好 数据除了人工以外的获取方法 SACC2017• 扩增数据 – 各种图像增强,加噪声 • 非监督学习 - 聚类 • 迁移学习 – 利用相似任务训练好的网络 • 生成样本数据 – 深度生成对抗网络 论文链接: Revisiting Unreasonable Effectiveness of Data in Deep Learning Era https://arxiv.org/abs/1707.02968
22. 深度学习 训练框架 和 硬件选择 不同场景,不同框架 预算多V100, 预算少1080 TI 特性 GTX - 1080TI SACC2017GPU微架构 核心代号 Tensor Cores GPU核心 CUDA核数量 处理器制程 Core Clock(<=) 显存类型 显存位宽 GPU显存 显存带宽 显存容量 性能 FP32 (TFLOPS) FP16 (TFLOPS) Pascal GP104 NA 3456 - 1621MHz GDDR5X 384-bit 480 GB/s 12GB 10.6 NA Tensor (TFLOPS) NA G7-P40 Pascal GP102 NA 3840 16nm FinFET 1531MHz GDDR5 384-bit 346 GB/s 24GB 12 NA NA TDP 250W 250W PCIe-V100 Volta GV100 640 5120 12nm FinFET 1450MHz HBM2 4096-bit 900GB/s 16G 14 113 112 250W
23. 深度学习 – 打通训练和应用的闭环 • 越来越多的数据量,图像从百万到千万,数据从图像到视频 • 越来越复杂的网络结构,从Resnet,ResNeXt,DenseNet,DPN,SENET • 越来越多的应用场景,云服务,Android,iOS, 闸机嵌入式 • 越来越复杂的限制条件, 内存,功耗,延迟 SACC2017网络模型 X86 Android iOS GPU 优化 优化 优化 优化 公共计算库 内存池 硬件设备 RapidFlow 训练平台 add conv b xw 应用场景 操作系统 底层硬件加速
24. 加快训练速度 - RapidFlow • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 用户 择不同的重启策略 • 集群管理与监控 热任务/监控数据/集群信息 Redis master 提交/管理任务 client • 节点心跳异常告警 Mysql 冷数据 任务调度/资源管理 • 运维工具化,快速屏蔽/启动异常机器 7• 灵活的资源分配 01• 支持以 GPU 或节点为粒度进行资源分配 2• 用户配置任务所需最小资源 C• 自动扩缩容,最大化资源使用率 SAC• 支持不同计算框架 agent App 1 Train Job 1 监控上报 agent agent 监控/启停 App 2 PS Job 1 App 2 WK Job 2 • 调度与任务松耦合,用户可以灵活定义任务 管理数据 提取模型、 查看日志 cephfs存储集 群 模型/日志 数据 本地文件系统 • 支持配置 docker 镜像,完全自定义运行环 境 Val Job 2 App 3 SSH Job 1 WK Job 3 自动拉取镜像 docker.oa.co m • 良好的用户体验 • 完善的客户端工具 • 任务进度微信提醒
25. 加快应用速度 - RapidNet Rapidnet : 深度网络应用的解决方案 • 将深度网络SDK生成,分为解析,编译,运行三个阶段 • 一键生成深度学习SDK,一个模型到处应用 caffe model proto Tensor Flow graph. pb 深度网络计算图 SACC2017X86 优化 Android iOS 优化 优化 GPU 优化 公共计算库 内存池 硬件设备 Ncnn : 移动端前向网络开源框 https://github.com/tencent/ncnn • 针对移动端优化版本 • 开源建设, 2.6k+ stars xx-x86-sdk.cpp xx-android-arm.c xx-randroid-sdk.java xx-ios-arm-sdk.m xx-arm-gpu-sdk.c
26. 03 图像内容审核的扩展和延伸 Deep Eye 优图-腾讯云 天御内容识别解决方案 SACC2017从静到动:结合视频识别能力 从图像到声音: 音频识别
27. 腾讯优图-腾讯云天御 内容审核解决方案 SACC2017
28. 针对直播 – 视频鉴黄解决方案 • 在部署了DeepEye视频直播鉴黄解决方案后,系 统对直播房间的视频流按指定的时间间隔(用户 17可配置)进行截图,通过鉴黄引擎给该图片进行 20鉴别,并将可疑图片和对应的房间信息回调给开 SACC发者,开发者可以根据返回的结果信息优先给审 核人员进行审核,进行封停等进一步处理。经过 审核没有问题的内容再呈现倒观看者的屏幕。
29. 从静到动:结合视频识别能力 • 结合视频监控场景, 在图像序列中, 识别图 像物体, 识别人体,人群密度,人体属性等 各种信息 • 融合图像,动作识别能力,提升审核准确率, 召回率, 增加更多场景风险控制 SACC201女性 7 青年 长发 背面 背包 灰色衣服 青色裤子 监控场景人体检测 多物体检测 监控场景人体属性 人群密度估计 实际: 106人 预测: 113.4人
30. 从图像到声音: 音频识别 声纹识别 小语种声音分类 QQ 音乐- 音乐检索 l 优图原音音频识别系统 SACC2017
31. 腾讯优图 部分合作伙伴 苏州公安 南宁公安 福建公安 SACC2017
32. Thanks & QA SACC2017腾讯优图 AI开放平台:http://open.youtu.qq.com 官方邮箱:youtu@tencent.com 腾讯优图公众号:腾讯优图 腾讯云-天御: https://cloud.tencent.com/product/pf