深度学习平台助力亿万级别内容审核系统

微风

2019/03/24 发布于 技术 分类

文字内容
1. 七牛深度学习平台支 持亿级审核系统 李朝光 lichaoguang@qiniu.com
3. Agenda Overview 七牛云内容审核介绍 七牛云深度学习平台介绍 深度学习平台助力亿万级审核系统 未来发展展望
4. 人工智能在七牛 公有云接入 私有化部署 业务Portal,API接入 人脸,OCR等 审核、推理 算法/模型/训练 深度训练平台(AVA) 存储(对象,块) 计算(CPU/GPU) 通用硬件,交换机,网络
5. Agenda Overview 七牛云内容审核介绍 七牛云深度学习平台介绍 深度学习平台助力亿万级审核系统 未来发展展望
6. 内容审核 内容安全面临挑战 海量数据安全风险大、管理成本高 色情 当前⽆无法显示该 图像。 暴恐 当前⽆无法显示该 图像。 网络视频与直播用户已分别超过 5 亿和 4 亿,随之而来的是大量违规内容的产生和 高企的管理成本。 内容安全已成为各大平台的生命线,只有 在完善的管理和审核下,才能防范违规避 免价值受损。 敏感 当前⽆无法显示该 图像。 低俗 当前⽆无法显示该 图像。
7. 审核痛点 内容安全面临诸多挑战 审核效率低下 采用人审机制的 UGC 平台,审核时 间长达 15-60 分钟。严重影响用户体 验。 人力成本高 审核人员招聘、雇佣、培训、场地 等费用带来主营业务外大量支出, 成本动辄高达百万。 违规内容损害企业根本 政府执行最严内容监管标准,一旦违规, 立即惩罚,甚至直接关停。 负面舆论损害正常运营与企业形象。 审核标准滞后 最新审核标准难以第一时间在审核 团队完全同步,带来违规内容审查 疏漏,造成重大损害
8. 七牛审核优势 当前 ⽆无法 对象存储云服务商 海量的图片、视频存储资源 完善的图片、视频处理服务 当前⽆无 法显示 该图 完善的迭代流程 Dora - AVA - Lego结构化 当前 ⽆无法 基于高效AVA深度训练平台打造 直接基于云端数据训练模型 审核结果直接反馈到云端 当 前 一键内容审核保护 鉴黄、鉴报、鉴恐,准确率高
9. 审核流程 存储服务 来源: 七牛云/ 其他独立厂商 审核、推理服务 审核服务(业务流程) 发现违规 是 已封禁 否 审核服务 通过 是否违禁 图片 机器审核 是否设置违规 文件自动禁用 否 待人工处理 是 视频 机审+人审 直播 审核完成 文件正常 模型训练、迭代 Label X 打标系统 标注服务 AVA深度学习训练平台 训练服务 删除
10. Agenda Overview 七牛云内容审核介绍 七牛云深度学习平台介绍 深度学习平台助力亿万级审核系统 未来发展展望
11. AVA概览 当前⽆无法显示该图像。
12. AVA功能 训练数据集 训练标注系统 训练镜像下载 训练样本集 当 当 当 训练评估/推送 AV A 当 前 GPU/CPU调度 当 当 海量对象存储 当 资源/训练监控 当 前 当 当 用户/组管理 算法模型/训练框架 深度学习训练
13. AVA特点 当 当 前 当 前 当 前 简单易用 集成标注系统 云上数据集管理 模型管理方便 大部分功能集成Portal页面 ,轻点鼠标即启动训练 Label X 打标系统,支持视 频、图像分类、检测 数据支持主要云运营商; 云上数据轻松管理 一键发布,支持快速迭代 当 前 当前 当前 ⽆无法 当 前 灵活使用GPU资源 支持多种框架 部署灵活 业务调度 多机多卡分布式训练,多 种调度策略 MxNet、Pytorch、Caffe、 Tensorflow 支持公、私有云部署,数 据可不出岛 业务task批量调度 同步、异步高效调度
14. 深度训练平台 标注系统 数据集管理 当 前 当 训练管理 AVA深度学习训练平台 分布式云计算平台 分布式云存储平台 当 前 高速分布式缓存 对象存储 块存储 当 模型管理 分布式调度管理 GPU管理 虚拟化、容器、编排管理 通用硬件服务器、交换机管理 训练过程
15. Agenda Overview 七牛云内容审核介绍 七牛云深度学习平台介绍 深度学习平台助力亿万级审核系统 未来发展展望
16. 一组数据 ✦ 平均日审核图片:1亿张,峰值2亿+ ✦ 日均人工审核:10万+ ✦ 个人日均审核图片:1200张 ✦ 平均图像模型训练样本:800万张 ✦ 模型平均训练时间:4天 ✦ 训练平均需要GPU卡数:4张 ✦ 对象存储bucket平均图片数:500万张 ✦ 中型图像深度训练存储带宽:1GB/S 当前⽆无法显示该图 像。 当前⽆无法显示该图 像。 当前⽆无法显示该图 像。 当前⽆无法显示该图 像。
17. 审核标注系统 当前⽆无法显示该图像。 当前⽆无法显示该图像。 当前⽆无法显示该图像。 当前⽆无法显示该图像。 标注工具集 标注过程和标注团队管理: * 分配标注任务 * 查看标注进度 * 接受、拒接标注结果 * 创建标注数据集 * 计费管理
18. 审核数据,支持 主流厂商 审核海量数据处理 演进过程 对象存储 NFS 性能差 CEPH 不能共享 < 200T 对象存储 访问困难 Alluxio + CEPH + 对象存储 读写共享 树形访问 内存速度 P/E级别 Cache子系统 (Alluxio) Task分发、调度子系统 视频结构化子系统 分布式训练子系统 适当预处理,性能较CEPH有50%提升,较对象存储有10倍提升
19. 视频结构化 人脸检测跟 踪 输入视频 提取音频 OCR识别 人脸聚类 音频语音识别 人脸识别 人脸打标签 语音文本关键字提取 OCR文本关键字提取 视频审核(鉴黄,鉴暴恐,敏感人物) 关键字搜索 视频 结构化存储 人脸搜索视 频 人脸搜索引 擎 关键字视频 审核 图像视频审 核
20. 并发任务处理 任务定义(json) 任务生成 MQ 任务栈: Python SDK SDK 图片视频 下载预热 云对象存储 并发任务执行引擎 任务调度 任务编排 Orchestration client 图片视频 检测 审核任务 审核任务 深度训练平台 任务调度 查询 Orchestration Server 结果聚合 分布式调度系统 K8S,硬件管理
21. 完整开发流程 当 前 开发模型 定义网络层次、 损失函数 当 发布模型 模型快照、 一键发布 当 调整模型 定义参数、偏差 当 验证模型 用测试集验证 训练效果 加载参数 挂载本地或 云数据集 当前 自动训练 分配GPU等资源, 挂载镜像、算法模 块
22. 场景: 1. 应对业务突发 2. 存量数据不好迁移 平台就近部署 友商对象存储平台 七牛云对象存储平台 当前 ⽆无法 七牛云深度训练平台 七牛云审核系统 当 前 当 前 当前 ⽆无法 数据 当 前 模型 当前⽆无 法显示 该图 当前⽆无 法显示 该图 七牛云深度训练平台 当前⽆无 法显示 该图 当前⽆无 法显示 该图 当前⽆无 法显示 该图 友商GPU运算力 当前⽆无 法显示 该图
23. 服务万级客户,日均活跃客户数千,日均调用量数亿 内容审核服务 服务类型 智能机器审核 智能机器审核 + 七牛云人工复核 全量托管服务 服务类目 图片鉴黄 图片鉴暴恐 图片鉴政 视频鉴黄 视频鉴暴恐 视频鉴政 客户价值 图片三鉴 降低人工审核工作量,提高及时性,节省 人力成本。 减少审核团队的管理成本(例如,招聘、 培训、绩效考核、人员管理和办公室成本 ); 图片鉴黄 图片鉴暴恐 图片鉴政 图片三鉴 视频鉴黄 视频鉴暴恐 视频鉴政 人工复审 专业的人工审核员,及时处理违规图片视 频。 图片鉴黄 图片鉴暴恐 图片鉴政 图片三鉴 视频鉴黄 视频鉴暴恐 视频鉴政 人工精审 文本过滤 语音审核 合规咨询 危急应对 独家提供“全量托管服务”,提供文本、 图片、视频、语音等内容的全量审核服务 ,并提供合规咨询和危急应对,让用户完 全不用关心审核业务,彻底规避政策风险 。
24. 色情识别综合准确率行业领先 基于AVA深度学习平台不断快速迭代,优化算法,鉴黄产品无论是准确率还是召回率都要比竞品高。 综合准确率 色情召回率 色情准确率 性感召回率 性感准确率 正常召回率 正常准确率 七牛云 96.48% 93.28% 96.52% 87.32% 65.66% 97.67% 98.75% T 友商 91.82% 86.16% 93.56% 63.4% 34.86% 94.61% 97.33% A 友商 93.12% 85.22% 87.52% 47.06% 50.44% 97.35% 96.45% TP 友商 92.13% 74.34% 89.59% 38.76% 70.54% 98.89% 93.17% B 友商 94.32% 87.17% 93.98% 58.1% 60.76% 97.8% 96.07%
25. 支持最全暴恐类型 与上海网安成立联合实验室,支持更多贴合真实需求的鉴暴恐类型。 七牛云 血腥 爆炸 斩首 游行集会 打架斗殴 警民冲突 刀具 枪支 旗帜 敏感文字 军事场景 敏感着装 敏感蒙面 A 友商 血腥 爆炸 斩首 游行集会 打架斗殴 警民冲突 刀具 枪支 旗帜 敏感文字 军事场景 敏感着装 敏感蒙面 T 友商 血腥 爆炸 斩首 游行集会 打架斗殴 警民冲突 刀具 枪支 旗帜 敏感文字 军事场景 敏感着装 敏感蒙面 B 友商 血腥 爆炸 斩首 游行集会 打架斗殴 警民冲突 刀具 枪支 旗帜 敏感文字 军事场景 敏感着装 敏感蒙面 TP 友商 血腥 爆炸 斩首 游行集会 打架斗殴 警民冲突 刀具 枪支 旗帜 敏感文字 军事场景 敏感着装 敏感蒙面 WY 友商 血腥 爆炸 斩首 游行集会 打架斗殴 警民冲突 刀具 枪支 旗帜 敏感文字 军事场景 敏感着装 敏感蒙面 ST 友商 血腥 爆炸 斩首 游行集会 打架斗殴 警民冲突 刀具 枪支 旗帜 敏感文字 军事场景 敏感着装 敏感蒙面
26. 政治敏感人物识别准 政治人物识别本质上是人脸识别,但是互联网上的人脸数据多种多样,图片各种清晰度和人脸角度增大了识别 的难度。而七牛云采用云平台上的各种数据预处理的功能,预先处理图片,增加政治人物识别准确率。在近期 浙江省公安厅、甘肃省公安厅的互联网使用场景中,我们多次完胜旷视政治敏感人物识别。 2000+ 98.6% 政治及敏感人物 准确率
27. Agenda Overview 七牛云内容审核介绍 七牛云深度学习平台介绍 深度学习平台助力亿万级审核系统 未来发展展望
28. 当前⽆无法显示该图像。 审核与平台发展规划 目标: 1. 日均10亿+审核量,服务客户百万+ 2. 计算资源利用效率90%以上 当 视频审核 标注,海量存储、计算 图像、视频 审核算法优化 当 端到端 调度、调试系统 异构资源使用 分布式、RDMA支持 训练、迭代,推理 模型自动上线 当 多集群部署 互相打通
31. Thank you !