图像内容的智能生产

Cartel

2017/10/18 发布于 技术 分类

图像内容的智能生产

QCon2017 

文字内容
1. 图⽚片智能⽣生产-鲁班 撸一管 阿里巴巴-淘宝技术部 推开 玉阙
6. 我们团队⻓长期招⼈人 baojun.bj@alibaba-inc.com 前端,⼯工程,算法,图像,全栈~~
7. ⼿手淘⾸首⻚页⼀一天需要多少图⽚片? 鲁班⽣生产: 1200w
8. 营销 导购 原图 左⼊入⼝口图 右⼊入⼝口图
9. 消费场景 商品详情 搜索 推荐 宝贝图片 营销 导购 ⼊入⼝口图⽚片 业务痛点: banner图⽚片 效率+效果
10. 图⽚片智能⽣生产 智能化 自动化 数据化 ⾃自动化:⽣生产的能⼒力力 数据化:分析的能⼒力力 智能化:创造的能⼒力力
11. ⾃自动化 • 审核——分类、检测 • ⽣生成——模板合图 1
12. 机器器审核 宝贝图片 边缘检测 edge detection 输入 分类模型 检测模型 机器审核 白底图 输出 透明图 抠图 image matting
13. 图⽚片合成 分层定义 逐层渲染 合并输出
14. 模板DSL设计 输⼊入/input 设计稿:PSD,AI,Sketch text layer 解析/parse Adobe Photoshop File Formats Specification (以psd为例例) 协议/DSL 多层描述⽂文件 (图⽚片图层/⽂文本图层) photo layer 渲染/render 云(⽬目前) java 2D openCV 端(规划) Canvas Graphics
15. ⾃自动化 双十一当天手淘首焦PV对比 点击PV 效率:1.7亿张的banner⽣生成 效果:点击率提升100%+ 2015 2016
16. 数据化 点击图片并不代表喜欢图片 图片 商品 类目 价格 数码 质量 好 服饰 高频 次 属性 物流 快 包邮 人群对商品的偏好 颜色 蓝色 红色 形状 属性 矩形 科技 风 圆形 甜美 风 人群对图片的偏好 如何评价图⽚片质量量? 如何提⾼高图⽚片质量量?
17. 数据化 • 结构化 • 特征量化
18. 结构化 背景 psd文件 主体 修饰 目的: • • 元素中心 人和机器可理解 设计知识数据化 维度: • • • 空间:大小、方向、形状 视觉:色彩、纹理、质感 内容:类型、风格、场景
19. 特征量化 输入图片 (PNG) • 归一:简化计算 量化:便于预测 主题分类 CNN 种类分类 CNN 风格分类 CNN 颜色特征 CEDD 量化 • 归一:[0,255]/255=[0,1] 量化:64位的code编码 种类码 风格码 主题 风格 颜色 形状 … 花朵 扁平 浅橙 … 400 32 8 圆 6 … 颜色码 空间码 … 量化 • 主题码 … 量化 量化 做法: 空间检测 全链接 量化 • 量化 目的: 量化 预处理 (归一化 ) 码本
20. 智能⽣生成 • 在线规划 • 离线预测 • 数据反馈
21. 在线规划 query decode IN: 商品图片+约束(若干个码) 规划器 根据规范量化输入,生成图片结构草图 行动器 根据草图,探索不同状态优劣,生成详细设计 评估器 以人工设计为满分,在视觉和空间上进行评价 OUT: 具有时序的一组code码 具有时序的一组code码 具有时序的一组code码 具有时序的一组code码 规划器器:基于深度学习,产出空间序列列和视觉序列列
22. 离线预测 请求code 请求code 请求code 排序模型 • • • 背景 code 区域修饰 code 存储引擎(png图片) 碎片 code ⼀一个code对应多个png图⽚片 基于图⽚片属性计算score做排序 特定类型做权重加强
23. 智能生成 数据输入 设计数据(有label) 成图数据(无label) 检测/分类/离线训练/code预测 视觉数据化 构图模型 构图模型 配色模型 配色模型 搭配模型 搭配模型 文案模型 文案模型 … 文案模型 query请求decode/在线生成 数据视觉化 规划器 行动器 评估器 投放/ABTest 数据反馈 构图AB 搭配AB 配色AB 文案AB …
24. 元素增强 content image + style image = new image style image 智能拓色 内容Loss + 风格Loss feature maps 元素生成/风格迁移 计算Loss Loss计算 梯度 new image content image
25. 智能生成 图像模型 图像模型 图像模型 多维度生产 ABTest投 放 效果评估
26. 实战 • 合图加速 • 图像增强
27. 合图效率,吞吐量 • • GPU 加速后,合图速度可以提升⼤大 约5倍左右 图⽚片越⼤大,层数越多,加速越明显 通过采⽤用⽣生成/解析合图树合并GPU调⽤用 ,以及GPU内存预分配提升吞吐量量
28. GPU合图树规划
29. GPU内存预分配 GPU中的计算,涉及到很多临时变量量,这些临时变量量的分配/释放会引起很多的GPU消耗, 解决⽅方案是预先分配最⼤大图⽚片尺⼨寸相关的GPU内存,这些内存会⻓长驻
30. GPU/CPU混布 对于不不能在GPU预先分配的内存中处理理的图⽚片,直接在CPU处理理,⽤用RT的降低换取整体TPS的提升
31. 图像增强 阴影/浮影⽣生成
32. 图像增强-好/坏举例 ✅ ❎ ✅ ❎ 不不同的图⽚片,不不同的阴影/浮影⽣生成⽅方法,效果不不同。 希望对于新的图⽚片,能批量量⽣生成最适合于图⽚片的阴影/浮影
33. 机器器学习思路路 ⽬目的: 学习到⽣生产中好的阴影/浮影,并能应⽤用到新的图⽚片,场景中,增强视觉效果
34. 强化学习--改变环境 强化学习 因为需要改变环境(图⽚片),并且整个改变的过程可以看成是⼀一个MDP的过程,所以采⽤用强化学习的⽅方案 。基本原理理: 1) MDP过程 2) 定义t时刻的回报函数为 3)需要求出特定状态下的最优动作估值函数,再⽤用动作估值函数确定最佳动作,根据Bellman⽅方程,最 优动作函数可以表达为 要素: 1)状态,图⽚片改变过程中的各个的状态 2)动作,改变图⽚片的各个动作,如边界膨胀/腐蚀,移动等等 3)评价函数,⽤用图⽚片重合度来评价
35. 强化学习-动作
36. 强化学习 – 网络和算法 • • • • • 初始化重放内存⽤用来存储前后状态,动作,奖赏值等 根据线性退⽕火,ε-greedy策略略选取动作 执⾏行行动作并获取相关的状态和奖赏值,放⼊入重放内存中 从重放内存中随机选取X条数据作为训练数据 根据γ和Q函数计算新的奖赏值,并和原来的奖赏值做平法差作为损失函数, ⽤用SGD更更新Q函数
37. 强化学习 – 运⾏行行结果 Reward 4 Mean-Max-Q 10 跟踪记录⼀一批状态的 Reward和Q 函数的值,随 着训练的进⾏行行,Reward处 于震荡状态,但Q值处于递 增状态,说明⽹网络训练有效 7 2 3 0 0 -3 5000 15000 25000 35000 45000 5000 15000 25000 35000 45000 Episode Episode 好/中/坏比例(500) 好 中 坏 随机生成 48 294 246 网络预测生成 156 275 69
38. 鲁班-服务图⽚片的消费与⽣生产 图片消费 图片生产 shu 线上 线上 线下 线下 智能化 自动化 数据化
39. Q&A
40. Thanks