慧川智能 刘曦:ImageNet挑战赛之后的计算机视觉新征程_IT168文库

甘淳静

2017/11/14 发布于 技术 分类

随着计算机视觉的技术不断进步,到2017年,深度学习在常见图片的物体识别上已超过人类的识别水平。今年的ImageNet 2017挑战赛也是最后一届了,这无疑标志着一个时代的结束,但也是新征程的开始。接下来计算机视觉会往哪里发展?首先是更加精细的感知,包括物体检测、物体分割、物体跟踪尤其是复杂物体检测,小型物体分割,实时物体跟踪等。更重要的是在认知层面,通过识别物体、动作、属性、环境以及他们之间的关系来进行图像理解。应用包括图像描述,深度场景理解和识别,视频理解等。我会主要讲智影(ZenVideo.cn)上相关的工作,包括视频理解。智影是中国第一个在线的智能视频制作平台,依托于NLP、视频理解和大规模云计算技术,智影云平台能够帮助快速生成短视频,用户只需要输入脚本文字,就可以直接通过云端生成相应的视频内容,自动配音,并且用户可以在线进行编辑和修改。自从7月上线后,智影现在已经被超过1000家自媒体使用,每日生产近600条视频。

文字内容
1. – Imag认eNSe知At挑C刘到战C曦赛2理后01解的7新挑战 慧川智能
2. ImageNet • ImageNet – 图片的数据集:从网上收集的1400多万张图片 • IL––S人训VR工练C标数注据为2万12多S0个万A分图C类片C,21001007类别
3. ILSVRC结果 SACC2017 人的错误范围
4. SACC2017 摘自ImageNet - Where have we been? Where are we going?
5. What’s Next? - 认知层面 • 更精细的认知任务:精细化物体识别,检 测,分割,跟踪等 – 比时如物体:具跟踪体车S型A识C别C,2小0物17体检测分割,实
6. What’s Next? – 理解层面 • 图像理解 – 物体,行为动作,场景,属性,人物等 • 视–– 它基频们于理之图解间像的理关解S系ACC2017 – 时序上下文承载更多的信息量
7. 智影 – 用视频讲述你的故事 • 信息的获取和传递方式 SACC2017 文字 图片 • 智影:文字到视频的自动转换 视频
8. 智影应用场景 – 助手 Q: 想下个月和家人去越南 芽庄旅游,有哪些地方可 以去的? SACC2017 A: 吃的。。。 住的。。。 玩的。。。大教堂,什么电影 在这里拍摄
9. 智影应用场景 – 自媒体 67%文章SA适CC合201生7 成视频
10. 智影技术框架 大黑牛。。。2010年,他 接了《唐山大地震》,电 影里搭档张静初,两人饰 演了一对跨越生死的姐 弟。。。 。。。从还珠里的小丫鬟 金锁,再到今天叱咤娱乐 圈的范爷。。 大黑牛 李晨 张静初 张静初 SACC2017唐山大地震 唐山大地震 知识图谱 范爷 金锁 范冰冰 还珠格格
11. 面临的挑战:如何定义好与不好? • 如何评估输出的结果? • 建立基于人的评估体系:每个人对结果的判断不一致 2017• 算法的迭代速度会受到影响 • 现阶段仍然处于早期,算法迭代效果增强比较明显 SACC• 如何定义端到端的损失函数 • 无法训练端到端模型
12. 面临的挑战:抽象 vs 具象 • 语言常常是抽象的,而画面常常是具象的 – 从相对差异化小的的领域入手:明星影视娱乐,旅游等 SACC2017– 建立抽象具象关系之间的关系图谱
13. SACC2017