全球架构师峰会 Arch Summit 2018

李想 微软小冰实时感官系统与未来发展趋势

1. 微软小冰实时感官系统与未来 发展趋势 李想 Principal Engineering Manager, Microsoft
3. 李想 Principal Engineering Manager, Microsoft • 本科硕士分别就读于复旦大学,中国科学院 计算技术研究所。先后工作于Yahoo全球技术 研发中心和微软亚洲互联网工程院。 • 目前在小冰部门,负责小冰系统架构的设计 与实现,和重点合作伙伴平台的对接。
4. • 什么是小冰 • 全双工语音感官 • 实时视觉感官 • 两种感官的结合
5. • 什么是小冰 • 全双工语音感官 • 实时视觉感官 • 两种感官的结合
7. Chat Bot Content provider Solutions
8. 交互基础
9. 交互内容 对话如河流
10. 交互方式 NULL 电话 对讲机 电报 传统交互 微信视频 微信电话 微信语音 微信聊天 互联网时代交互 ?? ?? 语音助手 聊天机器人 人工智能交互
11. • 什么是小冰 • 全双工语音感官 • 实时视觉感官 • 两种感官的结合
13. 全双工语音交互形式 单轮交互 多轮交互 持续监听 全双工交互
14. 组成模块:半双工 vs 全双工 • Speech Recognition • Chat Engine • Text To Speech • Continuous Speech Recognition • Language Prediction • Chat Engine • Text To Speech • Turn Coordinator • Rhythm Coordinator
15. 边听变想(输入模块)
16. 节奏控制(输出模块) Current Sentence Candidates Queue Play Cursor Left Time 每段音频输出可以定义一个『模式』指定如何调度协调 『与上一轮输出的关系』 • Queue • Conditional Queue • Interrupt • Conditional Interrupt • Skip • Interrupt Or Queue 『与用户语音输出的关系』 • Yield • Interrupt • Skip On New 递归回复 & 主动回复
17. 对于声音场景的理解 • 语音身份识别:男、女、儿童 • 语音声纹识别 • 背景噪音识别 • 是否在对小冰说话
18. 未来发展方向 • 个人场景 à 家庭场景 à 车载场景 à 公共空间场景 • 多人同时交互 and/or 多设备联动交互 • 与实时视觉感官的结合
19. • 什么是小冰 • 全双工语音感官 • 实时视觉感官 • 两种感官的结合
20. 实时视觉感官的交互形式 • 基于电视+摄像头的部署 • 视频流输入 • 视频流+音频流输出
22. 并行事件触发机制(输入模块) 静态事件 • Face ID • 人物性别、颜值、服装 • 物体 • 时间 • …… 动态事件 • 人的位置(进入屏幕…) • 人的表情 • 人的关键部位(挥手…) • 手机扫码 • …… 场景 • 已知男性进入屏幕 • 某男子戴帽子后的闲聊 • 一个小女孩靠近屏幕 • 一个人一直站着不动 • ……
23. 节奏控制(输出模块) 视频流输出 • 颜值 • 框住要说话的对象(节奏) • 物体 • 照片二维码 • …… 音频流输出(节奏) • 打招呼 • 引导用户 • 主动抛话题 • …… 更复杂的节奏控制器 • 认识的人调高优先级 • 触发过的场景调低优先级 • 主动抛话题调低优先级 • 更多不同优先级的任务 • ……
24. 产品线 未来发展方向 大屏 商业化 小型设备 用户化 基础能力 更多物体、商品识别能力 判断物体、人物之间的关系 更多场景和功能 …
25. • 什么是小冰 • 全双工语音感官 • 实时视觉感官 • 两种感官的结合
27. 视觉与听觉相结合的经验 只靠听觉 交流方式 视觉补听觉 说话人识别 只靠视觉 视觉唤醒

相关幻灯片