思必驰 张顺:可定制开发的语音交互技术

侍凝蕊

2017/11/14 发布于 技术 分类

近5年随着深度学习在语音领域的革命性应用, 语音交互技术越来越成熟, 并在家居、车载、玩具、机器人、客服等场景的产品中成功应用,成为iOT时代重要的交互方式之一。越来越多的厂商和开发者在研发带有语音交互技术的产品,但是智能语音交互技术整个链条非常长,涉及到前端信号处理、唤醒、识别、语义、对话、问答等诸多核心技术,所以开发者在做技术集成时不得不面对诸多问题往往无从下手,导致交互体验达不到用户的期望。本演讲将主要分享在可定制方面的实践与思考,及对未来的展望。

文字内容
1. 可定制—开DU发I的全的链路语S定A制音C探C索交之2路0互17技术 张顺@思必驰
2. 主要内容 语DU音I的交可互定的制探的索语经音历S交A互CC2017 一些问题与思考
3. PART 1 语音交互探索 经S历ACC2017
4. 语音交互探索经历 键盘 1873 SACC2017鼠标 1968 Xerox Alto 1973 最早的图形化系统 iPhone 2007 多点触摸应用于手机 Siri 2011 语音助手应用于手机 Amazon Echo 2014 语音音箱应用
5. 语音交互探索经历 命令行 图形交互 语音交互 SACC201P移7C动时时代代 iOT时代
6. 阶段语一音:交20互13探- 2索01经4 通历用语音云 阶段一: 2013 - 2014 通用语音云 a. 产品方面: 一个app一个语音入口, 各种语音助手交 互方式各异, 非刚需 SACb. 工程方面:研发难度大, 基于SDK/API自已实现需要 C2了解语音对话相关知识, 自已开发 017c. 语音技术:识别性能逐年突破
7. 语音交互探索经历 阶段二: 2015-2016 完整语音交互系统(AIOS) 应用层 music weather stock chat … AIOS 交互层 bus recorder node SACC2017processor: control logic player node aec node cloud node wakeup node vad node local asr node tts node … node 系统层 Linux Android QNX * 由AIOS实现各场景下的完整的交互逻辑 OpenWrt … * 与底层操作系统和应用层解耦 7
8. 语音交互探索经历 阶段二: 2015-2016 完整语音交互系统(AIOS) a. 产品方面:刚需的车载, 家居, 机器人等 b. 工程方面:完整的交互系统, 集成简单, 定制能力不 S足, 出现一些语音系统方案商 ACCc. 语音技术:识别性能逐步突破, 一个垂域使用一个 2017模型, 严重依赖语音厂商 特殊词语识别,新词等识别 同一个说法,不同解析要求 对话交互逻辑个性化定制 不同产品共用一个模型资源, 融合多家需求, 更新难 我要听<凉凉> 打电话前是否要确认? 我要听郭德纲 8
9. 语音交互探索经历 阶段三: 2016-未来 大规模定制开发(DUI平台) SACC2017 Skill开发(类似App开发) 对Skill开发者更简单, 可自助式定制开发 9
10. 语音交互探索经历 阶段三: 2016-未来 大规模定制开发(DUI平台) SACC2017 产品接入 更简单快速地接入新产品, 勾选使用语音Skill 10
11. 语音交互探索经历 阶段三: 2016-未来 大规模定制开发(DUI平台) Skills A公司的 Product 1 B公司的 Product 2 SACC2017酷音乐 天气 视频 故事 QQ音乐 Skill即是一个完整的可交互的单位, 类似App Skill开发过程涉及到识别,语义,对话等的定制开发 11
12. PART 2 DUI的可定 制的S语AC音C交20互17
13. DUI的可定制的语音交互 识别 合成 感知 语音唤醒 理解 SACC2017决策 表述 控制 搜索 数据 知识 认知 语音识别 语音合成 语义理解 对话管理 知识库 13
14. DUI的可定制的语音交互 可定制的对话 检索型 知识S型ACC2017 任务型 14
15. DUI的可定制的语音交互 可定制的对话 – 检索型 S 非结构化内容,不好形成知识库 AC 一般是单轮一问一答 C2017 典型应用是聊天 15
16. DUI的可定制的语音交互 可定制的对话 – 检索型 Q:你怎么这么聪明 A:我可是天生滴 Q:不洗手能吃饭吗 A:小朋友要洗手 SACC2017聊天Skill 聊天库 IR-Skill1 问答库1 IR-SkillN 问答库N 北京天气不错啊 语义分析 检索 排序 我也这么觉得 基于信息检索的Skill 16
17. DUI的可定制的语音交互 可定制的对话 – 知识型  特定域  知识可以结构化  一般是单轮一问一答  用户期待较高 SACC2017章子怡的老公的年龄? 美国总统是谁? 三生三世十里桃花是谁主演的 思必驰有哪几个部门 17
18. DUI的可定制的语音交互 可定制的对话 – 知识型 中国首都是哪个城市? 中国的首都在哪? SACC2017百科Skill 地理知识 KG-Skill1 知识库1 KG-SkillN 知识库N 逻辑 语义分析 知识查找 中华人民共和国 首都北京 基于知识图谱的Skill 18
19. DUI的可定制的语音交互 可定制的对话 – 任务型  特定域  带着目的来的, 比如导航, 打电话, 听歌 SA 多轮对话, 但是轮数越少越好 CC2 需要跟踪对话状态以及决策策略 017 严肃场景, 用户期待非常高, 不容出错 帮我导航到北京 把家里的空调打开 我要听岳云鹏的歌曲 北京今天天气怎么样? 19
20. DUI的可定制的语音交互 可定制的对话 – 任务型 语音识别 语音合成 Task-Skill SACC2017语义解析 语言生成 状态 跟踪 策略 优化 Slot-filling Context Data Search Flow Action 面向任务的多轮对话 20
21. DUI的可定制的语音交互 可定制的对话 用户说 IR-skill1 IR-skill2 SACC2017问答型 QA-skillN 调 度 器 KG-skill1 KG-skill2 知识型 KG-skillN 融 合 机器回答 TASK-skill1 TASK-skill2 任务型 TASK-skillN 多引擎Skill架构 21
22. 主要内容 PART 3 一些问题与思 考SACC2017
23. 一些问题与思考 识别先出错, 语义不能处理  内容资源、语言模型与语义需要三者配合好 SAC 仅有识别或语义是不够的 C2017 识别与语义不宜分开 播放“MC子龙”的<刀山火海> 歌手名 歌曲名 23
24. 一些问题与思考 识别先出错, 语义不能处理 声学模型 特征提取 发音字典 解码 SACC2017后处理 语言模型 今天北京空气很好 Builtin LM union 1...n union Common Ngram-LM Pattern_b Class_b Class_c Custom LM Pattern_c Class_b Class_c 内置语言模型 + 定制的Skill的语言模型 24
25. 一些问题与思考 Skill调度 SA用Costa订杯咖啡 Costa Skill CC帮我订杯咖啡 ??? Starbucks Skill 2017喝咖啡要不要放糖 3WCoffee Skill 强说法 指名道姓 技能优先级 对话消歧 Coffee IR Skill 用户画像 25
26. 一些问题与思考 多模态交互处理 GUI与VUI状态同步 或无状态 多VU模I 态+S交GAU互CI C2017 GUI辅助对话 还是对话辅助GUI? 26
27. 一些问题与思考 多模态交互处理 Speech in ASR SACC2017SLU DM NLG TTS Spoken Dialog System Speech out 27
28. 一些问题与思考 多模态交互处理 Speech in ASR GUI操作 SACC2017数据 SLU DM NLG TTS Speech out GUI管理 生成界面 Display 生成动作 Action Spoken Dialog System 28
29. 一些问题与思考 多模态交互处理 – 对话控件 数据查询 是 Action 语音输入 语音识别 语义解析 对话管理 NLG 语音合成播报 是否有下 一轮交互 否 结束对话 GUI操作 多模态操作 DUI控件 转换成文本 GUI管理 GUI生成 GUI渲染演示 SACC2017• 控件名称 • 控件类型 • 控件三要素 1. Data • 数据格式 • 数据源地址 2. GUI • GUI布局 • GUI样式 • GUI控件:关联文本输入 3. Dialog • NLG模板 • Action • 对话流程:关联下一轮对话 • 对话提示
30. 一些问题与思考 跨Skill的上下文  多引擎(IR,KG,Task)的融合  跨Skill的上下文  指代消解  知识推理??? SACC2017 给我来一首章子怡的老公的歌 30
31. 一些问题与思考 跨Skill的上下文 IR-Skill KG-Skill Task-Skill SACC2017Context IR-ask IR-reply KG-ask KG-reply Task-ask Task-reply 指代消解的18种case, 引擎越多越复杂 31
32. 一些问题与思考 无网情况下也可使用部分功能 并不是所有时候网络都是可靠的 需要云+端方案 SACC2017打电话给张三 调大音量 导航到北京富力万丽酒店 打电话 简单命令 导航 32
33. 一些问题与思考 无网情况下也可使用部分功能 processor cloud bus asr local bus co-processor recorder SACC2017nlu dm context bridge via websocket … local asr local nlu local dm … 本地技能: 本地也可以运行ASR, SLU, DM 当网络弱或网络差时切换到本地技能, 只支持简单的不依赖服务端资源的技能 33
34. 一些问题与思考 让交互更自然, 更智能, 更鲁棒 1. 为什么每次都要唤醒? 2. 为什么要等机器说完后人才可以说话? S3. 为什么要人主动和机器说话? AC4. 功耗更低 C5. 噪音环境下也可以交互 206. 机器实在搞不定怎么办? 177. 更智能的打断 8. 更智能的纠错 9. 更智能的知识推理 10. 更智能的指代消解 11. 更智能的技能调度 12. … 34
35. 思必驰核心S技A术CC介2绍017 35
36. 从识别、理解到交互, 拥有全面的AI语音技术,全面拥抱对话智能 语音识别 实时云识别 大词汇识别 本地语音识别 抗噪及远场识别 语音合成 童音 名人合成音 标准男女声 个性化定制 高质量合成 超快速合成 SACC2017语音识别++ 语音唤醒 语义理解 电话短信 声纹识别 音乐电台 年龄识别 导航周边 情绪识别 天气日历 票务股票 设备控制等 智能对话 自由打断 智能纠错 渐进理解 任务对话 跟踪意图 36
37. 全面的核心技术 识别 • 通用模型识别率在97%以上 • 提出了VDCNN模型, 在Aurora4噪音测试集上 的识别性能达到了7.09%词错误率, 性能相对 提高10% • CTC模型, 降低80%搜索空间, 将识别速度提高 7倍以上 • CPU+GPU混合架构 • 速度100ms以内 SACC2017远场 • 6麦环形麦克风阵列, 3米识别率达94% 唤醒 定制唤醒 通用唤醒 • 唤醒率 95% • 唤醒率 92% 37
38. 语义 • 内置近百个领域, 覆盖车载, 电视, 故事机, 音 箱, 机器人, APP等场景 • 支持亿级大词库, 解析速度提高20倍 • 支持定制说法自动调优 • 100ms以内 合成 • 标准男女声、可爱童声、孙悟空、周星星、 志玲等十多种合成音色 问答 SACC2017• 知识库 - 亿级百科知识 对话 • 多轮对话 • 跨领域上下文 • 纠正 • 指代消解 • 知识推理 38
39. 和客户一起打磨产品 SACC2017 39
40. SACC2017