1. 语音和语言技术 在AIUI语音交互中的应用 陈志刚 科大讯飞AI研究院副院长
2. 讲者介绍 陈志刚博士,现任科大讯飞AI研究院副院长,负 责认知智能研究及产品化落地工作。长期从事智 能语言及语音处理方向的科研工作,在语音合成、 语音识别、信息抽取、语音交互等方向有着多年 的研究和产品开发经验,目前担任科大讯飞语音 交互战略方向——AIUI的总工程师。
3. • 语音交互的发展历程 • 语音交互的技术难点 • 语音交互中的语音和语言技术 • 语音交互的未来发展趋势
4. 人机交互的发展历程 PC时代 移动互联时代 键盘+鼠标 触摸、手写、手势、语音 智能生活时代 语音+视觉 从以机器为中心的人机交互,走向以人为中心的自然交互
5. 语音交互的智能发展路径 多模态 实体语音按键 具备语音能力 的APP 远场 情感 无需按键 全双工 机器人 语音唤醒 无需重复唤醒
6. • 语音交互的发展历程 • 语音交互的技术难点 • 语音交互中的语音和语言技术 • 语音交互的未来发展趋势
7. 传统人机语音交互的链路环节 我要看 西游记 语音识别 语义理解 语音合成
8. 语音人机交互痛点 语音识别不准 语义理解不对 上下文关联、场景相关 环境嘈杂、离的远、方言口音 实体取名复杂 垂直领域术语、个性化词汇 人类发音口语化现象 即时场景下特有用语 信息内容不足 即时性 可用性 授权 垂直领域实体歧义 痛点 KEYPOINT 口语化、常识背景、省略说法 系统响应单一 机器反馈方式缺少变化 缺少通用对话管理策略
9. • 语音交互的发展历程 • 语音交互的技术难点 • 语音交互中的语音和语言技术 • 语音交互的未来发展趋势
10. 自然人机交互的链路 回声消除 语音唤醒 端点检测 定向拾音 语音识别 无效拒识 离线识别 远场降噪 云端听写 语义理解 情感 纠错 对话管理 语音合成 内容管理 上下文信息 情境
11. 面向交互的语音技术
12. 语音技术细分 智能语音技术 语音合成 让机器会说 语音识别 语音评测 语音唤醒 让机器能判断 说得准不准 让机器能听 麦克风阵列 让机器听得清 声纹识别 让机器听出来 是谁 语种识别 让机器听出来 是哪种语言
13. 远场精准语音识别的声学影响因素 混响:Reverberation 人声干扰:Interference Other People 背景噪声:Background Noise Noise 回声:Echo
14. 麦克风阵列及声学信号处理技术 分布式网络 阵列系统 线性阵列 平面阵列 立体阵列 声源定位 确定说话人方位 波束形成 抑制环境噪声 远场去混响 消除环境混响 回声消除 随时可打断
15. 端点检测技术 时域+频域的特征 结合语义层面特征 能量 平均过零率 能量的门限 基频 … 基于语义的智能断句 我 想 周杰 伦 听 1.0s P(</s> 我想听) = 0.004 的 歌
16. 全双工交互 唤醒+识别 全双工交互 小飞小飞, 查杭州的天气 小飞小飞, 我要听歌 小飞小飞, … 持续录音,连续识别 拒识 - 过滤无效语音 我要看 西游记 ◼ 嗯、啊、哦等语气词 ◼ 非业务场景的闲聊 语音识别 随时可打断,支持主动式交互 语义理解 语音唤醒 语音合成
17. 对话场景的语音识别——所见即可说 • 对话场景下用户直接说看到的内容,这些直接说的内容经常含有大量的生僻短语 • 如下面地图搜索时,直接说:“去美游城那个”
18. 对话场景的语音识别——所见即可说 主网络+Patch网络的动态解码网络,解决了对话场景下生僻词的识别问题 主网络 Patch网络
19. 语音交互中的语言技术
20. 语言技术的基础:语义计算/语义表示学习 语义表示的主要类型(根据输入和输出分类): [0, 0, 0, 1, 0, 0, 0, 0, 0] [0.12, 0.37, 0.11] 1. 输入人类知识,输出语义知识库的传统语义表达方法。 2. 输入自然文本,输出高维稀疏向量的传统语义表达方法。 3. 输入自然文本,输出低维连续向量的Embedding方法。
21. 基于深度学习的语义表示学习 语义学习的统计分布假设 具有相同上下文的词语,往往具有相似的语义; 具有相似语义的词语,通常具有相似的上下文。 依赖统计分布假设,深度学习应用于语义学习成为主流 从 上下文 学习 词语 语义:word2vec、GloVe 从 上下文 学习 句子 语义:BiLSTM、CNN...etc 从 上下文 学习 篇章 语义:Doc2vec、HAN...etc Duyu Tang, EMNLP 2015
22. 句子语义表示学习 • 最简单的方式:Word vector average + TF-IDF • 任意序列建模方法,都可以应用到句子建模 序列建模 句子向量 典型句子语义建模方法 • RecNN • RNN • CNN • Transformer 词序列
23. 句子语义表示学习模型 Socher, Manning, NAACL2013 Wenpeng Yin, ACL2015 Bahdanau, ICLR2015 Ashish Vaswani, 2017
24. 句子语义表示无监督学习模型 Jacob Devlin, 2018 Alec Radford, 2018 Peters, 2018
25. 任务相关的句子语义表示的优化建议 预训练模型: ELMo BERT 预训练词向量: word2vec Glove +额外特征: ELMo BERT +额外特征: 词性 ELMo
26. 语音交互中的不同理解方式 任务完成型 我要去北京 知识问答型 日常聊天型 请问您是哪天从 哪里出发? 北京是中国的首 都。 北京很好玩,可 以去爬长城。
27. 上下文对话场景下的语义理解 个性化理解及推荐 太热了啊! 理解是要凉快一点 今天温度33℃,为您打开 空调还是打开风扇? 空调吧。 好的,已经为您打开空调。 来首音乐 好的,为你推荐清凉一点 的歌曲,《很想带你…… 换我收藏的。 那播放你收藏歌曲《小苹 果》,…… 与 业 务 深 度 结 合 基于内容的提问 打通智能家居控制系统 风扇和空调都可以,所以需要确认 跨场景信息共享 温度信息的跨场景使用 长时记忆 用户的听歌历史
28. 任务完成型的交互理解 请问有没有明天从合肥到北京的航班 意图 飞机票 操作 查询 起点 城市:合肥 终点 城市:北京 日期 2018-12-22 航班业务语义框架协议
29. 任务完成型的交互理解 目标:找到一条路径作为理解结果
30. 基于深度排序学习的语义理解 每条路径 Path𝒊 ,通过下面结构计算其得分 S𝑖 。 S𝑖 优化目标: BiLSTM CNN Text BiLSTM CNN Path𝒊 𝑙𝑜𝑠𝑠 = ෍ 𝑚𝑎𝑥(0, 𝑚 − Strue + Si ) 𝑖≠true
31. 基于知识图谱的知识问答 像人一样用常识去推理 按语言学方式去理解: 姜文的弟弟是谁? 姜武。 用户问题 语义分析 推理 检索 知识图谱 相关知识 系统答案
32. 基于问答库的闲聊或问答 √ Q:姚明的老婆是谁 U:姚明他老婆是谁 用户问题 A :叶莉 句子语义匹配 问答对知识库 相似问题及答案 问答库中的问句候选 Q:姚明的老婆是谁 Q:姚明的妻子是谁 Q:黎明的老婆是谁 Q:……
33. 任务型语音对话系统中的对话管理 来源:DSTC 2016
34. 实际交互理解中的对话状态 系统回复: 请问您是何时出发? 用户: 帮我订一张 票,北京到 合肥的。 系统回复: 还是坐高铁吗? 起点 北京 起点 北京 终点 合肥 终点 合肥 日期 明天 日期 对话历史 个性化长时记忆 客户端状态 … 对话状态 用户: 明天出发 后天下午走 下周一的 大后天 明天十二点左右 …… 对话历史 个性化长时记忆 客户端状态 … 对话状态
35. 利用状态信息的交互理解 S𝑖 状态 信息 BiLSTM BiLSTM CNN CNN … 交互历史、各种其他状态 Text Path𝒊
36. 如何开发自己的语音交互应用
37. 语音交互的理想应用场景举例 声纹识别 身份个性化回答 巴布,你好.我要听故事. 发音人定制 唤醒词定制 [童声]小主人,下面给你播 放灰太狼的故事 还是看蝙蝠侠大战超人的电影吧 业务对话场景定制 这个需要付费收看哦,是否 联系爸爸确认? 好的 外部交互扩展 [启动视频通话,推送确认消息] 好,关吧 基于用户环境的个性化提示 准备播放蝙蝠侠大战超人, 要关上客厅灯吗? 外部交互扩展 [发送关灯指令给智能家居中控]
38. 开发者角度理解:语音交互典型工作流程 用户 硬件 语音 图形界面 第三方能力 服务接入 AIUI开放平台 AI能力接 入 远场拾音 语音唤醒 语音识别 语音合成 能力平台 文本 回答 结果 语义 理解 语义理解结果 业务处理结果 开放技能 能力调度 自定义技能 业务逻辑 开放问答 流程处理 自定义问答 对话管理 技能平台 交互平台 内容 内容 获取 自有内容 合作内容 自定义内容 内容平台 业务开发 技能开发 能力申请 交互 开发 调用 获取 内容提供商 开发者 内容开发
39. • 语音交互的发展历程 • 语音交互的技术难点 • 语音交互中的语音和语言技术 • 语音交互的未来发展趋势
40. 人与机器的连接无处不在 客厅 卧室 卧室阵列 厨房 餐厅 客厅中心阵列 餐厅阵列 厨房阵列 数据实时融合处理,最优设备响应用户 隐藏在环境中,感知用户的存在,并积极反馈用户的需要 分布式麦克风阵列:更大范围,真正的全方位拾音
41. 垂直领域人机交互的多模态化 各类屏幕 VR 虚拟现实 / AR 现实增强 / MR 混合增强 各种信息输入模式 辅助驾驶
42. 以人为本的个性化语音交互 身份验证: 用户是谁? 用户画像: 用户有哪些兴趣爱好? 精准理解: 用户意图是啥? 情感合成: 采用什么语气回复?
43. 总结 语音交互发展历程 • 手机app -> 按键语音 -> 远场语音 -> 全双工 -> 多模态 语音交互的技术难点 • 环境、口音;生僻词、场景用语、中英文混用;内容来源 语音交互中的语音和语言技术 • 远场、个性化的识别;句子语义表示;语义理解任务 语音交互的未来发展趋势 • 接入更方便;多模态更自然;认识用户、情感交互、…