搜狗语音交互技术中心 陈伟:搜狗智能语音之路

源嘉怡

2017/11/14 发布于 技术 分类

新一轮的AI浪潮推动了语音技术的高速进步,也带动了智能语音交互成为行业热点,搜狗于2016年发布了知音引擎,对外提供软硬件结合的语音交互解决方案,本次报告将和大家一起分享知音引擎中语音识别技术的演进,探讨语音产品落地的思路和解决办法。

文字内容
1. 搜狗智能语音之路搜 狗 语 音 交SA互 C技C术20中1心7 陈伟
2. 从移动互联网时代迈向智能时代 移动 时代 输入法 手机 搜索 信息 SACC2017自然 交互 知识 计算 智能 时代 知音OS 智能硬件 深智引擎 深度 信息
3. 语言是人工智能的核心 语言是思想和知识的载体 OCR/ ASR 手写识别 SACC2017语音 TTS 语言 图像生成 语音听写:ASR 语音翻译:ASR+MT +TTS 语音交互:ASR+NLU+TTS MT/ NLU 图像
4. 语音听写技术已走向实用 语音识别可以更好提升输入/记录的效率 视频字幕 直播 法院 庭审 SACC2017演讲 听写 记者 采访 识别准确率最高可达 97% 小说 写作 医疗病历 记录
5. 语音听写技术已走向实用 语音识别可以更好提升输入/记录的效率 SACC2017
6. 语音听写技术落地法院庭审 截止到8月15日 SACC2017 17个 省份 357场次 庭审 50家 法院 194场次 庭审直播
7. 语音翻译技术逐渐可用 更好服务跨语言的交流 应用场景 出国 旅行 国际 交流 演讲 同传 视频 字幕 SACC2017
8. 搜狗语音同传技术 1.Good morning Everyone 2.My name is Lei Li 3.Nice to meet you /… 语音断句 语音识别 SACC2017 机器翻译 /… 文本断句 1.大家早上好 2.我叫李磊 3.很高兴认识大家
9. 搜狗语音同传技术 SACC2017
10. 语音交互产品的不断演进 +ASR 语音输入法 SA语音C搜+C索NLU2017 +场景 手机语音 助手(Siri) 车载 可穿戴 设备 智能 家居
11. 针对刚需场景提供更自然的交互体验 机器的耳朵 要听准 搜狗输入法的 大数据+深度学习 语音 语义 SA识别C合语成音C理2解017 机器的嘴巴 要说清 机器的大脑 要听懂 搜狗搜索能力 以及垂直知识
12. 刚需场景下的语音交互产品 移动 可穿戴 车载 SACC2017 智能 家居
13. 搜狗语音深度学习规模演进 数万小时 500小时 SACC2017DNN CNN LSTM Seq2Seq >1PFlops 单卡 3TFlops 超大规模的语音数据 复杂的深度学习算法 超强的运算平台
14. 搜狗语音深度学习平台 模型 DNN CNN LSTM BLSTM CTC 训练节点 SACC2017梯度计算 训练节点 训练节点 参数分发与更新 ASGD MA BUMF ... ... ... 通讯、数据传输
15. 语音是时变+短时平稳的信号 帧长 SACC2017频率 帧移 第k帧 帧长 第k+1帧 频带能量  语音的维度 时域信号->语谱图  语音的短时平稳 历史->未来 时间
16. 语音识别整体框架 Hand-Crafted -> Trainable 端点检测 & 解码器 搜狗语音 特征提取 7x 201M F P L P CF B L P N CC A P C C SAC N CC w 声学模型 语言模型 训练 发音词典 K 语音数据 文本数据
17. 语音识别-贝叶斯公式 arg max p(w x)  arg max  p(w, q x) w wq 输出词序列 输入特征矢量 音素序列 C2017 arg max  p(x w, q)P(w, q) Cw q P(x) SA arg max  p(x q)P(q w)P(w) wq 声学模型 发音词典 语音模型
18. 基于深度神经网络的声学建模 ………… a11 1 a12 a22 2 a23 a33 3 a34 SACC2017yt htL Wl htl ht1 ………… DNN CNN RNN LSTM …. 搜 狗 搜 狗 语语音 音
19. LSTM-RNN是声学模型建模的主要结构 SACC2017
20. LSTM-RNN+双向特性 SACC2017History Future
21. LSTM-RNN+双向特性 History SACC2017 Future
22. LSTM-RNN+频域扩展 SACC2017 T-LSTM TF-LSTM
23. LSTM-RNN+多模型融合 CTC LC-BLSTM DNN CNN SACC2017 + +
24. 其他网络结构 DeepCNN SACC2017 QRNN Transformer-seq2seq
25. 复杂场景下的语音识别问题仍未解决 近场的语音听写 SACC2017 混响噪声 高噪环境下的 语音交互 空调噪声 混响噪声 风噪
26. 山东S大A哥C视C频20(1老7)
27. 如此搞笑的效果只是口音产生吗? SACC2017 语音识别: 口音、噪声、远场  语义理解: 多轮对话、纠错容错  语音交互: 全双工持续交互 单点能力 -> 系统整体能力
28. 今天天气? 今天晴转多云, 15摄氏度… 语音交互完整链路 声源定位及 波束形成 回波 消除 SACC2017多通道 语音识别 语音增强 语义理解 语音 唤醒 离/在 线识别 语音合成
29. 麦克风 阵列 扬声器 麦克风阵列技术 抑制 区域 混响 解混响 SACC2017波束形成 波束拾音区 声源定位 抑制 区域 目标语音 声源1位置 干扰噪声 回波 回声消除 声源2位置 混响 解混响
30. 基于深度学习的单通道语音增强 Noisy time-domain signal SACC2017STFT DNN feature mapping Noisy spectral features Denoised spectral features
31. SACC2017
32. WHAT IS POSSIBLE IN PRINCIPLE IS NOT ALWAYS WHAT IS SIMPLE IN PRACTICE SACC2017