人机交互式机器翻译研究及应用

微风

2019/03/24 发布于 技术 分类

文字内容
1. 人机交互式机器翻译研究与应用 黄国平 腾讯AI Lab 高级研究员
3. 黄国平 @翻译驴 • 博士:中国科学院自动化研究所 • 模式识别国家重点实验室 • 机器翻译方向硕博连读 • 学位论文《人机交互式机器翻译研究与实现》 • 现在:腾讯AI Lab • 高级研究员 • 人机交互式机器翻译研究方向 • 总体负责独立产品“腾讯XX”(将上线)
4. • 机器翻译现状简介 • 翻译需求与人工翻译行业 • 人机交互式机器翻译技术 • 人机交互式机器翻译应用 • 人工智能落地的一些思考
5. 机器翻译现状简介 藕 花 深 处 田 田 叶 叶 上 初 生 并 蒂 莲
6. 机器翻译现状简介
7. 机器翻译通行框架 编码器 这 是 成功 的 秘诀 This is the secret of success 机器翻译“编码器-解码器”结构 解码器
8. 机器翻译通行框架 这 是 成功 的 秘诀 注意力 模型 This is the 采用注意力机制的机器翻译 ?
9. 机器翻译通行框架 这 是 成功 的 秘诀 注意力 模型 This is the 采用注意力机制的机器翻译 ?
10. State-of-the-art: 基于Transformer的机器翻译 secret ? ? Linear & Softmax Add & Norm Feed Forward 编码器 Add & Norm N╳ Feed Forward Add & Norm Multi-Head Attention 解码器 Add & Norm Multi-Head Attention N╳ Masked Multi-Head Attention 位置编码 位置编码 这 是 成功 的 秘诀 This is the 参考文献: Attention is all you need
11. State-of-the-art: 基于Transformer的机器翻译
12. 机器翻译的训练 初始参数 模型 应用 解码 新参数 逐词解码Batch 如果有变化 计算损失 如果收敛 最终参数 最终优化目标:自动译文与参考译文的相似度
13. 机器翻译的困难 • 自然语言中普遍存在的歧义和未知现象 • • • 翻译不仅仅是字符串的转换 • • 青梅竹马/高山流水/江湖/印堂发黑/欲练神功,必先自宫/一饮一啄饱蘸苦辣酸甜/面子/ 阳春白雪/下里巴人/你妈叫你回家吃饭了 翻译的解不唯一,而且始终存在人为的标准 • • 南京市长江大桥/休假式治疗/维修性拆除/节操碎了一地/屌丝/囧 青梅竹马/贱人就是矫情/驾……驾……/我去年买了个表 这也是翻译专业的同学需要面对的问题 有的翻译穷其一生 • 最是那一低头的温柔,像一朵水莲花不胜凉风的娇羞
14. • 机器翻译现状简介 • 翻译需求与人工翻译行业 • 人机交互式机器翻译技术 • 人机交互式机器翻译应用 • 人工智能落地的一些思考
15. 翻译需求与人工翻译行业 主战场在欧洲和北美洲 最大增速在非洲 国内主要语种是中译英 利润主要在于大量外单
16. 翻译需求与人工翻译行业 独角兽不独 充分多样性
17. 翻译需求与人工翻译行业 US$ M 490 471 300 100
18. 翻译需求与人工翻译行业 笔译为主 技术介入口译较少 机译份额较小,但快速增长
19. 翻译需求与人工翻译行业 10人以内团队为绝大多数 需要工具却无力支付正版
20. • 机器翻译现状简介 • 翻译需求与人工翻译行业 • 人机交互式机器翻译技术 • 人机交互式机器翻译应用 • 人工智能落地的一些思考
21. 人机交互式机器翻译技术 全自动输出翻译结果 人机交互输出翻译结果 无法保证译文质量 接受用户提供译文干预 及时学习用户修改反馈 实时提供翻译辅助信息
22. 人机交互式机器翻译技术 人 工 翻 译 参 与 程 度 翻译输入法 交互式机器翻译 译后编辑 翻译质量自动评估 自动翻译质量
23. 人机交互式机器翻译技术 • 整句更新 • 片断提示 • 翻译输入法 • 在线学习 • 语义理解 • 快速解码 机器翻译在翻译中的角色
24. 人机交互式机器翻译技术 ——译后编辑 源文句子: At the meeting on UN Operational Activities for Development, Wang also stressed that developed countries should bear the primary responsibility for financing for development. 机器翻译: 联合国发展业务活动的一次会议上,王汉斌还强调,发达国家应发展筹资问题负有主要责 任。 Quality Estimation 稍加编辑 最终译文: 在联合国发展业务活动的会议上,王还强调,发达国家在发展筹资问题上应负主要责任。
25. 人机交互式机器翻译技术 ——交互式机器翻译 源文句子: At the meeting on UN Operational Activities for Development, Wang also stressed that developed countries should bear the primary responsibility for financing for development. 人工输入部分: 在联合国发展业务活动的 交互式机器翻译: 在联合国发展业务活动的 一次会议上,王汉斌还强调,发达国家应发展筹 资问题负有主要责任。 最终译文: 在联合国发展业务活动的会议上,王还强调,发达国家在发展筹资问题上应负主要责任。 反复交互
26. 人机交互式机器翻译研究 ——约束解码方法 约束自动译文的生成
27. 人机交互式机器翻译研究 ——约束解码方法 硬约束: Grid Beam Search 翻译质量对比(BLEU) 改进后的软约束 翻译速度对比
28. 人机交互式机器翻译技术 ——翻译输入法 源文句子: China mulls change to officials’ welfare system 最终译文: 中国考虑改革公务员福利制度 谷歌输入法 微软输入法
29. 拼音输入法 拼音 汉字
30. 拼音输入法 音字转换概率 字音转换概率 语言模型概率 输入历史
31. 人机交互式机器翻译技术 ——翻译输入法 音字转换概率 字音转换概率 语言模型概率 输入历史 翻译概率 翻译规则 翻译假设
32. 人机交互式机器翻译技术 ——翻译输入法 源文句子: China mulls change to officials’ welfare system 最终译文: 中国考虑改革公务员福利制度
33. 人机交互式机器翻译研究 ——在线学习方法 及时学习用户修改反馈
34. 人机交互式机器翻译研究 ——在线学习方法 基于随机森林的在线翻译模型
35. 人机交互式机器翻译研究 ——在线学习方法 基于随机森林的在线翻译模型
36. 人机交互式机器翻译研究 ——在线学习方法 基于随机森林的在线翻译模型
37. 人机交互式机器翻译研究 ——翻译记忆 复用人工翻译结果
38. 人机交互式机器翻译研究 ——翻译记忆 融合翻译记忆的NMT(Transformer) 翻译质量对比(BLEU)
39. • 机器翻译现状简介 • 翻译需求与人工翻译行业 • 人机交互式机器翻译技术 • 人机交互式机器翻译应用 • 人工智能落地的一些思考
40. 人机交互式机器翻译在腾讯 开放AI能力,赋能合作伙伴 公司内产品落地 同声传译 拍照翻译 辅助翻译 +语音识别 +OCR +人机交互 机器翻译技术
41. 人机交互式机器翻译应用
42. 人机交互式机器翻译应用 Demo
43. 人机交互式机器翻译应用 Demo
44. 如何构建人机交互翻译系统? • 明确的需求 • • 最相关的语料 • • 语种、领域、用途、业务系统接口 200万句对以上 集成可用的state-of-the-art技术 • 输入法、术语抽取、翻译片段挖掘等 • 调试GPU集群、并行加速训练 • 部署上线并迭代
45. 难点在哪里? • 对自动译文质量过高的期望 • 开源系统的坑远比计划的多 • 如何甄别并且集成最新技术 • 如何拉通目标场景技术链条
46. • 机器翻译现状简介 • 翻译需求与人工翻译行业 • 人机交互式机器翻译技术 • 人机交互式机器翻译应用 • 人工智能落地的一些思考
47. 人工智能落地的一些思考 • “调参大师”、“论文机器”与“代码工匠” • “数据鸿沟”与“工程壁垒” • “人工智能产品”与“用人工智能的产品”