何中军 神经网络翻译技术及应用

1. 神经网络机器翻译技术及应用 何中军 百度 2018.12.8
3. • 机器翻译基本原理 • 神经网络机器翻译 • 技术挑战 • 典型应用 • 未来发展
4. Source: 机器翻译做什么? 我 在 周日 看 了 一 本 书 Target: I read a book on Sunday
5. 机器翻译挑战 – 译文选择 Source: 我 在 周日 看 了 一 本 书 I on me in at look watch read see Target: I read a book on Sunday
6. 机器翻译挑战 – 译文调序 Source: 我 在 周日 看 了 一 本 书 Target: I read a book on Sunday
7. 机器翻译挑战 – 数据稀疏 人类语言超过5000种 中英 9% 中日 中韩 中葡 中俄 中法 中德 中意 91% 中阿 中西 中泰 中文相关主要语种双语资源分布
8. 机器翻译发展历程
9. Source: Target: 基于规则的翻译 我 在 周日 看 了 一 本 书 翻译知识:人工撰写规则 专家知识 准确率高 成本高 周期长 规则冲突 I read a book on Sunday
10. Source: Target: 统计机器翻译 我 在 周日 看 了 一 本 书 翻译知识:从语料库中自动学习 数学模型 成本低 数据稀疏问题 融合专家知识 I read a book on Sunday
11. 统计机器翻译 Source: 我 在 周日 平 我去了一趟图书馆。 I went to library. 行 会议将在周日举行。 语 The meeting will be held on Sunday. 料 他在书店看了一本书。 He read a book in a book store. 单 I went to library. The meeting will be held on Sunday. 语 He read a book in a book store. 语 It is a cleverly constructed story. 料 I gave the gifts to mary … Target: I read a 看 了一 book on 本书 Sunday
12. 统计机器翻译 Source: 我 在 周日 平 我去了一趟图书馆。 I went to library. 行 会议将在周日举行。 语 The meeting will be held on Sunday. 料 他在书店看了一本书。 He read a book in a book store. 单 I went to library. The meeting will be held on Sunday. 语 He read a book in a book store. 语 It is a cleverly constructed story. 料 I gave the gifts to mary … Target: I read a 看 了一 本 书 我 I 0.5 我 me 0.3 在 周日 on Sunday 0.8 看 书 read book 0.9 … 翻译模型 p(e f ) read a -> book 0.5 read a -> TV 0.001 … 语言模型 p(e) book on m ∑ exp( λiFi ( f!, e!)) p(e! f!) = i=1 m ∑exp(∑ λiFi ( f!, e! ')) e! ' i=1 Sunday
13. Source: 编码器 神经网络机器翻译 我 在 周日 看 了 一 本 书 解码器 Target: I read a book on Sunday
14. 翻译质量评价 – 人工评价 “译事三难:信、达、雅。求其信已大难矣!顾 信矣不达,虽译犹不译也,则达尚焉。 ” - 严复 信:忠实度,译文是否忠实的表达了原文的内容 达:流利度,译文是否流畅和地道
15. 翻译质量评价 – 自动评价 基于n-gram,计算机器译文和人工译文(参考译文)的匹配程度 Source: 我在周日读了一本书。 Reference: I read a book on Sunday. System1: On Sunday, I read book. System2: I read a book on Sunday. BiLingual Evaluation Understudy (Papineni et al., 2002)
16. 机器翻译质量大幅跃升 BLEU 中英翻译 统计机器翻译 神经网络机器翻译
17. 神经网络机器翻译 为了在科学技术上尽快赶超世界发达国家,中国近年来大幅度增加了研究开发资金。 In order to catch up with the developed countries as soon as possible in science and technology, China has substantially increased research and development funds in recent years.
18. 神经网络机器翻译 – 基本原理 Source: 我 在 周日 看 了 一 本 书 双向编码 0 0 0.1 0.1 -0.1 0.2 0.3 0.1 0.2 -0.1 0 2.8 0.3 0.7 -2.6 -0.5 1.2 0.3 0.3 1 1.2 -0.2 -0.9 0.9 1.0 0.5 0.6 0.2 0 -1 -0.1 0.2 1.1 0.7 0.1 0.6 0.4 0 0 词向量表 0 0.2 -2.6 0.9 1.1 xi = EWi Wh 1.1 -0.3 1.2 -0.2 hi = φ(hi − 1, xi)
19. 神经网络机器翻译 – 基本原理 Source: 我 在 周日 看 了 一 本 书 双向编码 向量表示 Tx ∑ ci = hj j=1
20. 神经网络机器翻译 – 基本原理 Source: 我 在 周日 看 了 一 本 书 双向编码 注意力机制 Tx ∑ ci = αijhj j=1
21. 神经网络机器翻译 – 基本原理 Source: 我 在 周日 看 了 一 本 书 双向编码 注意力机制 z0 解码 u0 zi = φθ ' (ci, ui−1, z i−1)
22. 神经网络机器翻译 – 基本原理 Source: 我 在 周日 看 了 一 本 书 双向编码 注意力机制 z0 解码 u0 Target: softmax I
23. 神经网络机器翻译 – 基本原理 Source: 我 在 周日 看 了 一 本 书 双向编码 注意力机制 z0 解码 u0 Target: I read
24. 神经网络机器翻译 – SOTA
25. 神经网络机器翻译 – SOTA “Attention Is All You Need” - Vaswani et al., 2017
26. WQ WK WV 看 书
27. q1 k1 v1 WQ WK WV 看 q2 k2 v2 书
28. soft max(QK T )V dK q1 k1 v1 WQ WK WV 看 q2 k2 v2 书
29. z1 soft max(QK T )V z2 dK q1 k1 v1 WQ WK WV 看 q2 k2 v2 书
30. Multi-head z1 z2 Self Attention q1 k1 v1 WQ WK WV 看 q2 k2 v2 书
31. Add&Normalize Multi-head z1 z2 Self Attention q1 k1 v1 WQ WK WV 看 q2 k2 v2 书
32. FeedForward FeedForward Add & Normalize FeedForward Add&Normalize Multi-head z1 z2 Self Attention q1 k1 v1 WQ WK WV 看 q2 k2 v2 书
33. Encoder-1 FeedForward FeedForward Add & Normalize FeedForward Add&Normalize Multi-head z1 z2 Self Attention q1 k1 v1 WQ WK WV 看 q2 k2 v2 书
34. 神经网络机器翻译面临的挑战
35. 挑战一:漏译 Source: 最终 真 善 美 彻底 打败 了 假 恶 丑 Target: Eventually , true , good , and beauty thoroughly defeated the ugly
36. 挑战一:漏译 Source: 最终 真 善 美 彻底 打败 了 假 恶 丑 漏译与词语的熵成正相关 数据方面 Target: Eventually , true , good , and beauty thoroughly defeated the ugly “Addressing the Under-translation Problem from the Entropy Perspective ”[zhao et al., To Appear in AAAI-19]
37. Addressing the Under-translation Problem from the Entropy Perspective “Addressing the Under-translation Problem from the Entropy Perspective ”[zhao et al., To Appear in AAAI-19]
38. Addressing the Under-translation Problem from the Entropy Perspective Transformer This Work 49 8.00% Transformer This Work 48 7.00% 6.00% 47 5.00% 46 4.00% 45 NIST03 NIST04 NIST05 翻译质量 NIST06 3.00% All High-Entropy 漏译比例 “Addressing the Under-translation Problem from the Entropy Perspective ”[zhao et al., To Appear in AAAI-19]
39. 更多工作 译文长度特征 模型 “Improved Neural Machine Translation with SMT Features”[he et al., 2016] 优化Attention Cove“raMgeo-deblainsgedConveeuraraglemfoarcNheinueratlrManasclhaitnioe nTranslation”[Tu et al., 2016] 历史和未来信息 “Modeling Past and Future for Neural Machine Translation”[Zheng et al., 2018] 搜 索(解码) Coverage Penalty and Length Normalization “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”[wu et al., 2016]
40. 挑战二:数据稀疏
41. 多语言翻译 “Multi-task Learning for Multiple Language Translation”[Dong et al., 2015]
42. 多语言翻译
43. 无监督学习 Monolingual Datasets Initialization Language Modeling Back Translation “Phrase-Based & Neural Unsupervised Machine Translation”[Lample et al., 2018]
44. 更多工作 • Luong et al, Multi-task sequence to sequence learning, ICLR-2016 • Firat et al., Multi-Way, Multilingual Neural Machine Translation with a Shared Attention Mechanism,ACL-2016 • Firat et al., Zero-resource translation with multi-lingual neural machine translation, arxiv-2016 • Tobias Domhan and Felix Hieber, Using Target-side Monolingual Data for Neural Machine Translation through Multi-task Learning,EMNLP-2017 • Unsupervised Machine Translation Using Monolingual Corpora Only. Lample et al., ICLR2018. • Unsupervised Neural Machine Translation with Weight Sharing. Yang et al., ACL2018 • Back-Translation Sampling by Targeting Difficult Words in Neural Machine Translation. Fadaee and Monz., EMNLP2018. • Joint Training for Neural Machine Translation Models with Monolingual Data., Zhang et al. AAAI2018. • Dual Transfer Learning for Neural Machine Translation with Marginal Distribution Regularization. Wang et al., AAAI2018. • Zero-Resource Neural Machine Translation with Multi-Agent Communication Game. Chen et al., AAAI2018. • Triangular Architecture for Rare Language Translation. Ren et al., ACL2018.
45. 挑战三:引入知识 “Improved Neural Machine Translation with SMT Features”[he et al., 2016]
46. 挑战三:引入知识
47. 更多工作 • Tu et al., Modeling Coverage for Neural Machine Translation, ACL-2016 • Wang et al., Neural Machine Translation Advised by Statistical Machine Translation, AAAI-2017 • Li et al., Modeling Source Syntax for Neural Machine Translation, ACL-2017 • Zhang et al., Incorporating Word Reordering Knowledge into Attention-based NMT,ACL-2017 • Wu et al., Improved Neural Machine Translation with Source Syntax, IJCAI-2017 • Feng et al., Memory-augmented Neural Machine Translation, EMNLP-2017 • Wang et al., Translating Phrases in Neural Machine Translation, EMNLP-2017 • Dahlmann et al., Neural Machine Translation Leveraging Phrase-based Models in a Hybrid Search, EMNLP-2017 • Incorporating Statistical Machine Translation Word Knowledge Into Neural Machine Translation. Wang et al., TASLP2018. • Forest-Based Neural Machine Translation. Ma et al., ACL2018. • Top-down Tree Structured Decoding with Syntactic Connections for Neural Machine Translation and Parsing. Gū et al., EMNLP2018. • Dependency-to-Dependency Neural Machine Translation. Wu et al., TALSP2018. • Linguistic Knowledge-Aware Neural Machine Translation. Li et al., TALSP2018. • Search Engine Guided Neural Machine Translation. Gu et al.,AAAI2018.
48. 融合常识、世界知识 中巴 经贸 关系 得到 长足 发展 China-Pakistan China-Palestine China-Brazil China-Bahamas 中巴 经贸 关系 在 金砖 框架 下 得到 长足 发展 Economic and trade relations have made great progress under the BRIC framework.
49. 挑战四:可解释性 Source: 最终 真 善 美 彻底 打败 了 假 恶 丑 Black Box Target: Eventually , true , good , and beauty thoroughly defeated the ugly
50. Visualizing and Understanding Neural Machine Translation “Visualizing and Understanding Neural Machine Translation ”[Ding et al. ACL-2017]
51. 挑战五:语篇翻译 S1:我们加入霓虹,我们加入柔和的粉蜡色,我们使用新型材料。 S2:人们爱死这样的建筑了。 S3:我们不断的建造。 T1: We add neon and we add pastels and we use new materials. T2: People love architecture. T3: We keep building.
52. 挑战五:语篇翻译 S1:我们加入霓虹,我们加入柔和的粉蜡色,我们使用新型材料。 S2:人们爱死这样的建筑了。 S3:我们不断的建造。 T1: We add neon and we add pastels and we use new materials. T2: And you love it. T3: And we cannot give you enough of it.
53. Modeling Coherence for Discourse Neural Machine Translation “Modeling Coherence for Discourse Neural Machine Translation ”[xiong et al., To appear in AAAI-2019]
54. Discourse Level BLEU 28 27.5 27 26.5 26 25.5 25 24.5
55. 机器翻译应用
56. 与传统文化结合 – 文言文翻译 你妈喊你回家吃 爱我你饭怕了吗 土豪我们做朋友吧 汝母呼汝归食 爱吾君惧矣乎? 富贾可为吾友乎
57. 与传统文化结合 – 自动写诗 伞一不江 中曲见南 何断西烟 处桥湖雨 是人二柳 侬去月丝 家后花斜 吹东幽腊 落风香梅 梨不一开 花解缕时 雪相为独 满思哪自 天意般寒
58. 自动写诗模型
59. 与传统文化结合 – 智能春联
60. 多模翻译 视觉 语言 多模 翻译 语音
61. 同声传译
62. 同声传译 同:时间延迟小 声:语音技术 传:信息传递准 要求 译:翻译技术 技术
63. 挑战 那么大家知道这个重庄家最怕的是出现病虫害一旦就是一个病虫害出现防治不及时 的话会造成大量的这个减产
64. 挑战 那么大家知道这个重庄家最怕的是出现病虫害一旦就是一个病虫害出现防治不及时 的话会造成大量的这个减产 问题 噪声:冗余、识别错误 对策 容错翻译模型(文本归一、多维 度特征、抗噪训练)
65. 挑战 那么大家知道这个重庄家最怕的是出现病虫害,一旦就是一个病虫害出现,防治不 及时的话,会造成大量的这个减产 问题 噪声:冗余、识别错误 句读:断句、标点 对策 容错翻译模型(文本归一、多维 度特征、抗噪训练) 序列标注
66. 挑战 那么大家知道这个重庄家最怕的是出现病虫害,一旦就是一个病虫害出现,防治不 及时的话,会造成大量的这个减产 问题 噪声:冗余、识别错误 句读:断句、标点 对策 容错翻译模型(文本归一、多维 度特征、抗噪训练) 序列标注 时延:高准确与低时延的矛盾 适当预测
67. 翻译机 • Wi-Fi:80多个国家的4G网络 • 翻译:自动语言识别及翻译 • 导览:自动问答、景点导览
68. 应用 交通 餐厅
69. 买药 酒店 安检
70. 图像翻译 景点 购物 旅游 点餐
71. 机器翻译立方体
72. 机器翻译立方体 语言种类 翻译质量
73. 机器翻译立方体 终极目标 语言种类 翻译质量
74. 机器翻译立方体 终极目标 语言种类 翻译质量
75. 机器翻译立方体 终极目标 语言种类 翻译质量
76. 机器翻译立方体 终极目标 语言种类 翻译质量
77. 机器翻译立方体 终极目标 语言种类 翻译质量
78. 机器翻译立方体 终极目标 语言种类 翻译质量
79. 机器翻译立方体 终极目标 语言种类 特定领域 翻译质量
80. 机器翻译立方体 终极目标 语言种类 特定领域 翻译质量
81. 从预言到现实 有一天,当你在人民大会堂 和世界各国友人聚会的时候,你 会发现,无论哪个国家的人在台 上讲话,与会者都能从耳机里听 到自己国家的语言,同时你会发 现,在耳机里做翻译的不是人, 而是我们的“万能翻译博士”, 因为“博士”的语调不像人那样 委婉自如。 《机器翻译浅说》1964 刘涌泉、高祖舜、刘倬 将来,当你走进机器翻译出版社的时候,你会 看到,前一天刚在英国培加蒙出版社问世的科学 论著,今天已摆在“博士”的自动阅读器上了。 开动机器后,自读装置就快速地把文字变成信号 送入机器,机器便开始对送进来的信号进行加工 处理,分析综合,将原语的信号转变成译语的信 号,然后通过输出装置将译语信号改变成文字, 送到新式印刷机上自动印刷和包装。这样,一本 本的汉文译本便产生了。 此外,你到国外去旅行的时 候,随身可以携带一个半导体或 其他材料制成的小型“万能翻译 博士”。当你们跟外国朋友交谈 的时候,“博士”就能立刻给你 们译出各自国家的语言。