【东京大学人工智能分享会】 神经机器翻译简介及研究进展

  • 260 浏览

北极来的鲲

2018/12/29 发布于 科学 分类

【标题】神经机器翻译简介及研究进展 【内容】神经机器翻译在近几年已经基本取代了统计机器翻译。本文主要介绍基于Encoder-Decoder结构的神经机器翻译基本原理,以及它在研究领域的最新进展(以中日翻译为例)。 什么是循环深度神经网络?为何它适用于自然语言处理和神经机器翻译? 什么是Encoder-Decoder模型?如何用它来进行翻译? 目前神经机器翻译的最新进展。 神经机器翻译面临的挑战。 【主讲】张龙图

深度学习  自然语言处理  人工智能 

文字内容
1. 【东京大学人工智能分享会】 神经机器翻译简介及研究进展 首都大学东京 自然语言处理实验室(小町研) D3 张龙图 2018 年 12 月 22 日
2. 自我介绍 ● 张龙图 ○ ○ ○ ○ ○ 2007-2011 北京外国语大学英语学院英语系英语专业 BA 2011-2012 香港中文大学语言学系普通语言学专业 MA 2012-2014 香港中文大学语言学系研究助理 2014-2016 香港中文大学语言学系计算语言学专业 MPhil 2016 至今 首都大学东京自然语言处理研究室(小町研) D3 ● 小町研 ○ ○ ○ 自然言語処理 ■ 機械翻訳、対話、文書要約、言語学習支援、意味解析 ウェブマイニング ■ 情報抽出、頑健な要素技術 機械学習 ■ 深層学習、半教師あり学習
3. 什么是机器翻译 ● 研究目标:利用计算机进行自然语言的自动翻译。 ● 当前通用方法:通过机器学习的方法,在多种语言间进行书写系统的转换。 ● 例: ○ 図 3 に 2 つ の 例文 を 示 した . 图 3 所示的 是 2 个 例句 。
4. 发展历史 源语言句子 目标语言句子 语料 训 练 解码算法 语言模型 翻译模型 基于规则的翻译 (1976~) ● 狗看见了在公园里的人(?) ● 狗在公园里看见了人(?) 统计机器翻译( 1993~ ) ● 机器学习 源语言句子 目标语言句子 神经机器翻译
5. 发展历史 现在:神经机器翻译 翻译质量 IBM 模型 统计翻译 进 展神速;但 是尚有许多 问 问 亟 待解 决。 70 年代 ~ 规则翻译 年代
6. 统计机器翻译:概率驱动的机器翻译 f e 図3 图3 に 2つ 所示的 の 是 例文 を 2个 示 した 例句 . 。
7. 统计机器翻译:基于短语的机器翻译 f e 図3 に 2つ の 例文 を 示 した . 図3 に 2 つ の 例文 を 示 した . 图3 2 个例句 所示的是 。 图3 所示的是 2 个例句 。 图3 所示的 是 2个 例句 。
8. 统计机器翻译的优缺点 ● 优点 ○ ○ ○ 翻译模型内的结构和翻译过程可解释性高 运算快速 无需超大规模数据 ○ ○ ○ ○ 难以处理高维空间中的变换问题 需要人类专家设计结构、翻译过程和特征 严重数据稀疏问题 长距离依赖难以处理 ● 缺点
9. . 长距离依赖问题 か した 固有 に 図3 「会」 示 表現 を てある か 否 か を 判定する 2つ 例文 の
10. 深度学习与神经网络 Yann LeCun Yoshua Bengio Geoffrey Hinton This rather naive way of performing machine translation has quickly become competitive with the state-of-the-art, and this raises serious doubts about whether understanding a sentence requires anything like internal symbolic expressions that are manipulated by using inference rules … (LeCun et al, 2015)
11. 机器翻译方法效果对比 英国爱丁堡大学在 WMT 英德评测数据上的 BLEU 值。 NMT 2015 年结果来自蒙特 利尔大学。来源:Rico Sennrich报告和斯坦福ACL 2016 Tutorial。
12. 循环神经网络 RNN ● ● ● ● 两个问问入一个 问 问 问问出 输出 重新作 为输入 循环往复 可设计多层网络 from Colah Blog
13. 神经机器翻译:利用神经网络进行序列映射 f e 図3 图3 に 2つ 所示的 の 是 例文 を 2个 示 した 例句 . 。
14. 编码器 - 解码器框架 Seq2Seq/Encoder-Decoder f e 図3 图3 に 2つ 所示的 の 是 例文 を 2个 示 した 例句 . 。
15. RNN 神经翻译模型优缺点 ● 优点 适合处理变长现行序列 理论上可利用无限长历史信息 ○ ○ ● 缺点 ○ 难以训练:梯度消失、梯度爆炸问题
16. 长短时记忆 Long short-term memory (LSTM) ● 通过维护一个环境变量来避免梯度问题,保留更长时间的信息 ● Colah Blog
17. 基于注意力机制的神经机器翻译 f e 図3 图3 に 2つ 所示的 の 是 例文 を 2个 示 した 例句 . 。
18. 注意力的可视化 Cheng et al., 2016 Bahdanau et al., 2015
19. 注意力的优点 ● 长句子翻译 ● 翻译质量 ( Bahdanau et al., 2015 )
20. 近期研究进展 ● 语料的粒度 ○ Sub-word ( Sennrich et al., 2016, Kudo, 2018 ) Character (Colin Cherry et al,. 2018) ○ ○ 不多翻 不漏翻 ○ ● 翻译的覆盖度 ● 迁移学习 ○ ○ low-resource meta-learning ○ ○ ○ 正则 初始化 Beam Search 。。。 ● 训练方法 ● 新模型 ○ Transformer ● 利用单语数据 ○ Back-translation ● 多语言翻译 ○ GNMT/ 谷歌多语言模型 ● 多模态翻译 ○ 利用图像或声音信息 ● 无监督翻译 ○ 相似语言间
21. 关于中日神经机器翻译的研究 ● 利用中日语言中大量使用汉字的特 点 ● 拆字问问偏旁部首和笔画 问 问 问 问 问 问 ● 进行细粒度的机器翻译
22. 谢谢大家 欢迎提问