让商业没有语言障碍 深度学习在阿里机器翻译的应用

微风

2019/03/24 发布于 技术 分类

文字内容
1. 让商业没有语⾔言障碍 —深度学习在阿⾥里里机器器翻译的应⽤用 阿⾥里里巴巴-达摩院-机器器智能实验室-翻译平台 施杨斌
3. ⼀一个⼩小故事-巴别塔 Break language barriers! 跨越语⾔言障碍! 3
4. 全球化是阿⾥里里巴巴重要战略略 全球买、全球卖、全球付、全球运、全球游 然⽽而跨境电商中 最远的鸿沟,不不是距离,⽽而是语⾔言障碍 阿⾥里里机器器翻译,让商业没有语⾔言障碍! 让天下没有难做的⽣生意! 4
5. ⾃自我介绍 11-15 11年年之前 复旦⼤大学 17-now 15-17 阿⾥里里巴巴—阿⾥里里妈妈 阿⾥里里巴巴—阿⾥里里翻译 阿⾥里里巴巴—达摩院-阿⾥里里翻译 计算机系硕⼠士 互联⽹网⼴广告业务 机器器翻译⼯工程组 机器器翻译数据平台 专业:计算机应⽤用技术 ✓⼴广告业务架构设计 ✓⾼高并发⾼高可⽤用系统搭建 ✓爬⾍虫 ✓实时⼤大数据处理理 ✓商业解决⽅方案 ✓分布式⽂文本处理理和挖掘 ✓NLP算法(18年年初) ✓领域建模、开放平台 架构 应⽤用 平台 系统 ⼯工程 建模 ⽅方案 算法 实时⼤大数据 Email:taiwu.syb@alibaba-inc.com 5
6. ⽬目录 • • 深度学习在阿⾥里里机器器翻译的应⽤用 - 机器器翻译介绍 - 深度学习在阿⾥里里机器器翻译的应⽤用 - 商品翻译场景 - 多语⾔言实时沟通场景 实践经验 - some tips 6
7. 机器器翻译的发展与介绍 Phrase-based 2014前 规则和统计机器器翻译(SMT) RNN RNN with attention 2014 2015 self-attention: Transformer 2017 神经⽹网络机器器翻译(NMT) • NMT翻译效果显著超越SMT • ⼯工业界:RNN占据主导 • 学界:Transformer已经成为新的SOTA From:Chris Manning Professor of Stanford NLP 7
8. 机器器翻译介绍(SMT与NMT) SMT ✓ 语⾔言模型 ✓ 调序模型 ✓ 短语表 Bush held a NMT(RNN+attention) talk with ✓ seq2seq ✓ Encoder Decoder Shalon Predict Bush held a talk with Sharlon Bush held a talk with Shalon 调序特征 Bush with Sharlon held a talk Decoding 翻译规则 布什什 布什 与沙⻰龙 与 举⾏行行了了会谈 沙龙 举⾏ 了 会谈 Ct 隐藏层向量量 Attention Phrase-based SMT SMT NMT 表示⽅方法 离散 连续 基本翻译过程 翻译规则 向量量转换 模型可解释性 可解释 不不可解释 词表⼤大⼩小 ⽆无限制 30-50 K 对语料料质量量要求 中 ⾼高 Encoding Embedding 布什 与 沙龙 举⾏ 了 会谈 Sequence to sequence model with attention-based RNN 8
9. 阿⾥里里机器器翻译介绍 为阿⾥里里集团40多个业务⽅方,170多个场景的跨境业务提供翻译服务 - ⾪隶属于阿⾥里里巴巴达摩院-机器器智能技术实验室-NLP实验室 团队成⽴立于2013年年,50+研发⼈人员,分布在杭州、北北京、⻄西雅图、新加坡 ⽇日均7.5亿次调⽤用,峰值qps为2万,年年处理理字符超过100万亿 ⽀支持21个语种,48个语⾔言⽅方向的翻译 ⽀支持⽂文本、语⾳音和图像翻译 WMT 2018机器器翻译⽐比赛⾃自动评测结果5个语项世界第⼀一 9
10. 机器器翻译在跨境电商的应⽤用 跨境 ⽹网站/APP 本地化 电商 语⾔言 服务 业务 价值 拉新引流 多语⾔言内容 商品翻译 跨语⾔言沟通 ⽤用户转化 到站搜索 ⽀支付物流 留留存复购 ‣ 国际化扫描 ‣ 引流词库 ‣ 语种识别 ‣ 商品详情翻译 ‣ ⽀支付 ‣ 买家众包评测 ‣ 本地化测试 ‣ 引流标题 ‣ 多语⾔言NLP ‣ 标题翻译 ‣ 物流 ‣ 跨语⾔言沟通 ‣ 应⽤用本地化 ‣ 创意⽂文案 ‣ 搜索翻译 ‣ 属性精翻 ‣ 关检务 ‣ 多语⾔言智能客 ‣ ⽹网规信息 ‣ 内容⽣生成 ‣ 多语⾔言类⽬目 ‣ 图⽚片翻译 ‣ …… ‣ …… ‣ 营销素材 ‣ …… ‣ 评论翻译 ‣ …… ‣ …… DAU ↑ 基础 能⼒力力 图⽚片⽂文字识别 UV ↑ Cost ↓ L-D ↑ D-O ↑ ‣ 效率 ↑ Cost ↓ 机器器翻译 ⼈人⼯工翻译/创作 多语⾔言NLP 电商本地化 ⽂文本⽣生成 语⾳音识别 语义标签 服 信息标准化提取 …… GMV ↑ 复购率 ↑ …… 10
11. 为什什么商品翻译很重要? ⽤用户看不不懂商品内容 然后就流失了了。。 我们需要让⽤用户能够 看懂商品信息 11
12. 怎么做好商品翻译 商品翻译对机器器翻译系统挑战很⼤大 改善标题原⽂文质量量 商品标题原⽂文复杂 - 中⽂文淘系商品标题⼤大量量修饰词堆砌 原⽂文质 量量差 不不⽌止于翻译,标题改写 新款波⻄西⽶米亚韩版⼩小清新红⾊色棉麻连⾐衣裙娃娃裙海海边度假沙滩裙夏季⼥女女装 “准合同”级翻译 对翻译质量量要求⾮非常⾼高 语⾔言形 态复杂 需要翻译的语⾔言⾮非常多,形态丰富语⾔言⾃自有特性很复杂 - 词表增⼤大,预测速度和翻译准确性 - AE的17个语种中有5个属于形态丰富语⾔言 提⾼高形态丰富语⾔言翻译质量量 ⽀支持词形预测的NMT⽹网络 翻译商⽤用化的必备能⼒力力 灵活⼲干 预机制 译⽂文⼲干预困难 - 商品核⼼心信息翻译错误容忍度很低,需要有灵活的⼲干预机制 - NMT模型训练⿊黑盒,⼲干预实现困难 NMT⼲干预能⼒力力建设 NMT⼲干预:商⽤用系统的最后⼀一道防线! 待翻译 内容多样 标题改写 各取所⻓长 待翻译内容多样化 - 标题、详情、评论、物流信息等等 - 不不同类型⽂文本内容多样 模型优化 ⼲干预能⼒力力 多模型融合 模型融合 保证机器器翻译在商品翻译场景下商⽤用化 12
13. 标题改写 业务场景:国内淘系商品铺货卖到海海外,中到多语⾔言翻译 中⽂文标题:恒源祥男⼠士短袖t桖夏季新款纯⾊色翻领休闲商务半袖体恤polo衫男装 英⽂文翻译:HengYuanXiang men's short-sleeved t-shirt summer New style Jersey Collar business Short sleeve t-shirt men's clothing # word type words translation 1 Brand 恒源祥 HengYuanXiang 2 Properties-Adjective 男⼠士短袖 Ment’s short sleeve 3 Keyword-product name T恤 T-short 4 Properties-Adjective 夏季新款 Summer/New 5 Properties-Color 纯⾊色 pure color 6 Properties-Style 翻领 long-sleeved 7 Properties-Adjective 休闲 casual 8 Properties-Adjective 商务 business 9 Properties-Adjective 半袖 short-sleeve 10 Properties-Adjective 体恤 T-shirt 11 Properties-Adjective Polo衫 Polo shirt 12 Keyword-product category 男装 恒源祥休闲商务半袖男装 HengYuanXiang casual business short-sleeve men’s clothes 问题: 1. 严重依赖于NER能⼒力力 2. 未考虑搜索引擎的影响 Men’s clothes 13
14. 融合⽤用户搜索⽇日志的标题改写算法 输⼊入输出 (A). Title Compression • 输⼊入:⻓长标题 • 输出:短标题 attention matrix (𝐴𝑇 ) 𝑎𝑇 = max_pooling(𝐴𝑇 ) (T) 训练数据 • S、T、Q 模型 •标题改写:基于pointernetwork实现的seq2seq模 型 •query⽣生成:标准NMT seq2seq模型 训练⽬目标 • 两个seq2seq的训练任务 对商品原标题的attention分 布尽量量⼀一致 甜蜜 两色 A字 娃娃裙 Sweet Two-color A-line Doll-dress (C). Agreement based loss ℒ = 𝜟(𝒂𝑻 , 𝒂𝑸 ) (S) AHU 夏季 显瘦 绑带 A字 娃娃裙 甜蜜 两色 AHU Summer Slim Straps A-line Doll-dress Sweet Two-color (Q) 𝑄 黄色 娃娃裙 A字 Q 𝑎 = max_pooling(𝐴 ) (B). Query Generation Yellow Doll-dress A-line attention matrix (𝐴Q ) AAAI 2018: “A Multi-task Learning Approach for Improving Product Title Compression with User Search Log Data” 14
15. 形态丰富语⾔言的翻译优化 形态丰富语⾔言的词形错误引起买家困惑 Different forms of the word "мяч"(ball) 格 单数 复数 主格(Nominative) мяч мячи 属格(Genitive) мяча мячей 与格(Dative) мячу мячам 宾格(Accusative) мяч мячи ⼯工具格(Instrumental) мячом мячами 介词格(Prepositional) мяче мячах 单复数错误 阴阳性错误 15
16. 怎么做好形态丰富语⾔言的翻译? 解法:词⼲干词尾分别预测的NMT⽹网络 Миллион пользовател y y stem t−1 Million users plan shopping on stem t 11.11 ей lookup Миллио пользователе планируют Vt 11.11 на покупки stem Vt suffix step1:词⼲干预测 softmax stem t O Миллио пользовате е планируют покупк 11.11 на и step2:词尾预测 stem t suffix t S Миллион пользовател планиру покупк на пользовате е ей ют и - S Ct Data sets • 训练集:WMT2017 News 5百万语料料 • 测试集:News test 2014~2016 α t ,1 RNN News2014 News2015 News2016 RNN + BPE 19.72 16.11 15.41 RNN + Character-based 20.32 17.6 15.65 RNN + Suffix Prediction 21.3 18.09 17.09 h1 α t ,m α t ,2 h2 … hm Million users plan shopping on 11.11 BLEU: 机器器翻译⾃自动评测⽅方法 AAAI 2018: “Improved English to Russian Translation by Neural Suffix Prediction” 16
17. 神经⽹网络场景下的翻译⼲干预技术 电商场景下核⼼心商品信息翻译正确⾮非常重要,错误容忍度很低 多语⾔言电商术语库 ✓ case You can pull the power rails off easily to make the breadboard as thin as 3.5cm. …… (电路路板) Можно вытянуть силовые рельсы легко, чтобы сделать хлебную доску такой же тонкой, как 3.5 см. (⾯面包案板) 七分裤 ⼩小⽶米 吊带裙 phone case capri pants XIAOMI ชุดเดรสสายเดี่ยว Funda de teléfono long sleeve tunic туника с длинным рукавом bamboo cotton ผ้าใยไผ่ …… NMT怎么融合这些外部⼲干预数据? 17
18. 神经⽹网络场景下的翻译⼲干预技术实现 I want to buy a card holder , what is the price for ship ? unconstrained NMT 我 想 买 ⼀一 个 卡 ⽀支持 , 船 的 价格 是 多少 ? 没有⼲干预的NMT 怎么通过学习去融合⼲干预数据? I want to buy a card holder , what is the price for ship ? Constraint Beam Search Decoding 专业术语 … card holder ship … Lexical Constraints 我 想 买 ⼀一 个 卡 夹 , 邮寄 的 价格 是 多少 ? 卡 夹 邮寄 卡 夹 邮寄 (a) Lexical Constraints Method I want to buy a card holder , what is the price for ship ? 我 想 买 ⼀一 个 卡 夹 , 邮寄 的 价格 是 多少 ? Pre-Processing I want to buy a , what is the price for ? NMT 我 想 买 ⼀一 个 , 的 价格 是 多少 ? Post-Processing 直接替换吗? 我 想 买 ⼀一 个 卡 夹 , 邮寄 的 价格 是 多少 ? (b) Placeholder Method I want to buy a card holder , what is the price for ship ? Pre-Processing I want to buy a 卡 夹 , what is the price for 邮寄 ? NMT 我 想 买 ⼀一 个 卡 夹 , 邮寄 的 价格 是 多少 ? (c) Our Method 18
19. 神经⽹网络场景下的翻译⼲干预技术 实验结果 已投稿:AAAI 2019: “Code-Switching for Enhancing NMT with Pre-Specified Translation” 19
20. 多模型融合的机器器翻译系统 ✦ 神经⽹网络机器器翻译 统 计 机 神经⽹网络 机器器翻译 器器 翻 译 - 商品详情 - 评论 - 沟通 翻 规 则 译 翻 记 译 忆 ✦ 规则翻译 - 数字 - 时间、⽇日期 - 单位、地址 ✦ 统计机器器翻译 - 商品标题 - 搜索词 - 属性 ✦ 翻译记忆 - 专业术语 - 精准匹配 - 模糊匹配 20
21. 从静态展示到互动沟通 商品翻译 跨语⾔言沟通 21
22. 跨语⾔言沟通 功能特⾊色 • 多语种⽀支持(中、英、俄、⻄西、泰、印尼、越南) • 智能语种识别和基于上下⽂文的原⽂文纠错 • 外贸术语精准翻译 • 译⽂文后编辑 • 多端⽀支持(PC/IOS/Android) 挑战 ⼝口语化输⼊入 多领域,数据缺乏 快速迭代优化 “擦那,今晚开玩会都 10点了了” 电商、教育、 社交。。 ⾃自动发现翻译badcase 模型快速迭代 - 原⽂文纠错 - ⼝口语归⼀一化 - 领域数据增强 - Transformer⼯工业化应⽤用 - 翻译质量量⾃自动评估 22
23. 智能纠错 对⽤用户沟通原⽂文纠错,提升翻译质量量 拼⾳音输⼊入 错别字 翻译-⽆无纠错 翻译-有纠错 不不需要xiexie(谢谢) I don’t need xiexie. I do not need it, thank you 您贵性(姓)啊 You are expensive 反轻(倾)销 Anti-light sales 术语纠错 中⽂文 翻译-有纠错 多少卢⽐比 这是我的电⼦子邮件 有Quicksilver徽标 Your name? Anti-dumping 英⽂文 翻译-⽆无纠错 怎么机械卢⽐比 拼写错误 How mech (much) rupees 同⾳音错词 Hear (Here) is my email 听到是我的电⼦子邮件 Have Quick silver logo 组合/切分 有快速的银⾊色标志 23
24. 智能纠错 基于统计的上下⽂文纠错,利利⽤用海海量量⽂文本学习的训练 训练语料料 海海量量通⽤用单语 领域内数据 qin->qing noisy channel “轻斜”->“倾斜” SMT Language n-gram Model vocabulary ⽆无监督学习 深度学习 语法纠错 监督学习 智能纠错模型 “对 原产 美国 的 进⼝口 ⾼高粱 实施 临时 反轻销 措施 …” “实施反轻销” “实施反倾销” 24
25. 数据应⽤用的优化 解法:⽤用好已有数据,充分挖掘已有数据价值 擎 部 内 部 场景数据 单语数据 源端覆盖度 引 外 单语数据 (in domain) 伪双语数据 (in domain) 引 擎 伪双语数据 (in domain) ⽬目标端流畅度 找相似 双语数据 双语数据 (in domain) fine tune 25
26. 领域数据缺失怎么办 领域数据选取 [ ] Threshold [ [ ] [ [ [ ] [ ] [ [ ] [ 薄款 ] [ 长 sentence embedding ] 袜⼦ [ [ ] [ ] [ ] 相似度排序 ······ ] [ ] ] ] 袜⼦ 场景单语 ] [ ] ] 聚类 sentence embedding 语料料库 领域数据 word embedding 男⼠夏季薄款长袜⼦ [ 长 [ ] 夏季 ] [ ] 薄款 [ ] 长 扩充训练集 [ 语义表示 ] Y Y N CNN分类 [ ] 男⼠ [ ] 夏季 [ N CNN分类 ] 薄款 Semi-surpervised CNN classifier (Boxing Chen and Fei Huang, 2016) 26
27. 如何提升模型优化迭代速度? 迭代⽬目标 • 每⽉月模型⾄至少优化⼀一次 模型训练 策略略优化 质量量评测 时间都去哪了了 • 模型训练 • ⼈人⼯工评测 线上分析 AB测试 发布部署 27
28. 模型训练提速 模型结构优化:从RNN到Transformer 问题:1.训练串串⾏行行 2.从左往右传递信息 传统的RNN模型 28
29. 模型训练提速-从RNN到Transformer Transformer模型 - 训练⾼高度并⾏行行化 - 语义捕获能⼒力力更更强 29
30. 模型训练提速-从RNN到Transformer Transformer模型(Attention is all you need) 真的好多attention啊啊啊啊! 1 3 Encoder Self-attention 2 MaskedDecoder Self-attention 3 1 Encoder-Decoder attention 2 30
31. different kinds of attention attention - 语⾔言学⻆角度:描述词与词之间的关联关系 - 机器器学习⻆角度:神经⽹网络隐层之间的相似度表示 self-attention - 句句⼦子内部词与词之间的关联关系 31
32. different kinds of attention Encoder Self-attention K softmax V Q A B C A A X B B C C QA QB QC VA VB VC KA KB KC Feed Forward A B C 32
33. different kinds of attention MaskedDncoder Self-attention new K Q a new a b new b new c V c 0 softmax 0 + a -inf 0 -inf -inf -inf b 0 0 0 -inf c 0 0 0 0 Q Qa Qb Qc V Va Vb Vc K Ka Kb Kc -inf a X b c Feed Forward a b c 33
34. different kinds of attention Encoder-Deconder attention Kenc softmax Q new new a new b Venc new c A A X B B C C Qnew Qnew a Qnew b Qnew c new new a new b new c 34
35. 模型训练提速-从RNN到Transformer - 更更加丰富语义信息的获取 - 训练⾼高度并⾏行行化 masked 35
36. 模型训练提速-从RNN到Transformer 实验结果 - 中英1200w语料料 4卡 - 训练速度和翻译质量量提升 实践:数亿语料料规模训练优化 - 多机多卡并⾏行行训练:Synchronous Adam - 显存句句⻓长限制解决:Dynamic Batching - 训练稳定性保证:Moving average - 模型鲁棒性提升:Dropout 36
37. 机器器翻译质量量⾃自动评估 如何实现⾃自⼰己给⾃自⼰己诊断? 37
38. 机器器翻译质量量⾃自动评估 • • 任务定义 - 给定⼀一对机器器翻译的原⽂文和译⽂文 - 质量量判断标准:打分或者找错误 训练数据 - 训练数据:和机器器翻译模型⼀一样的双语语料料 - 拟合数据:⼈人⼯工评测数据 38
39. 机器器翻译质量量⾃自动评估模型 1 drück Joint A)en7on the bu)on source auf target knopf Emb knopf Emb Emb Pos Emb MLP MLP MLP Encoder Self A)en7on Categorial distribu7on for the 3rd token 2 mk machine transla7on output × ! Emb Emb Emb MLP press the bu)on MLP mis-matching gap ein einen einer den … drück den knopf human features MLP MLP 3 MLP MLP MLP ZERO MLP MLP MLP × ! MLP 1 双语语⾔言模型 2 ⼈人⼯工选择的feature 3 拟合模型 MLP MLP MLP MLP MLP MLP MLP MLP MLP Emb Emb Emb Emb Forward Self A)en7on × ! Pos Emb model derived features ZERO MLP MLP MLP MLP Bi-LSTM Quality Es1mator Backward Self A)en7on Pos Emb ikmax predic7on from model prior auf Emb Con cat ena 7on press drück den drück den knopf Bilingual Expert Model 39
40. 模型强在哪? drück Joint A)en7on the bu)on source auf target knopf Emb knopf Emb Emb Pos Emb MLP MLP MLP Encoder Self A)en7on Categorial distribu7on for the 3rd token Backward Self A)en7on × ! MLP MLP MLP MLP mk machine transla7on output Emb Emb Emb MLP MLP MLP MLP press the bu)on mis-matching gap ein einen einer den … drück den knopf human features MLP MLP MLP MLP ZERO ✓ 双向attention × ! Pos Emb ikmax predic7on from model prior auf Emb Con cat ena 7on press drück den ✓ 拟合维度灵活 MLP MLP MLP MLP MLP MLP MLP MLP Emb Emb Emb Emb Forward Self A)en7on × ! Pos Emb model derived features ZERO MLP MLP MLP MLP Bi-LSTM Quality Es1mator drück den knopf Bilingual Expert Model • WMT2018 QE⽐比赛6项冠军 • 已投稿:AAAI 2019: “Bilingual Expert Can Find Translation Errors” 40
41. BERT Google:“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” Joint A)en7on BERT MLP drück den knopf Emb Emb Emb Emb Pos Emb MLP MLP Backward Self A)en7on Encoder × ! MLP MLP Emb Emb Emb MLP MLP MLP MLP press the bu)on drück MLP den MLP knopf MLP ZERO Con cat ena 7on MLP MLP × ! ELMo Pos Emb MLP MLP MLP MLP MLP MLP MLP MLP Emb Emb Emb Emb Forward Self A)en7on × ! Pos Emb ZERO MLP MLP MLP MLP - 横扫11项NLP任务 全⾯面超越⼈人类 - 双向特征获取 Masked LM - TPU ⼤大规模数据预训练 - 最强的单语语⾔言模型 MLP drück den knopf Bilingual Expert Model 最强的双语语⾔言模型 41
42. 实践经验-some tips 数据很重要,怎么⽤用好数据更更重要! 时刻关注学术界⼯工业界的最新进展 亲⾃自动⼿手代码实现 模型不不能解决所有问题,可以加⼊入⼈人⼯工 没有最好的只有有最适合的 换个⻆角度看问题 42
43. 其他介绍-语⾳音翻译 主要场景 - 会议同传 - 旅游 - 电商沟通、直播 43
44. 其他介绍-阿⾥里里云机器器翻译产品 产品⼊入⼝口:阿⾥里里云⾸首⻚页—产品—⼈人⼯工智能—⾃自然语⾔言处理理 能⼒力力 1. 通⽤用版:中英互译,适⽤用旅游和 ⼝口语 2. 电商版:英中,英俄,英⻄西,英 法和英葡的互译,在电商领域翻 译质量量有明显优势,适⽤用于电商 场景下的标题,商品描述,评价 等领域 规划 1. 持续质量量优化,更更多语项和 场景输出 2. 垂直领域翻译引擎定制能⼒力力 3. 机器器翻译产品独⽴立化 44
45. 其他介绍-“做到!”众包平台 任务⼴广场:https://www.zuodao.com CAT - 传统⽂文档翻译 能⼒力力 1. ⽂文本:多语分词&词性&中⼼心词等标 注,双语语料料寻源,各领域知识库收 集,传统⽂文本翻译。 2. 语⾳音:多语语⾳音收集、语⾳音转写与标 注、韵律律标注 ⽂文本&图⽚片 标注任务 3. 图⽚片:OCR 标注、图像语义理理解、 图⽂文相关性标注、场景图⽚片知识库建 ⽴立收集、APP多语⾔言截图测试 4. 译员:拥有全球多个语向专业译员, 平台⽇日均同时在线⼈人数达1000+,译 员响应速度为秒级 45
48. Thanks & QA 求贤若渴:NLP和机器器翻译算法、数据挖掘、Java、 ⼯工程、前端、测试、产品经理理 base地点:杭州、北北京、新加坡、⻄西雅图、俄罗斯 48