阿里巴巴 张佶 - 阿里小蜜中的机器阅读理解技术揭秘_部分2

谯香彤

2017/12/18 发布于 技术 分类

ArchSummit全球架构师峰会是InfoQ中国团队推出的面向高端技术管理者、架构师的技术大会,参会者中超过50%拥有8年以上的工作经验。 ArchSummit秉承“实践第一、案例为主”的原则,展示新技术在行业应用中的最新实践,技术在企业转型中的加速作用,帮助企业技术管理者、CTO、架构师做好技术选型、技术团队组建与管理,并确立技术对于产品和业务的关键作用。

文字内容
1. 公开数据集-选择题   •  选择题:微软的MCTest   ü  真实英文儿童读物   ü  每篇150-300词   ü  要求从4个选项中选出正确答案   ü  数量较少,分160篇和500篇两种  
2. 公开数据集-完形填空   •  完形填空:DeepMind的CNN和 DailyMail数据集   ü  真实新闻数据   ü  自动标注产生   ü  要求回答被抽掉的实体,实体在文中出现过   ü  数量较大,CNN9万篇,DailyMail  22万篇  
3. 公开数据集-完形填空   •  完形填空:讯飞和哈工大的中文数据集   ü  真实新闻数据   ü  自动标注产生   ü  要求回答被抽掉的实体   ü  数量较大,共87万篇  
4. 公开数据集-SQuAD   •  可变长答案数据集:斯坦福的SQuAD   ü  答案是文章中出现的任意长度片段   ü  Wiki文章为主   ü  众包人工标注产生   ü  每个问题3人标注,  降低人工标注误差   ü  数量较大:500多篇文章,  2万多个段 落,10万个问题   ü  鼓励用自己的语言提问,增加多样性  
5. 公开数据集-DuReader   •  多任务中文数据集:百度DuReader   ü  多个任务:Description、Entity、Yes_No   ü  问题来自真实的user  query   ü  文档和答案从百度搜索和百度知道中获得   ü  答案可以不在文章中出现   ü  大型数据集:20w问题、94万文章、42万 答案  
6. TABLE  OF   CONTENTS  大  纲   •  阿里小蜜平台介绍   •  机器阅读理解技术概览   •     业务场景及技术实践   •  挑战与展望  
7. 活动规则解读场景   •  阿里小蜜活动规则解读   ü  服务双十一等线上电商活动   ü  每个活动都有活动规则文档   ü  活动频繁且生效时间短   ü  替代人工配置FAQ  
8. 业务数据集的构建   •  阿里小蜜活动规则解读   ü  采用真实问题的数据分布   ü  初始标注业务数据6.5w+   ü  构建AI  Boost数据模型闭环   新模型   (新系统)   研发工程师   评估   数据   (标注未解决问题)   人工智能训 练师   算法工程师   训练/学习   (算法)   AI  Boost数据模型闭环  
9. 基于机器阅读的问答处理流程   1   •  1.  文章片段定位   ü  针对用户问题,召回候选文档段落集合   2   ü   借助文本分类、检索或者问题模板辅助   •  2.  输入预处理   ü   格式归一,特征预计算   ü  问题及相应段落向量表征   3   ü   生成文档结构标签   4    
10. 基于机器阅读的问答处理流程   1   •  3.  在线预测服务   ü   GPU-Based  模型加载及服务驱动   2   ü   预测段落中词或符号得分   •  4.  后处理机制   ü  基于动态规划选取最佳文本短语作为输出   3   4  
11. 业务模型结构   •  Embedding  Layer   ü   问题及篇章中词向量表示   ü   RNN网络捕捉语序间依赖   •  Attention  Layer   ü   对齐问题和篇章,语义相似性计算   ü   引进注意力机制,带着问题找答案   •  Modeling  Layer   ü   Question-Aware篇章建模   ü   充分利用问题中信息   •  Output  Layer   ü   基于问题和篇章匹配预测答案位置  
12. 线上模型表现   •  阿里小蜜活动规则场景   ü  10%+的回答率情况下,准确率90%+   ü  Exact  Match  Score>78.5%   ü  F1  Score>87.8%   ü  单次在线服务调用响应时间<70ms  
13. 税务法规解读场景   •  企业小蜜税务法规解读   ü  服务于企业缴税咨询场景   ü  税法种类多且长   ü  FAQ构建代价非常大   ü  数据标注成本高  
14. 模型的场景迁移   •  税法阅读和活动规则阅读存在一定相似性   ü  都是中文,有共同的语言特性   ü  都是规则类文本,对于答案定位有一定的共性   ü  答案粒度类似,都是以句为粒度   ü  持续学习:将模型过去学到的知识运用在新的学习场景中   活动规则   税务法规   ……  
15. 模型的场景迁移   •  迁移学习的应用   ü   分层特征表达   ü   随网络层加深,面向特定任务   ü   低级语义  -->高级语义   ü   低级语义特征复用性强     ü   高级语义特征场景化强  
16. TABLE  OF   CONTENTS  大  纲   •  阿里小蜜平台介绍   •  机器阅读理解技术概览   •  业务场景及技术实践   •       挑战与展望  
17. 技术挑战   •  Pretend  to  Understand   ü   推理总结问题,如How类问题   ü   干扰性问题或者文本中干扰性文字   •  知识的运用   ü   CommonSense  Knowledge   ü   业务知识的融入   •  线上服务性能   ü   模型复杂导致计算量过大   ü   预计算模型设计   •  情感化   ü   目前回答较为生硬   ü   结合生成技术使答案更个性化和情感化    
18. 经验总结   •  数据标注时遵循真实的数据分布   •  数据回流形成闭环   •  数据质量比模型本身更重要   •  模型性能比准确率更值得关注   •  让模型不断积累过去学到过的知识,而不是每次重新训练