阿里小蜜机器阅读理解技术揭秘

  • 1902 浏览

ArchSummit

2017/12/11 发布于 技术 分类

阿里小蜜机器阅读理解技术揭秘

文字内容
1. 阿里小蜜机器阅读理解技术揭秘   张佶    算法专家   Powered  by  阿里巴巴智能服务事业部  &  IDST  
5. 阿里小蜜-双十一服务主力   95%   阿里小蜜   智能服务占比   93.1%   阿里小蜜   智能解决率   1亿   店小蜜   对话轮次  
6. TABLE  OF   CONTENTS  大  纲   •     阿里小蜜平台介绍   •  机器阅读理解技术概览   •  业务场景及技术实践   •  挑战与展望  
7. 各领域生态圈的赋能   SaaS模式   淘宝   天猫   超级小蜜   阿里生态圈   SaaS模式   万象   航旅   闲鱼   其他   PaaS模式   B2B   菜鸟   优酷   其他   行业小蜜   阿里小蜜   商家生态圈   SaaS模式   千牛   企业生态圈   SaaS模式  or  PaaS模式   钉钉   海外   阿里云   IOT   店小蜜   企业小蜜   机器人配置平台   机器人智能问答平台   机器人应用平台   Smart  KB  (智能知识库)   算法组件平台   Bot  Framework   AI  Boost   数据模型平台  
8. 产品展示   •  阿里小蜜   •  客户服务   •  导购   •  通用助理   •  闲聊   •  运营活动   •  ……  
9. 产品展示   •  店小蜜   •  通用模型:物流   •  行业模型:手机、服饰   •  自定义QA模型  
10. 产品展示   •  企业小蜜   •  完整的企业智能服务方案   •  本体知识库:企业百科式的知识库   •  预置领域包   •  多语言支持  
11. 分领域的模型支持   •  知识问答:QA  Bot   •  任务解决:Task  Bot   •  闲聊:Chat  Bot   Query+Context   意图识别   对话管理系统(DMS)   QA Bot! Task Bot! Chat Bot! IR   Knowledge   Graph   Machine   Comprehension   Slot  Filling   Bot   Framework   DRL   IR+S2S  
12. 一种常见的QA  Bot场景   •  问答的线索来自一篇文章(新闻、百科、邮件等)   •  其中包含很多的数字、地点、名称以及一些客观事实描述   •  IR方式:人工逐个添加知识点“问答对”非常耗时,  且难以穷尽所有问题,知识覆盖率低   •  知识图谱方式:图谱构建代价大、领域特点强  
13. TABLE  OF   CONTENTS  大  纲   •  阿里小蜜平台介绍   •     机器阅读理解技术概览   •  业务场景及技术实践   •  挑战与展望  
14. 机器阅读理解   •  基于深度学习技术,  将非结构化文章和问题 作为输入,  自动寻找答案   ü  不依赖外部知识库和FAQ   ü  端到端进行模型训练   ü  学术会议上最热门的关键词和任务   ü  公开数据集推动了这个领域的快速进步   Reading   Comprehension   Visualizing  the  Corpus  of  ACL  2017  Paper  Titles  
15. 公开数据集-推理型   •  推理型问答:Facebook  bAbI   ü  由人工构造的由若干简单事实形成的英文文章   ü  回答基于推理的问题   ü  20个评测任务:事实、计数、是否等   ü  数据量小:1000个训练数据、1000个测试数据  
16. 公开数据集-选择题   •  选择题:微软的MCTest   ü  真实英文儿童读物   ü  每篇150-300词   ü  要求从4个选项中选出正确答案   ü  数量较少,分160篇和500篇两种  
17. 公开数据集-完形填空   •  完形填空:DeepMind的CNN和 DailyMail数据集   ü  真实新闻数据   ü  自动标注产生   ü  要求回答被抽掉的实体,实体在文中出现过   ü  数量较大,CNN9万篇,DailyMail  22万篇  
18. 公开数据集-完形填空   •  完形填空:讯飞和哈工大的中文数据集   ü  真实新闻数据   ü  自动标注产生   ü  要求回答被抽掉的实体   ü  数量较大,共87万篇  
19. 公开数据集-SQuAD   •  可变长答案数据集:斯坦福的SQuAD   ü  答案是文章中出现的任意长度片段   ü  Wiki文章为主   ü  众包人工标注产生   ü  每个问题3人标注,  降低人工标注误差   ü  数量较大:500多篇文章,  2万多个段 落,10万个问题   ü  鼓励用自己的语言提问,增加多样性  
20. 公开数据集-DuReader   •  多任务中文数据集:百度DuReader   ü  多个任务:Description、Entity、Yes_No   ü  问题来自真实的user  query   ü  文档和答案从百度搜索和百度知道中获得   ü  答案可以不在文章中出现   ü  大型数据集:20w问题、94万文章、42万 答案  
21. TABLE  OF   CONTENTS  大  纲   •  阿里小蜜平台介绍   •  机器阅读理解技术概览   •     业务场景及技术实践   •  挑战与展望  
22. 活动规则解读场景   •  阿里小蜜活动规则解读   ü  服务双十一等线上电商活动   ü  每个活动都有活动规则文档   ü  活动频繁且生效时间短   ü  替代人工配置FAQ  
23. 业务数据集的构建   •  阿里小蜜活动规则解读   ü  采用真实问题的数据分布   ü  初始标注业务数据6.5w+   ü  构建AI  Boost数据模型闭环   新模型   (新系统)   研发工程师   评估   数据   (标注未解决问题)   人工智能训 练师   算法工程师   训练/学习   (算法)   AI  Boost数据模型闭环  
24. 基于机器阅读的问答处理流程   1   •  1.  文章片段定位   ü  针对用户问题,召回候选文档段落集合   2   ü   借助文本分类、检索或者问题模板辅助   •  2.  输入预处理   ü   格式归一,特征预计算   ü  问题及相应段落向量表征   3   ü   生成文档结构标签   4    
25. 基于机器阅读的问答处理流程   1   •  3.  在线预测服务   ü   GPU-Based  模型加载及服务驱动   2   ü   预测段落中词或符号得分   •  4.  后处理机制   ü  基于动态规划选取最佳文本短语作为输出   3   4  
26. 业务模型结构   •  Embedding  Layer   ü   问题及篇章中词向量表示   ü   RNN网络捕捉语序间依赖   •  Attention  Layer   ü   对齐问题和篇章,语义相似性计算   ü   引进注意力机制,带着问题找答案   •  Modeling  Layer   ü   Question-Aware篇章建模   ü   充分利用问题中信息   •  Output  Layer   ü   基于问题和篇章匹配预测答案位置  
27. 线上模型表现   •  阿里小蜜活动规则场景   ü  10%+的回答率情况下,准确率90%+   ü  Exact  Match  Score>78.5%   ü  F1  Score>87.8%   ü  单次在线服务调用响应时间<70ms  
28. 税务法规解读场景   •  企业小蜜税务法规解读   ü  服务于企业缴税咨询场景   ü  税法种类多且长   ü  FAQ构建代价非常大   ü  数据标注成本高  
29. 模型的场景迁移   •  税法阅读和活动规则阅读存在一定相似性   ü  都是中文,有共同的语言特性   ü  都是规则类文本,对于答案定位有一定的共性   ü  答案粒度类似,都是以句为粒度   ü  持续学习:将模型过去学到的知识运用在新的学习场景中   活动规则   税务法规   ……  
30. 模型的场景迁移   •  迁移学习的应用   ü   分层特征表达   ü   随网络层加深,面向特定任务   ü   低级语义  -->高级语义   ü   低级语义特征复用性强     ü   高级语义特征场景化强  
31. TABLE  OF   CONTENTS  大  纲   •  阿里小蜜平台介绍   •  机器阅读理解技术概览   •  业务场景及技术实践   •       挑战与展望  
32. 技术挑战   •  Pretend  to  Understand   ü   推理总结问题,如How类问题   ü   干扰性问题或者文本中干扰性文字   •  知识的运用   ü   CommonSense  Knowledge   ü   业务知识的融入   •  线上服务性能   ü   模型复杂导致计算量过大   ü   预计算模型设计   •  情感化   ü   目前回答较为生硬   ü   结合生成技术使答案更个性化和情感化    
33. 经验总结   •  数据标注时遵循真实的数据分布   •  数据回流形成闭环   •  数据质量比模型本身更重要   •  模型性能比准确率更值得关注   •  让模型不断积累过去学到过的知识,而不是每次重新训练