AI大生产时代下的NLP技术创新与应用实践—忻舟

CodeWarrior

2019/11/21 发布于 技术 分类

文字内容
1. AI 大生产时代下的NLP技术创新与应用实践 忻舟 百度 自然语言处理部副总监
3. 深度学习推动人工智能进入 工业大生产阶段
4. AI 大生产平台 标准化 自动化 模块化 技术解决方案 部署与集成 云部署 定制训练 平台 边缘部署 端部署 面向垂直场景的应用技术定制化平台 AI安全 通用AI能力 深度学习 平台 语音 核心框架 算力 视觉 自然语言处理 知识图谱 工具组件 服务平台 数据
5. 01 AI大生产时代下的NLP技术应用需求洞察 02 面向产业需求的百度NLP技术应用实践
6. 01 AI大生产时代下的NLP技术应用需求洞察
7. 百度NLP技术平台通用技术调用规模趋势 (2017.Q1~2019.Q3平台日均调用量趋势图) 2017-Q1 2017-Q2 2017-Q3 2017-Q4 2018-Q1 2018-Q2 2018-Q3 2018-Q4 2019-Q1 2019-Q2 2017年初至今,NLP技术以云端API方式,不断丰富并对外开放 2019-Q3
8. 技术突破和产业需求发展给NLP技术产业应用带来了更多机会 需求广度深度的拓展 多需求多层次的开发者 需求 发展 场景化·定制化·系统化 深度学习技术的快速发展 技术 创新 NLP领域预训练模型范式的兴起 技术的进步和突破
9. NLP技术产业应用也同样面临一些挑战 数据处理 难度大 文本应用场景多且复杂,通用技术 很难满足需求 认知层技术, 具有一定的抽象性 历史数据存储形态复杂,文本处理 难度大,标注门槛高 应用场景 复杂 系统工程 实施难 技术理解 壁垒高 NLP技术产业化落地 的难点 与业务深度结合的过程中,工程 实施、效果验证面临很多难题
10. NLP技术产业应用的思考 在AI大生产时代下,百度NLP技术产业应用如何更好地发挥效用和价值: 技术应用 技术易用 深度定制 场景化·产业化 系统化·服务化 定制化·工具化
11. 百度NLP技术产业化思路演进 场景化 定制化 系统化 面向产业需求的应用平台与技术方案 场景化解决方案 NLP通用服务平台 一站式NLP开发平台 定制化NLP开发平台 专业 · 全面 · 灵活的NLP开源工具
12. 02 面向产业需求的百度NLP技术应用实践
13. 电商评论智能化方案 NLP场景化应用技术方案
14. 百度NLP技术在国美评论分析的应用 核 心 业 务 系 统 评论分析平台 业务数据 企业 大数据池 多 渠 道 评 价 差评发现 客服 门店/物流/ 针对性 预期投诉 服务质量 安装服务 产品问题 预警 360° 排行 分析 门店经营改善 业务报表逻辑 百度NLP技术 评论数据 针对性产品布局 观点挖掘 观点分类 观点抽取 情感分析 物流规划优化 客服满意度提升
15. 智能电商评论技术方案 离线挖掘 核心搭配词典 在线计算 评论搭配挖掘 评论观点抽取 观点情感分类 观点分类 模板匹配 显示语义计算 通用情感分类 训练数据生成 隐式语义计算 模型定制化 文本分类 聚类归一 观点搭配 词典 垂类评论数据 模块化 垂类评论数据 可训练 通用评论数据 低成本 平台API化
16. 核心技术:基于ERNIE和Multi-Task的观点语义计算 Output Opinion Data Task 2 : Sequence Labeling Multi-Task 观点预测:起始结束位置 NULL O 机 器 漏 水 O O O O O N O O O B O O E O Y Task 1 : CRF Classification O B O O E Y Transformer … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 主观句判断:Y/N Representation Layers 费 用 很 贵 Transformer ERNIE Embedding Layers Input Sentence Data [CLS] 打 膨 胀 螺 丝 [CLS] 怀 疑 机 器 漏 水 了 [CLS] 费 用 很 贵 ERNIE 2.0 创新Multi-Task架构 引入序列化任务 预训练技术,持续学习海量数据和知识 同时完成主观句判断和观点预测两个任务 解决了未登录观点语义计算的问题
17. 服务评分智能化,实现客户差评100%处理 全面提升国美零售服务能力 反馈智能分析 多渠道用户反馈 在线 客服 投诉 反馈 门店 评价 评论 分类 电话 投诉 在线 客服 差评 分析 观点 抽取 影响 接单 绩效 奖金 服务 预警 影响接 单派工 • 观点投诉 • 责任团队 管家 评价 • 责任人 • 派工能力 门店 吐槽 客服运营人力: 服务能力同步响应 • 奖惩结果 微信 反馈 5人 / 日 3人 / 日 负面问题处理率: 60% 100% 差评100% 得到处理 影响绩 效奖金 直接预 警师傅 售后服务师傅的差评率 : 降低 7%
18. 智能创作平台 NLP系统化应用平台
19. AI时代的内容创作存在哪些挑战 优 优质的内容 如何从海量信息中实时把握热点事件、价值信息 快 时效性要求高 如何提高创作效率,第一时间触达用户 质 高质量的写作 如何提升文章丰富度,同时避免错误 广 广泛内容需求 如何覆盖长尾、冷门内容,满足用户多样需求 智能创作是解决问题的有力工具
20. 智能创作平台:更懂你的智能创作助手 实时热点 关联丰富素材 全面的 创作辅助能力 自动创作 领先的 多模生成技术 辅助创作 数据写作 财经快讯,体育快讯、股市 … 创作前 热点发现 热词分析 事件脉络 事件检索 聚合写作 资讯/实体/事件聚合文章 创作中 文本纠错 文本审核 文章标签 文章分类 创作后 文本润色 自动摘要 标题生成 主题短语 诗词创作 ERNIE 多模创作 语言理解 语言生成 多模理解 知识图谱
21. 人民日报面临的业务与技术挑战 AI时代如何打造一支智能化“编辑团队”? 高效辅助媒体新闻生产,提升编辑生产效率 多领域内容建设 海量素材搜集 高时效、高准确 多领域信息和 知识 主流领域 主流领域 即时性分发 精准 丰富 垂类领域 编辑人力有限 更多写作灵感 高质量用户体验 个性化阅读 长尾领域 优质 … 面对海量素材信息,传统的策采、编写、分发流程正在面临挑战
22. 媒体+AI,打造人民日报智能编辑部方案 策采 采 编 人 员 编写 分发 热点发现 文本纠错 文章分类 文章标签 素材检索 自动摘要 文本审核 主题短语 持续丰富的智能创作技术 人民日报新媒体中心编辑后台 人民日报客户端 人工智能媒体实验室 客 户 端 发 文
23. 平台化效应与标杆媒体客户 2019年4月 平台正式对外开放 标 杆 媒 体 示 例 6000+ 10W+ 用户使用平台 文章累计创作 与人民日报联合成立“人工智能媒体实验室” 文本纠错 文章分类 文章标签 自动摘要 主题短语 地域识别 与央视网牵手,成就“5G+4K+AI”全媒体应用践行者 热点发现 事件脉络 文本纠错 文本审核 文章分类 文章标签 自动摘要 助力宁波晚报信息工作智能高效 内容审核平台 智能创作平台-数据写作 语音合成 智能对话与服务平台
24. ERNIE及平台化训练 NLP开发与应用平台
25. 语义表示的Pre-training & Fine-tuning 机制 大规模训练数据 预训练 (Pre-training) 小规模训练数据 参数微调(Fine-tuning) 哈尔滨 90% 积极 ___ 是黑龙江的省会,国际冰雪文化名城 哈尔滨是一个美丽的城市 反向传播 (Back Propagation) 损失函数 (Loss Function) 反向传播 (Back Propagation) 损失函数 (Loss Function)
26. 持续学习的语义理解框架:ERNIE 2.0 APPLICATION 应用任务 文本相似度 问答匹配 …… 情感分析 微调 自然语言推断 推断 CONTINUAL PRE-TRAINING 可持续预训练 任务 N …… 任务 2 任务 1 任务构建 任务 1 任务 2 任务 3 多任务预训练 …… 预训练任务 1 任务 N ERNIE Model 大数据 先验知识 预训练任务 2 预训练任务 3 …… 预训练任务 N
27. ERNIE已累计学习 13亿+ 知识 1500万篇 百科语料和词语 实体知识 10亿条 700万轮 2000万对 3亿组 网页搜索知识 人类对话数据 句子语义关系 篇章结构关系
28. ERNIE 中文效果全面领先 中文NLP任务 数据集 ERNIE-Large效果 ERNIE-Base效果 BERT-Base效果 自动问答 NLPCC-DBQA 85.8% (+5.0%) 85.3%(+4.5%) 80.8% 自然语言推断 XNLI 81.0% (+3.8%) 79.7%(+2.5%) 77.2% 情感分析 ChnSentiCorp 95.8% (+1.5%) 95.5%(+1.2%) 94.3% 文本语义相似度 LCQMC 87.9% (+0.9%) 87.9%(+0.9%) 87.0% 命名实体识别 MSRA-NER 95.0% (+2.4%) 93.8%(+1.2%) 92.6% 机器阅读理解 Dureader 64.2% (+4.7%) 61.3%(+1.8%) 59.5% 机器阅读理解 CMRC2018 71.5% (+5.2%) 69.1%(+2.8%) 66.3% 机器阅读理解 DRCD 89.0% (+4.1%) 88.0%(+3.1%) 84.9%
29. ERNIE 英文效果全面领先 英文NLP任务 数据集 ERNIE-Large效果 BERT-Large效果 XLNET-Large效果 语法判断 CoLA 65.4%(+4.8%, +1.8%) 60.6% 63.6% 情感分析 SST 96.0%(+2.8%, +0.4%) 93.2% 95.6% 语义等价判断 MRPC 89.7%(+1.7%, +0.5%) 88.0% 89.2% 文本语义相似度 STS-B 92.3%(+2.3%, +0.5%) 90.0% 91.8% 语义等价判断 QQP 92.5%(+1.2%,+0.7%) 91.3% 91.8% 自然语言推断 MNLI 89.1%(+2.5%, -0.7%) 86.6% 89.8% 自动问答 QNLI 94.3%( +2.0%,+0.4%) 92.3% 93.9% 蕴涵关系识别 RTE 85.2%(+14.8%, +1.4%) 70.4% 83.8%
30. ERNIE 助力百度内部业务快速提升效果 CTR 预估 2.7 相关性 文本润色 7.3 准确率 文本情感分类 搜索智能问答 3.6 7.0 准确率 影响面
31. ERNIE的应用范式 3 文本相似度 应用训练数据 + 任务模型 ERNIE Model 匹配 生成 分类 序列标注 1 ERNIE + 2 情感分析 4 5 微调 预测 命名实体识别 任务网络 …… 车头如何放置车牌 0.761517 前牌照怎么装 这真是惊艳世界的中国 “黑科技” 1955年,莫言出生于 高密县 积极 95% 时间:1955年 地点:高密县 人物:莫言
32. ERNIE应用案例:搜索问答识别和问答匹配 任务1:哪些用户搜索的Query是个问题? 正确率 Softmax Softmax 4.5%↑ Full connect BOW 分类任务 ERNIE Embedding Query Query 任务2:什么样的段落可以回答这个问题? Full connect Full connect BOW BOW Embedding Query 正逆序比 Cos Cos Para 相似度匹配 Full connect Full connect ERNIE ERNIE Query Para 2.42↑
33. 性能敏感场景优化方案:模型蒸馏 少量标注数据 教师模型 微调 ERNIE 应用模型 预测 训练 ERNIE TextCNN 学生模型 大规模标注数据 大规模未标注数据 应用
34. 模型蒸馏应用案例:搜索问答识别和问答匹配 小规模人工 标注数据 Softmax 2 Label propagation 海量挖掘数据 Full connect BOW Embedding 1 Fine-tune 3 Train 正确率 正逆序比 Query ERNIE 线上影响面相对 3.3%↑ 1.47↑ 7%↑ Cos 1 Fine-tune 海量点展日志 QP样本 小规模人工 标注数据 4.5%↑ 2.42↑ 2 Label propagation Full connect Full connect BOW BOW Embedding 3 Train Query Para 性能 4684倍↑
35. ERNIE套件全景图 应用层 文本分类 文本相似度 平台层 工具层 情感分析 词法分析 智能回答 信息抽取 其他应用 EasyDL(NLP定制化开发) ERNIE Fine-tuning 微调工具 ERNIE Fast-inference 预测工具 ERNIE Slim 压缩工具 ERNIE Service 向量服务器 ERNIE Domain 领域模型 ERNIE Health 医疗模型 ERNIE Finance 金融模型 ERNIE Law 法律模型 ERNIE Task 任务模型 预训练模型集 ERNIE Sim 相似度模型 ERNIE Gen 生成模型 其他任务模型 ERNIE General 通用模型 ERNIE Word 词向量 核心框架 其他领域模型 ERNIE Sent 句模型 ERNIE Doc 篇章模型 核心框架 开源链接:https://github.com/PaddlePaddle/ERNIE ERNIE Tiny 轻量级模型
36. 快速使用ERNIE训练,平台化能够提供更简单易用的方式 收集和准备 业务训练数据 准备机器资源、安装 框架和预训练模型 选择网络并完成训 练,反复调优 部署模型在不同 的业务环境 • 缺乏训练数据 • 缺乏高性能机器资源 • 缺乏网络调参经验 • 部署环境多样 • 人工标注成本高 • 安装环境仍有门槛 • 缺乏优化调整经验 • 部署耗时长 • 数据预处理流程多 满足开发者在数据、训练、调优、部署等环节的需求
37. EasyDL—面向企业提供一站式AI开发平台 NEW EasyDL经典版 EasyDL专业版 零算法基础定制高精度AI模型 支持专业、灵活开发AI模型 数据服务 图片 文本 音频 数据可视化管理 专注定制商品检测模型 模型训练 视频 图像 分类 物体 检测 图像 分割 多人标注 智能标注 EasyDL行业版 文本 分类 短文本 匹配 模型部署 视频 分类 声音 分类 AutoDL 飞桨PaddlePaddle 公有云API EasyEdge-设备端SDK AI WorkFlow引擎 Transfer Learning 商品 检测 软硬一体 本地服务器部署
38. EasyDL专业版:NLP任务的用户使用流程 数据准备 任务配置 训练部署 准备数据 任务基本信息 模型效果确认 导入数据 选择 ERNIE与网络 模型效果验证 标注数据 网络配置 模型部署 平台访问入口:https://ai.baidu.com/easydl/pro
39. 总 结 l 深度学习推动人工智能进入工业大生产阶段 l 需求革新和技术创新驱动NLP产业应用场景化、系统化、定制化 l 技术内核和业务逻辑的深度适配推动产业智能化
42. 飞桨官方公众号 百度NLP官方公众号