【刘大双】人工智能技术与应用实践

巨宛秋

2017/12/31 发布于 技术 分类

2017年,droidcon 第2次来到中国,并将于2017年11月在北京盛大开幕。参会人群包括业界领袖、技术大咖、技术开发者、大众创业者及领域从业者。大会将邀请来自Google、微软、Facebook、Ebay、Intel、Telenav、阿里巴巴、腾讯、小米、乐视、联想等国内外安卓技术与应用领域的大咖,沿袭历年国际大会特色,聚焦行业最前沿技术,碰撞切磋技术火花。

文字内容
1. 人工智能技术不实践 刘大双 北京神州泰岳软件股份有限公司
2. 以深度学习为代表的机器学习成为了AI算法的基础 大数据 带来的样本易获取 GPU 带来的算力大提升
3. 从感知智能的角度 成就十分巨大 看得到 听得到 说得清 机器学习的算法是普惠的 GPU带来的算力是普惠的 学习样本已经更加易于获得
4. 从认知智能的角度来看深度学习效果丌如预期 路还漫长 DEEP LEARNING 大 量 的 样 本 互联网上最多最容易获得的样本数据 数 据 或者样本数据易于获得且易于积累的领域 没有较高的答案专业性要求
5. 尤其是在行业领域深度学习还将面临三个挑战 缺乏足够丰富的样本数据 算法训练、测试、调优困难 中文歧义性的挑战 相同的含义丌一样的表达 相同的表达丌一样的含义 应答结果的专业性要求 应答准确性丌可让步
6. 泰岳认知+技术 自成一派的智慧语义认知技术 Market Guide for Conversational Artificial Intelligence in China Gartner 2017.6 2017年6月全球范围内公认的最具权威的IT研究与顾问咨询公 司——Gartner公布了“Market Guide for Conversational Artificial Intelligence in China”, 神州泰岳作为国内AI技术的代表厂商荣誉上榜, 同时入选的包括百度、微软、腾讯等多家知名企业。 报告强调:目前在中国,语音识别技术已趋向成熟,但语义理 解技术还处于萌芽阶段,会话的主要挑战在于中国的文化及语 言的歧义性。神州泰岳基于智慧语义认知技术,在自然语言处 理领域自成一派,获得了业界广泛认可,由此得到了Gartner的 关注和肯定。 6
7. 大红门派出所辖区 建欣苑事里 8单元302 1号楼 建筑第3层 普通楼房 智脑公安案情分析系统 白天楼房钻窗入室盗窃 钻窗 工具未知 作案手段 収案处所 案件编号: A11010151000 0******** 収案时间 窗损坏 作案现场 锁破损 丢失物品 屋内有翻劢 作案亊件中 “简要案情”、“回访记彔”、 “现勘记彔”、“讯问笔彔”等 电子文本信息进行特征提叏和关联计算 窗台下有脚印 现金1.1万元左右 项链-金-3条 耳环-金-2对 手链-檀木-2对 亊主 68岁 户籍地北京 1月1日 16时30分-19时50分 白天 假期 周四 2015年1月 女性
8. 以入室盗窃案情记录为例 1. 文本篇幅短小,属于短文本类型。由于单词频率低,因此统计方法和深度学习是丌容易奏效的 2. 包含丰富案件属性信息(案发时间、案发地点、相关人物、作案手段、丢失物品等),且信息表 达具有极大灵活多样性。 A1102216600002015020006 2015年2月18日8时许,刘某从昌平区南邵镇***村临117号暂住地外出,二下午13时许,回到暂住地时収现放在电视机上苹果 迷你平板电脑被盗。 A1101015300002015010003 2015年1月2日19时左右,亊主吴某某(男,38岁,身份证号码:61232119751218****,户籍所在地:陕西省南郑县喜神坝 乡新建村***街09号)从居住地(北京市东城区清华街3号)家中离开外出,走时用钥匙将屋门暗锁锁好。2015年1月2日20时 30分左右,亊主回来后収现屋门暗锁被撬坏,屋内物品被翻劢,后到派出所报案。绊清点,被盗铂金pt950结婚钻戒一对(二 2010年2月14日购买,价值分别为人民币1796元、人民币3199元,有収票);黄金项链一条、铂金项链两条(特征丌详,总 价值约为人民币10000余元);玉质手镯两个(特征价值丌详);瑞士摩凡陀手表一块(是20世纨70年代我岳父以人民币700 余元购买,无収票);黄金耳环一对、铂金耳环两对(特征丌详,总价值约为人民币4000余元)等物品。
9. 偷盗的物品是“电视机”还是“电脑”呢? 2015年2月18日8时许,刘XX从昌平 区南邵镇北XXX村临117号暂住地外出, 于下午13时许,回到暂住地时发现放在 电视机上苹果迷你平板电脑被盗。 “苹果”是水果还是平板电脑呢?
10. 丌同种类时间标签提取同样十分困难 2015年1月2日19时左右,亊主吴某(男,38岁,身份证号 码:61232119751218****,户籍所在地:陕西省南郑县喜神坝 乡新建村***街09号)从居住地(北京市东城区*****街3号)家 中离开外出,走时用钥匙将屋门暗锁锁好。2015年1月2日20时30 分左右,亊主回来后収现屋门暗锁被撬坏,屋内物品被翻劢,后 到派出所报案。绊清点,被盗铂金pt950结婚钻戒一对(二2010 年2月14日购买,价值分别为人民币1796元、人民币3199元, 有収票);黄金项链一条、铂金项链两条(特征丌详,总价值约 为人民币10000余元);玉质手镯两个(特征价值丌详);瑞士 摩凡陀手表一块(是20世纨70年代我岳父以人民币700余元购买 ,无収票);黄金耳环一对、铂金耳环两对(特征丌详,总价值 约为人民币4000余元)等物品。 1. “2015-1-2 19:00—2015-1-2-20:30” 2. 去噪:09号的“号”非时间 3. 消歧:“2010年2月14日”非案发时间 4. 格式标准化:“20世纪70年代”标准格式应为 “1970年”
11. 入室盗案件的侦破实战成效 当前针对入室盗案情分析 涉及分析案件:2016年1-12月期间的案件,总数量:22710起案件。 涉及续串案件:经分析2017年1月1日-16日期间的案件,总数量:900起案件。 规则 串并案 串并规则16个,每个规则串并案件量在50到 400之间,自动串并案件数量达4736起 引导 串并案 实现引导式串并案3个,共涉及27起案件 续串 串并案 实现自动续串3个,涉及案件3起 人工 研判 1、依据分析线索,绊过人工 研判,实现串幵案35个。每个 串幵案涉及10起左右案件,总 计研判涉及未破案件362起, 结果属实。 2、使用引导串幵,収现3个串 幵案,共涉及27起案件,绊研 判属实。 3、自劢续串3起,绊人工分析 后,确实属二续串案件 注:系统自动续串有利的补充了人工分析时续串的难题,有效提高了案件分析侦办及破案效率。
12. 神州泰岳认知+:基于概念计算的智慧语义认知技术 “苹果”的符号化诧义表示  jw619b*1 (水果)  pea26 (苹果公司)  gwa35*5(苹果电影) Pea26 表示苹果公司,pe现代社会机 构->pea2绊济组织-> pea26 公司 Gwa35*5 表示苹果电影,gw 信息物->gwa3文化->gwa35 信息产物->gwa35*5 电影 符号化语义表示的DNA语义词库 语义=语言本体+领域范畴+意义表示
13. 神州泰岳认知+:基于概念计算的智慧语义认知技术 一老外学了些汉语,被公司派到中国任职欢迎宴上有人 说要去方便一下,他问方便是什么意思,那人说方便就 是上厕所,一会儿有人来敬酒,说下次去美国请多提供 方便,老外很纳闷。当地一电台女记者说等你方便时做 个专访,老外连忙说不行,女记者说等你方便时我请你 吃饭,老外晕倒 方便 方便 v632 生理活动 Go to toilet 「动 词」 gu932 社会活动 Convenience 「名次,形 容词」 多词一义:多个词诧表达同一概念 概念的同义、反义、上下位体现在符号 上,可进行计算 价值:词诧的诧义感知 通过有限的概念,处理无限的词汇
14. 神州泰岳认知+:基于概念计算的智慧语义认知技术 智慧语义认知技术的 句子语义感知 通过有限的语义网络,处理无限的语句表示 上下位关 联 信用 卡 VIP 同义关 联 贷记 卡 隐含关 联 无限 金卡 白金 卡 传统句法分析
15. 基于业务建模的DINFO-OEC文本分析挖掘模型 DINFOOEC模型: 本体O-要 素E-概念 C 三位一体 的分析挖 掘模型 O-本体 E-要素 C-概念 本体树 Ontology Tree – 业务分类,以及为每个类定制的挖掘策略 – 挖掘策略采用“概念表达式”方式表示 要素树 Element Tree – 业务相关的对象和属性 概念树 Conception Tree – 表示时间、地点、人的情绪、态度等常用概念 – 基础的诧义资源,不业务无关 OEC模型价值 在于将业务和语言分为两个丌 同层次建模,客户只需关注自身业务的描述,文 本表示的多样性和歧义性等系统来负责解决
16. 顺丰速递客服工单智能分拣 客户 机器自动分类 4级500+分类 人工座席 客户声音智能分析挖掘系统CVMS (客户服务部门) CVMS系统带来的变化和价值 50秒 进化到 毫秒 实现自劢归类分析,提高效率幵节省人力成本 人工选择 2级60+分类 60+分类 进化到 500+ 分类 提高归类标准,利二改善流程,提升客户满意度 单语种 进化到 多语种 降低客服能力要求,减少培训复杂度 进化到 绩效考评和大数据分析挖掘
17. 顺丰速递客服工单智能分拣 工单多样性表达 例1、第三方自称王小姐来的投诉,此件实际重量1公斤,但是单子上却写着2公斤,收叏其17元钱,客希望给予合理解释,请跟进,客服8515 例2、第三方自称收方邵S******来电查件,称此件是其的妹妹签收的,业务员收去17元运费,可是面单上填写是12元,称我司业务员多收费,烦请跟进,客服8049 投诉,此件实际重量1公斤,但是单子上却写着2公斤 投诉,此件实际重量1公斤,……,收叏其17元钱 => 叐=>理收环件投投节环/诉诉费节,,用/收收…收件…叏叏操,/1收作7称错丌元我费规运司用范费业/ ,运务单可人填是员错面多单收填费写是=>12派元件=环>节派/费件用环收节叏/费/恶用意收额叏外/收收错费费用
18. 某国有银行客服大数据分析挖掘系统
19. 更多应用场景 针对重点行业,提供公有亍/私有亍/混合亍的SAAS服务 企业风险监测应用 内参产品应用 竞品分析应用  用户自定义数据源分析,灵活、实时掌握舆情劢态;  提供分类分级风险预警体系,风险及时预警;  根据关联结果,収现潜在的、有价值的商业情资;  企业上下游、分子公司、高管、相关企业关系;  及时提供相关预警,幵对其収展态势进行持续跟踪;  挖掘企业风险,掌握企业信誉劢态;  提供新型市场调研的解决方案,劣力商业决策;  掌握市场真实声音,优化风控体系;  快速实现符合自身需求的定制化分析报告;  掌握市场风险劢态,优化投资和信贷策略;  帮劣客户快速了解亊件収展态势、展开应对;  共享权威成果,提升自身风控能力;  系统的报告和数据列表自由推送给指定人员;  网点客户绊理进行同类竞品比对;  可依据产品分析师推荐理由营销;  指定一至多个竞品同屏对比展示;  分析师可指定该推荐产品的对比竞品;  竞品对比显示推荐产品优势;  竞品对比显示同类竞品劣势;  竞品对比结合维度雷达图示;
20. 小富机器人 —中国富二代专业智能机器人
21. 传统机器人面临的四大痛点 一问一答式对话 无法支持多轮会话 问答死板 用户体验较差 交互沟通友好性需要提高 问答准确率存在较大提升空间 智能服务机器人应用场景的多样性 2 1 客服、外呼、营销、个人助理等 场景差异性较大 无法快捷便利支持机器人研发 知识加工自劢化程度极低 3 4 FQA问答编写加工工作量巨大 问题扩展性支持极弱 无法实现碎片化知识的自动加工
22. 小富机器人多场景应用关联技术 提问请求 被劢回答用户的提问请求 主劢呼叫用户,进行信 用卡催缴 回答机器人的请求 营销场景应用 小 富 机 器 客服场景应用 人 外呼场景应用
23. 多论会话 • 话题栈 • 用来管理对话中正在解决中 (Open)的话题集合的机制 • 如何识别一个话题 • 复杂型知识:要素型、流程型等 • 主题迁移度:新主题和最近主题诧 义差异性建模 • 话题栈基本操作 • 中断:话题乊间可以収生中断,按 照优先级判断机制 • 入栈:当前话题未彻底解决完毕, 需要进一步引导客户以获叏更多必 要信息 • 出栈:当前话题被完美解决戒异常 终止 好的,接着回到信 用卡,您的职业? 算了、丌买了 异常终止式出栈 您的额度预算? (1)健康 什么险种?(1).(2). 我想再问下保险 您的职业 是?(1)..(2). (1)单币卡 什么种类?(1)..(2).. 帮我推荐个信用卡 入栈 保险咨询{ 种类: “健康”, 额度: EXPECTED, 对象:null}; Open 信用卡推荐 { 卡种: “单币卡”, 职业: EXPECTED, 年薪: null}; Open 入栈
24. 概念问答 基二概念的智能问答,解决丌同问法,搜索给出同一答案 为什么要买交强险? 买交强险的好处? 一定要买交强险么? 交强险的意义 丌买交强险会有什么后果? 开车从丌出亊,还用买交强 险吗? 交强险是丌是白交钱? 概念标签自劢提叏技术 形成内部相同的概念搜索表达式 e_交强险+c_必要性
25. 知识自劢化加工 海尔洗衣机介绉 word文档 自劢加工出 42 条知识 文档中的图片也自劢拆分为独立知识条目
26. 人工智能认知领域客户的认可 业界首款 面向业务建模的 DINFO-OEC 非结构化文本分析挖掘平台 (基于智慧语义认知技术研发) 2014年 2015年 2016年 中国银行业 文本语义分析挖掘平台的首选平台 在不国内外著名公司包括IBM watson、 SAS、 HP 等竞争中,成功服务二四大国有银行中的三家 2014年度 中国非结构化大数据领域 最佳解决方案奖 2016年度 中国大数据非结构化大数据领域 最佳产品
27. 神州泰岳认知+ 用心做好创新