厦门渊亭信息科技CEO洪万福 - 基于知识图谱的通用数据价值洞察平台

零乐湛

2017/11/14 发布于 技术 分类

在各行业大数据应用,经常需要对海量杂乱的信息进行自动结构化和知识化,形成行业图谱,为企业应用提供精准的价值服务。而这个过程目前大多是采用定制开发的方式,严重依赖开发团队。本主题重点探讨一种相对通用的行业图谱构建和分析平台。 主要分享内容包括: 1、知识图谱简介; 2、自动化(相对)构建图谱过程; 3、知识图谱分析应用;

文字内容
1. 基于知识图谱的 通用数据价值洞察平台 DataExa创始人 洪万福
2. 定义:实体及其之间的关系图。 本质:由知识组成的语义网络。 目的:让用户能够更快更简单的 发现新的信息和知识。
3. 搜索引擎、问答系统 反恐、情报分析 金融反欺诈 精准营销
4. 数据模型: 更适合复杂、互联性、低结构化的数据。 信息检索: 精确度、完整性、关联度、智能化程度 更高,互操作和用户体验更好。 分析能力:基于关系和图的分析能力更强。 更好地表征和计算这个多维的世界
5. 知识获取 知识验证 知识融合 知识图谱 知识利用
6. 互联网、移动互联网 人机交互 引擎 语义分析 推荐引擎 规则引擎 可视化构建 图谱数据 图数据库 SNS分析 机器学习 并行计算 行业数据资源 可视化适配 分析平台
7. 数据源 数据库 文本、语音 图片 视频 手段 NLP 规则引擎 机器学习 人工 知识类型 实体 属性 标签 关系
8. 命名实体识别 句法分析 文本挖掘(主题模型等) 关系提取
9. 正则表达式 /^(\w)+(\.\w+)*@(\w)+((\.\w+)+)$/ 规则引擎 if user.consumption.total>=200000 then user.type='VIP' 网页信息抽取 XPath: //div[@class=summary]/p CSS: ("div h1 a", "innerHtml") 混合 NR师从NR => {2}-老师->{1}
11. 图片相似度 图片内容解析
12. 同义词 近义词 反义词 词向量 词距离 情感度 ……
14. 实体对齐 冲突解决 实体距离 上下文特征选取 图模型 向量空间模型 排序学习方法
15. 四维分析 实体 关系 时间 空间 图分析 关系挖掘 路径提取 最短路径分析 关联度分析 出入度分析 社区发现 强连通分量 ……
16. 自然语言 王菲的前夫的女儿 图查询 m=[:] g.v(1).out('likes').in('likes').out('likes').groupCount(m) m.sort{-it.value} 内置函数 relationship(诸葛亮).depth(2).limit(20) 推理器 2016年A股主板发生的并购案
17. RDF PGM
18. Neo4j Titan Jena
20. 机器学习 Representation Learning 数学运算 order[2015-2016].sum 规则引擎 if user.consumption.total>=200000 then user.type='VIP' 自定义 亲戚关系推理器
21. 根据图谱查询结果进行可视化展示的样式适配 实体检索 关系搜索 范围搜索 精准问答 列表结果 图表展示
22. 实用的智能语义计算平台 DataExa-Sati是一个高效实用的语义 计算平台,基于自然语言处理、图存储计 算、问答系统等技术,提供一套成熟的行 业知识图谱构建体系,深度挖掘海量非结 构、半结构化数据背后隐藏的价值。 l 基于知识图谱的语义分析; l 模糊语义识别,智能关联相关内容; l 支持语境化的人机对话; l 内置丰富的查询函数,简化复杂的查询逻辑; l 查询结果输出和可视化适配,智能匹配用户最终需求; l 丰富的数据展示,可视化手段
23. 支持多源异构知识提取; 面向领域的词网和图谱自定 义管理; 快速分析数据实体在时间、 空间下的关联性和因果性; 支持中文和英文; 模糊语义识别,智能关联相 关内容; 丰富的数据展示和可视化手段; 基于图的存储和计算机制; 内置丰富的查询函数, 简化复杂的查询逻辑;
24. 应 用 语义搜索 人机对话 分析研判 行业图谱 层 知识融合 知识表征 搜索查询 逻辑推理 知 识 图 图谱管理 实体管理 关系管理 系统管理 谱 层 数据管理 集体管理 算法管理 模型管理 智 能 DataExa-NLP DataExa-Insight DataExa-Taqforge DataExa-Octopus 组 件 层 DataExa-RE DataExa-Zion DataExa-SNA DataExa-SatiCore 基 础 Hadoop Spark Tensorflow DataSet 服 务 层 图数据库 图计算 GPU CPU
28. 企业级的可视化机器(深度)学习平台 DataExa-Insight是一个简单易用的大 规模机器学习平台,通过集成行业成熟的 机器学习框架,提供可视化建模、配置化 参数、流程化操作、模板化任务等功能, 大大降低客户进行数据价值洞察的成本。 l 关注业务全局,避免价值孤岛; l 建立全景业务图谱,深度挖掘潜在价值; l 无代码、灵活的可视化建模和分析流程设计; l 强大的分布式智能计算引擎; l 包括自然语言、推理引擎、机器学习等; l 丰富的数据展示、可视化手段。
29. 支持多源异构数据集成;并 行化分布式的数据处理组件, 支持清理、替换、组合、采 样、去重、拆分等数据预处 理操作 ; 可视化和模板化的机器学习 操作,降低使用难度;提供 在线模拟功能 ; 机器学习全过程细粒度监控; 支持Spark、Tensorflow多 个机器学习深度学习(或混 合)平台; 支持YARN、Mesos、GPU 等计算集群; 多类型的机器学习服务发布 组件; 超细粒度的配置化算子;提 供多个分类、聚类、回归、 主题模型、推荐算法,同时 支持前沿的深度学习、在线 学习、贝叶斯推荐等算法 ; 细粒度的权限体系和安全审 核控制;
30. 应 用 数据维护 业务建模 模型训练 模型使用 层 数 可视化建模 参数配置 评估模拟 服务发布 据 智 项目管理 流程管理 调度管理 系统管理 能 层 数据管理 集群管理 算法管理 模型管理 基 础 Hadoop Spark Tensorflow NLP 服 务 Storage CPU 层 GPU FPGA
31. 宇宙的本质是计算。 感谢观看,敬请指导!