AiCon 全球人工智能与机器学习技术大会

图数据库引擎助⼒力力AI下⼀个变⾰

1. 图数据库引擎助⼒力力AI下⼀一个变⾰革 释放互联数据⼒力力量量,更更深度的洞洞察⼒力力和更更有价值的结果 乌明捷 TigerGraph 中国 rwu@tigergraph.com
2. • ⼈人⼯工智能和图数据库 • ⼈人⼯工智能-机器器学习⾯面临的挑战 • 机器器学习结合图数据库 • 实例例分析 • ⼩小结
3. 2018 技术市场的两个热点 ⼈人⼯工智能 • • • 具备强⼤大的“”预测“”和“智能”能⼒力力的系统, ⾼高速发展,离成熟⼴广泛应⽤用仍有距离 图数据库 - Graph Database • • ⼀一种新的,令⼈人兴奋的⽅方式来存储、表示 信息并进⾏行行查询 ⾼高速发展,⾏行行业标准还未统⼀一
4. ⼈人⼯工智能与机器器学习
5. • ⼈人⼯工智能和图数据库 • ⼈人⼯工智能-机器器学习⾯面临的挑战 + 图数据库 • 机器器学习结合图数据库 • 实例例分析 • ⼩小结
6. 推动⼈人⼯工智能-机器器学习发展三⼤大关键要素 据 瓶颈? 算 ⼒力力 算法 数
7. 三⼤大关键要素 - 数据 瓶颈? 算法 据 数 ⼒力力 算 • 海海量量数据,时刻增⻓长 • 数据相互关联 • 数据⾃自带语义 • 获取更更容易易,查询缓慢
8. 图模型 – 描述世界关联最⾃自然的模型 • 数据关联的最⾃自然的表达模型 • 从表关联到边的跳跃(Hop) • 多维度 vs 不不同类型的边 • 最⾃自然的计算模型 © 2018 TigerGraph. All Rights Reserved
9. 三⼤大关键要素 - 算法 瓶颈? 算法 据 数 ⼒力力 算 • 演化⽇日益复杂 • 关注数据相关性 • 关注对象特征 • 对于数据获取有依赖性
10. 图数据库典型算法 关联分析 ⼦子图发现 模式匹配 社区发现 越来越多的图数据库可以提供标准图形算法库,⽤用于发现图的特征 如:PageRank,社区检测,中⼼心度分析,最短路路径,标签传递等
11. 三⼤大关键要素 - 算⼒力力 瓶颈? 算 ⼒力力 算法 据 数 • 计算复杂度膨胀 • 计算结果实时返回 • 计算层级深度不不断增加
12. 图数据计算效率的优势 效率不不随数据量量扩张⽽而线性下降 跨维度(不不同类型点、边)的计算⽅方式 ⾃自然的适应并⾏行行计算
13. ⼤大数据、机器器学习和图 为什什么没有⼴广泛应⽤用? • ⽀支持的数据规模有限 • 缺乏实时数据处理理能⼒力力 • 能够快速学习,充分发挥图计算模型的开发语⾔言 • 计算的深度只有2-3层
14. 释放互联数据的⼒量 更深度的洞察⼒和更有价值的结果 历经5年年研发,2017年年正式推出1.0版本
15. TigerGraph公司 总部在硅⾕谷红⽊木城 北北京,上海海分公司 •TigerGraph 公司创始⼈人,CEO 30+ ⼯工程师, •美国加州⼤大学计算机技术与科学博⼠士 ⼀一半博⼠士学位 •曾任Twiiter公司⼤大数据架构总监; 15 个专利利 •曾任TeraData公司⼤大数据架构总监; ⾸首个原⽣生、分布式、并⾏行行图数据库
16. • ⼈人⼯工智能和图数据库 • ⼈人⼯工智能-机器器学习⾯面临的挑战 • 机器器学习结合图数据库 - TigerGraph • 实例例分析 • ⼩小结
17. • ⽀支持数据规模: • 千亿级别顶点 • 万亿级别边 据 数 • 实时数据处理理能⼒力力: 算法 • 百万条记录/秒实时更更新 • 0.01秒单次查询相应速度 G-SQL • 图灵完备 • 开源算法库 ⼒力力 算 并⾏行行计算 • 3 - 10+度实时分析 • ⽀支持复杂的计算和机器器学习算法
19. 数据准备 - 数据加载性能 https://www.tigergraph.com.cn/wp-content/uploads/2018/08/Benchmark_zh-1.pdf
20. TigerGraph 2.0 ⽀支持分布式部署及并⾏行行计算
21. 开源GSQL图算法库 算法均⽤用GSQL实现,通过RESTful API直接调⽤用 类SQL语⾔言 可视化交互界⾯面 https://github.com/tigergraph/ecosys
22. ⾼高性能并⾏行行计算 - 累加器器(Accum) TigerGraph 特有机制 TigerGraph 图数据库查询语⾔言中独特⼜又重要的特性 实时 遍历+计算同时进⾏行行 在进⾏行行图遍历的同时可以执⾏行行⾃自定义的复杂计算逻辑(函数) 真正并⾏行行架构 原⽣生⽀支持多条路路径并⾏行行执⾏行行函数(也可以是⼦子查询) 灵活算法⽀支持 多个基于起点-边-终点的函数组合成复杂图或者机器器学习算法
23. ⾼高性能并⾏行行计算测试 两度查询 三度查询 https://www.tigergraph.com.cn/wp-content/uploads/2018/08/Benchmark_zh-1.pdf
24. • ⼈人⼯工智能和图数据库 • ⼈人⼯工智能-机器器学习⾯面临的挑战 • 机器器学习结合图数据库 • 实例例分析 • ⼩小结
25. 机器器学习交互流程 数据准备 抽取特征 训练模型 评估模型
26. 机器器学习和图数据库 - 数据准备 机器器学习(ML) 图数据库 • 希望数据为⽮矢量量,数组或张量量 • 将数据存储为节点和边。 • 计算密集型; 漫⻓长⽽而耗时 • 边(链接)是数据对象。 • 需要⾼高质量量的输⼊入数据 • 所有都是好的存储数据 • 多种⽅方法可供选择 • 灵活的分析能⼒力力 •
27. 机器器学习 对于特征和属性的应⽤用 ⼏几乎所有的机器器学习的都会⽤用到⽬目标对象相关特征的关联 • 特征 1 特征 2 特征 3 Result 对象 1 X 0 0 X 对象 2 X X 0 0 对象 3 X 0 X ? 挑战: • 再进⼀一步: 机器器学习模型的质量量依赖于特征的质量量 • 在建⽴立模型的时候: • 如何获取正确的特征 • 哪些特征是需要的? • 如何获取正确的分布的值和结果 • 是否会影响模型效率?
28. 案例例:基于图数据库的反洗钱⽅方案 5th 度 1st 度 传统反洗钱⽅方案 告警被识别为低⻛风险(Low AML)交易易 • 客户为新客户 • ⽆无交易易历史 • ⽆无历史的告警 SAR • 不不在⾼高⻛风险地区 2nd 度 3rd 度 基于图数据库智能反洗钱⽅方案 通过多度分析,告警被升级为⾼高⻛风险 • 客户电话与已知有SAR告警相关 • 同时分析地址、电话、职业等 • 分析之前并不不指定特定参与的属性 • 分析深度达到 5 度 (Hop) 4th 度
29. 图数据库增强的智能反洗钱⼯工作流程
30. 深度 实时 关联 机器器学习的智能演进 更更深⼊入地寻找新的⻅见解 及时洞洞察及反应 捕捉商业契机 • 每多⼀一度,指数级知识增⻓长 • 防范⻛风险 • 增⻓长业务 • 示例例:社交⽹网络 • 示例例:薅⽺羊⽑毛,反欺诈 • 示例例: 产品推荐,兴趣⾏行行为捕捉
31. 基于图特性和机器器学习 提⾼高欺诈侦测准确性 普通⽤用户 恶作剧者 ⽤用户甲 ⽤用户⼄乙 欺诈者 ⽤用户丙 销售⼈人员 ⽤用户丁 SIM卡使⽤用时间 2周 4周 3周 2 周 单项通话⽐比例例 50% 10% 55% 60% 被拒接⽐比例例 40% 5% 28% 25% 疑似欺诈者 普通⽤用户 疑似欺诈者 疑似欺诈者 稳定组 是 是 否 否 许多组内关联 否 是 否 是 三朋友关系环链 否 是 否 是 疑似恶作剧者 普通⽤用户 疑似欺诈者 疑似销售⼈人员 机器器学习根据历史记录预测的结果 机器器学习根据图特性深度链接分析预测 结果 31
32. 运营商 - 通过分析⽹网络或图形关系特征来检测电话欺诈⾏行行为 Phone 1 Features • 夜间对数据进⾏行行批量量计算 (1) (2) (3) (4) High call back phone Stable group Long term phone Many in-group connections (5) 3-step friend relation • 实时通话检测反馈为分钟级 • 10-20个常⽤用特征 • 特征通常为预先计算后存储 Training Data Phone 2 Features • 实时更更新呼叫记录 (1) Short term call duration • 分析4.6亿部⼿手机、100亿次呼叫和上千次新 (2) Empty stable group 呼叫,检测反馈达到秒级 (3) No call back phone (4) Many rejected calls (5) Avg. distance > 3 训练模型 • 创建超过118项特征 • 实时对通话双⽅方的2-5度关联属性进⾏行行计 算,提交机器器学习模型
33. 在线电商 实时推荐- 对客户⾏行行为特征进⾏行行个性化⽣生成 Convenience Effort/DIY Variety 使⽤用设备 购买记录 Sensory 关注特征 兴趣 ⼩小明 社交 漫画超级英雄 浏览及搜索 历史 媒体 所在地址 互动 ⼩小红
34. Graph analysis is possibly the single most effective competitive differentiator for organizations pursuing data-driven operations and decisions after the design of data capture.” 对于已经准备好了了数据之后,追求以数据驱动进⾏行行操作和决 策的组织⽽而⾔言,基于图结构的数据分析可能是唯⼀一最有效和 具有竞争差异性的解决⽅方案。
35. TigerGraph图数据计算平台 实时的强劲性能 深度多步分析 对于触及到千万级节点和边的查询不不到1秒钟 3步到10多步的深度关系查询并且进⾏行行复杂的计算 事务型图数据库 (增删改查) 敏敏感数据隐私保护 每秒⼗十万多的更更新,每天⼗十亿级的交易易 基于⽤用户的⻆角⾊色、部⻔门或公司组织控制对敏敏感数 据的访问权限 ⾼高可扩展性对于巨⼤大数据集的⽀支持 千亿个节点,⼀一万亿条边 易易于开发和部署 轻松使⽤用查询语⾔言(GSQL)开发并且⽤用使⽤用RESTful 接⼝口轻松部署复杂的分析
36. ⼩小结 据 数 机器器学习 算 ⼒力力 算法 Innovate with
37. http://docs.tigergraph.com.cn https://www.tigergraph.com.cn/developer/ © 2018 TigerGraph. All Rights Reserved

相关幻灯片