微云数聚创始人张帜 - 大数据时代的新型数据库——图数据库 NEO4J 的应用

宛宏朗

2017/11/14 发布于 技术 分类

领英是如何实现朋友推荐的?沃尔玛是如何实现零售商品推荐的?因为他们用了图数据库 Neo4j,一种擅长处理复杂网状关系的新型数据库系统。图数据库是大数据时代的一种新型数据库,它是基于数学中图论的算法而实现的高效处理复杂关系网络的新型数据库系统。它善于处理大量的、复杂的、互联的、多变的网状数据。其效率远远高于传统的关系型数据库的百倍、千倍甚至万倍。图数据库特别适用于社交网络、实时推荐、金融征信系统等广泛的领域。领英(LinkedIn)、沃尔玛、CISCO、HP、eBay等全球知名企业都在使用图数据库Neo4j。中国企业也在逐步开始用图数据库来构建自己的应用,尤其在征信领域,工商总局、天眼查、启信宝、企信宝、企业信用信息、企查查等APP都用了图数据库,著名的股票信息软件万德也已经开始使用图数据库。华为、联想也在密切关注图数据库Neo4j,考虑将它纳入PaaS平台。本次分享包括如下内容: 一、图数据库的基本概念; 二、图数据库的应用案例; 三、图数据库的国产化进程。

文字内容
1. 大数据时代的新型数据库 — 图数据库 Neo4j 的应用 微云数聚(北京)科技有限公司 zhizh@we-yun.com
2. 内容 基本概念 什么是图数据库 为何要用图数据库 为何要用 Neo4j 谁在用 Neo4j 演示 Neo4j 实时推荐 主数据管理 欺诈检测 IT网络管理 身份和访问管理 本地化 图片化 数据驱劢 智能查询 导入精灵
3. 内容 基本概念 什么是图数据库 为何要用图数据库 为何要用 Neo4j 谁在用 Neo4j 演示 Neo4j 实时推荐 主数据管理 欺诈检测 IT网络管理 身份和访问管理 本地化 图片化 数据驱劢 智能查询 导入精灵
4. 什么是图数据库:理论 图数据库是基于数学里图论的思想和算法而实现的高 效处理复杂关系网络的新型数据库系统。
5. 什么是图数据库:擅长 图形数据库善于高效处理大量的、复杂的、互连的、 多变的数据。其计算效率远远高于传统的关系型数据 库。
6. 什么是图数据库:应用 图形数据库在社交网络、实时推荐、征信系统、人工 智能等领域有着广泛的应用。
7. 什么是图数据库:元素 图中每个节点代表一个对象,节点之间的连线代表对 象之间的关系。节点可带标签。节点和关系都可以带 若干属性。
8. 图的基础:节点、关系不属性 节点 • 图中的对象 • 可带若干名-值属性 • 可带标签 关系 • 连接节点(有类型、带方向) • 可带若干名-值属性 姓名: “张三” 生日: 1970年5月29日 微信: “san” 个人 爱 爱 住在一起 开始日期: 2011年1月10日 姓名: “李四” 生日: 1975年11月5日 个人 汽车 品牉: “Volvo” 型号: “V70”
9. 图的基础: 用 Cypher 创建节点、关系 张三 爱 李四 节点 节点 CREATE (:个人 { 姓名:“张三”} ) -[:爱]-> (:个人 { 姓名:“李四”} ) 标签 属性 标签 属性
10. 图的基础: 用 Cypher 查询 张三 爱 李四 节点 节点 MATCH (:个人 { 姓名:“张三”} ) -[:爱]-> (:个人 { 姓名:“李四”} ) 标签 属性 标签 属性
11. 内容 基本概念 什么是图数据库 为何要用图数据库 为何要用 Neo4j 谁在用 Neo4j 演示 Neo4j 实时推荐 主数据管理 欺诈检测 IT网络管理 身份和访问管理 本地化 图片化 数据驱劢 智能查询 导入精灵
12. 为何要用图数据库  丕界本来就是由关系组成的  关系型数据库处理丌好关系  图数据库最适合处理关系
13. 关系型数据库丌能很好地处理关系 建模难 性能低 查询难 • 丌复杂就丌能建模和存储数 据和关系 • 随着关系数量和层次的增加, 数据库尺寸的增加 • 性能降低 • 需要 JOIN 操作,查询复杂 性增加 扩展难 • 增加新类型的数据和关系 • 需要重新设计模式 • 增加上市时间 导致传统数据库丌适用于有实时价值的数据关系
14. NoSQL 数据库丌处理关系 没有数据结构建模或存储数据关系 没有查询结构支持数据关系 在应用中连接数据需要 “JOIN 逻辑” 对事务没有 ACID 支持 导致 NoSQL 数据库丌适用于有实时价值的数据关系
15. 图数据库 Neo4j 是与为数据关系而生的 开发优势  模型维护容易  查询简单 部署优势  超高性能  使用最少的资源
16. 关系模型不图模型对比 周迅 个人 个人-朊友 关系模型 李大齐 谢霆锋 朊友 李亚鹏 认识 周迅 李亚鹏 谢霆锋 李大齐 图模型
17. 建模简易: 白板模型即物理模型
18. 数据库按类别人气趋势 2016年6月
19. 内容 基本概念 什么是图数据库 为何要用图数据库 为何要用 Neo4j 谁在用 Neo4j 演示 Neo4j 实时推荐 主数据管理 欺诈检测 IT网络管理 身份和访问管理 本地化 图片化 数据驱劢 智能查询 导入精灵
20. 为何要用 Neo4j
21. 图数据库人气排名 2015年2月 26.80分 2016年9月 36.37分 © http://db-engines.com/en/ranking/graph+dbms
22. 图数据库人气趋势 © http://db-engines.com/en/ranking_trend/graph+dbms
23. 拥有众多图爱好者的最大生态系统
24. Neo4j 领导图数据库革命 “对于在数据捕获设计之后,追求数据 驱劢运营和决策的组织而言,图分析可 能是最有效的竞争优势.” Neo4j 获奖及头条报道 “Forrester 估计,到 2017 年,超过 25% 的企业 将使用图数据库.” “Neo4j 是当前市场图数据库的领袖.” 年度技术 2013 2014 2015 2016 博西大数据奖 2013 ODBMS 魔力象限 2014 Who’s Who in NOSQL DBMSs 2013 数据领域中最重要的 100 家公司 2016 数据管理领域中大数据 100 2013 最佳展示 100 2014 “图数据库管理系统中的领先者是 Neo4j” 2014 Neo's GraphConnect shows graph databases coming into their own Matt Aslett 2013 Neo Technology – 图数据库的兴起 – Robin Bloor 2013 O’Reilly出版 – 图数据库 由 Neo Technology 职员编著
25. Neo4j 关键产品特征 确保数据一致性 和性能 原生的图存储 实时下每秒达数以百 万跳 原生的图处理 数据建模更加自然 完全支持 ACID 事务处理 “白板友好” 数据建模 数据完整性高 比 SQL 要少 10 到 100 倍的代码 功能强大,富有表现力 的查询语言 图的垂直和水平伸缩 优化 可伸缩性和高可用性 其它数据库的无缝导入 流行语言的驱劢程序及 API 内置的 ETL 集成
26. Neo4j 集群 在速度和可用性上大规模的架构优化 负载均衡器 Neo4j Neo4j Neo4j 26
27. Neo4j 融入你的企业环境 最终用户 应用 批量分析基础设施 图计算引擎 企业级数据仓库 … 数据挖掘和聚合 Neo4j Neo4j Neo4j 图数据库集群 数据存储和业务规则执行 数据 科学家 专门分析 数据库 关系型 NoSQL Hadoop
28. Neo4j: 图数据库领袖 第一个原生图数 据库24/7产品 发明属性图 模型 引入第一且唯一的 用于属性图的声明 式查询语言 继续第一个图数据库开源 扩展图数据模型为 带标签的属性图 O’Reill出 版关于图数 据库的书 技术领先 2000 2003 商业领先 投资情况 2007 2009 2011 2012 2013 2014 2015 第一个全球 2000 客户 Graph Connect, 第一个关于图数 据库的会议  150+ 客户  50K+ 每月下载量  500+ 关于图数据库的 丕界范围内活劢 种子轮:$2.5M 来自 Sunstone 和 Conor A 轮:$11M 来自 Fidelity, Sunstone 和 Conor B 轮:$11M 来自 Fidelity, Sunstone 和 Conor C 轮:$20M 领投 Creandum, 跟投 Dawn 和现有资商
29. 内容 基本概念 什么是图数据库 为何要用图数据库 为何要用 Neo4j 谁在用 Neo4j 演示 Neo4j 实时推荐 主数据管理 欺诈检测 IT网络管理 身份和访问管理 本地化 图片化 数据驱劢 智能查询 导入精灵
30. 谁在用 Neo4j
31. 应用范例: ICIJ事件 汇丰“瑞士泄密事件 ICIJ 调查组织 采用 Noe4j 进行处理 查出成千上万诈骗、贿赂、逃逸事件
32. 内容 基本概念 什么是图数据库 为何要用图数据库 为何要用 Neo4j 谁在用 Neo4j 演示 Neo4j 实时推荐 主数据管理 欺诈检测 IT网络管理 身份和访问管理 本地化 图片化 数据驱劢 智能查询 导入精灵
33. 演示:明星关系图(原文)
34. 演示:明星关系图(创建) 创建索引 -------create index on :明星(姓名) 创建对象及关系 -------------- CREATE (陈冠希:明星 { 姓名: "陈冠希"}), (王菲:明星 { 姓名: "王菲"}), (李亚鹏:明星 { 姓名: "李亚鹏"}), (瞿颖:明星 { 姓名: "瞿颖"}), (张柏芝:明星 { 姓名: "张柏芝"}), (谢霆锋:明星 { 姓名: "谢霆锋"}), (周迅:明星 { 名称: "周迅"}), (张亚东:明星 { 名称: "张亚东"}), (窦唯:明星 { 名称: "窦唯"}), (窦鹏:明星 { 名称: "窦鹏"}), (李大齐:明星 { 名称: "李大齐"}), (朴树:明星 { 名称: "朴树"}), (窦颖:明星 { 名称: "窦颖"}), (梁朝伟:明星 { 名称: "梁朝伟"}), (刘嘉玲:明星 { 名称: "刘嘉玲"}), (周迅)-[:旧爱]->(窦鹏), (周迅)-[:旧爱]->(李大齐), (周迅)-[:旧爱]->(朴树), (周迅)-[:旧爱]->(李亚鹏), (周迅)-[:绯闻]->(梁朝伟), (周迅)-[:绯闻]->(谢霆锋), (王菲)-[:离异]->(李亚鹏), (王菲)-[:旧爱]->(谢霆锋), (王菲)-[:离异]->(窦唯),
35. 演示:明星关系图(原版) MATCH (n:明星) RETURN n
36. 演示:明星关系图(国产版) MATCH (n:明星) RETURN n
37. 演示:查询周迅的直接关系 match m=(:明星 {名称:"周迅"})-[*..1]-() return m
38. 演示:查询周迅不王菲的最短路径 MATCH p = shortestPath((周迅:明星 {名称:"周迅"})-[*..6]-(王菲:明星 {名称:"王菲"}))RETURN p
39. 演示:查询周迅不王菲的所有最短路径 MATCH p = allShortestPaths((周迅:明星 {名称:'周迅'})-[*..6]-(王菲:明星 {名称:'王菲'})) RETURN p
40. 演示:投资关系图(投资不担保) MATCH a=(:公司 {名称:'中航工业集团公司'})-[r*]->() RETURN nodes(a)
41. 演示:投资关系图(亏本) MATCH a=(:公司 {名称:'中航工业集团公司'})-[r1:投资]->(c1:公司)-[r2:投资]->(c2:公司) where c2.净利润<0 RETURN nodes(a)
42. 演示:查找标题中包含"性福"的邮件的传递路径 match m=(s:Person)-->(e:Email)-->(r:Person) where e.title=~".*性福.*" return m
43. 演示:查找微博博主团伙关系 match r=(p1:Poster)-[:POST]->(:Post)-[:AT]->(p2:Poster)-[:POST]->(:Post)-[:AT]->(p1) where p1.userName<>p2.userName return r
44. 演示:查询股票不股东的关系 match m=(h:Holder)-->(s:Stock) where s.name=~".*五矿.*" return m
45. 演示:双击一下山西省… 网页演示
46. 内容 基本概念 什么是图数据库 为何要用图数据库 为何要用 Neo4j 谁在用 Neo4j 演示 Neo4j 实时推荐 主数据管理 欺诈检测 IT网络管理 身份和访问管理 本地化 图片化 数据驱劢 智能查询 导入精灵
47. Neo4j 典型案例 IT网络管理
48. Neo4j 典型案例 IT网络管理 “Neo4j 是当今市场图数据库的领袖, 它具有 可伸缩性和高可用性等企业级功能,是满足我 们需求的最佳选择.” Marcos Wada Software Developer, Walmart
49. 实时推荐
50. Neo4j 典型案例 IT网络管理 Neo4j 是 Cisco HMP 的心脏: 用于管理和单一可信 来源,以及 Cisco 所有层次结构的一站式商庖 -Prem Malhotra, Director of Enterprise Architecture at Cisco Systems
51. 主数据管理 组织架构 VP 总监 职员 总监 经理 经理 经理 经理 职员 职员 职员 职员 产品订购 用户 U 用户访问 客户 C C 控制 账号 A A A 订购 订购 S S S SS 社交网络 IT网络 路由器 朋务 路由器 交换机 交换机 光纤链路 光纤链路 光纤链路 海底电缆
52. Neo4j 典型案例 IT网络管理 “图数据库为揭露诈骗环、高级骗局提供了高度精确 的新方法, 幵且能够实时终止高级欺诈行为.” Gorka Sadowski Cyber Security Expert
53. 合成身份的诈骗环 4 个合成身份的诈骗环, 每个身份有 4-5 账号, 总共 18 个账号 4K 72K 假定每个账号平均贷款 $4K, 银行的损失则高达 $72K
54. Neo4j 典型案例 IT网络管理 使用 Neo4j 来管理数字资产及其新一代机上娱乐系统
55. 基于图的搜索: 公司投资担保关系网
56. Neo4j 典型案例 IT网络管理 使用 Neo4j 为大型电信朋务提供商进行 网络拓扑分析
57. IT网络管理
58. Neo4j 典型案例 IT网络管理 瑞银 (UBS) 获得 2014“最佳身份和访 问管理 App”奖
59. 身份和访问管理 管理组  公司  员工  账号
60. 更多成功案例 社交 推推荐荐 搜索不发现 网络和数据中心 主数据管理 身份和访问 GEO
61. 垂直应用精选 金融服务 通讯 健康和生命科学 HR和招聘 媒体和出版 社交网 工业和物流 游戏娱乐 消费品零售 商业服务 信息服务
62. 国内案例: 征信
63. 国内案例: 股票
64. 内容 基本概念 什么是图数据库 为何要用图数据库 为何要用 Neo4j 谁在用 Neo4j 演示 Neo4j 实时推荐 主数据管理 欺诈检测 IT网络管理 身份和访问管理 本地化 图片化 数据驱劢 智能查询 导入精灵
65. 国产化进程 – 本地化
66. 国产化进程 – 图片化
67. 国产化进程 – 数据驱动
68. 国产化进程 – 智能查询
69. 国产化进程 – 导入精灵
70. 微云数聚(北京)科技有限公司简介 公司 Neo4j 在中国的战略合作伙伴 由大数据领域博士团队和移动互 联网技术精英团队组成 合作伙伴 华为、中国首席数据官联盟、瀚 莎、百分点、智慧星光、数据堂 等 产品 ADI,敏捷数据智能平台,傻瓜 式BI产品,已广泛用于互联网金 融 Neo4j 国产化,包括界面本地化、 节点图片化、数据驱动化、查询 智能化和导入工具化等 用户 招商银行、人民银行、中科院、 中国电信、中国工商总局、互联 网金融公司等
71. THANK YOU! we-yun.com we-yun.com:7070