可发布 余利华 网易互联网数据中台实践(脱敏)

文字内容
1. 网易互联网产品数据k台实践 余利华 网易数据科学k心
4. • 数据k台概览 • 元数据k心 • 数据服务 • 全链路数据质量k心 • 数据资产管理
5. 互联网h务数据架构 电商 供应链决策协同系统 用户行n分析 +.S +.S 供 应 链 .W. 8.S 精准投放 o 站 .W. 8.S 猛犸大数据开发计算平台 音t 传媒
6. 数据产品: 以电商n例 h务场景 用户运营 商品运营 市场运营 供应链 管理层 数据智能 用户行n分析系统 商品运营系统 推广渠道管理系统 供应链决策协同系统 高层看板 搜索推荐 用户精准投放系统 商品舆情系统 活动实时直播 VIOAOO 风控 数据产品
7. h务面m的问题 指标口径f 统一 落地产品 数据重复 建设 指标系统+数据服务 取数效率低 数据产品 故障频发 成本指数 增长 数据地图+自助查询 数据质量k心 资产管理
8. k台产品架构
9. 互联网h务数据k台架构 供应链决策协同系统 用户行n分析 精准投放 音t 传媒 电商数据k台 统一元数据 共享数据资产 猛犸大数据开发计算平台
10. 数据k台实施效果 100%数据产品指标覆盖,统一h务口径和取数口径定r,消除指标vr性 基于数据地图,100%实现自助取数 全链路数据跟踪,回答“数据准f准b”“哪y数据故障b”“什么时候恢复b”,加速数据故障的排查定位,助力)).(%S5+达成 所有数据产品接入统一查询服务,做到所有对数仓的访问,可管理、可追踪,通过逻辑模型g物理模型的分离,大幅提高指标的重用性 构建元数据k心,通过资产分析、看清数据资产、降低数据管理成本、追踪数据价值,消灭低价值的资产,成本节约%0%以d
11. • 数据k台概览 • 元数据k心 • 数据服务 • 全链路数据质量k心 • 数据资产管理
12. 元数据k心 数据源 元数据k心 大数据计算 Hive metastore! හഝ‫ݎ‬ሿ! හഝလቘ! හഝ԰᭗!
13. 网易元数据k心设计原则 多租户,多h务线 数据标签 • 能够支持电商(考拉、i选)、互娱(音t、游戏)、传 • 通过l富的f同类型的标签,完善数据特征体系 • 指标标识、数仓的o题域、分层信息,是否是数仓维护的推荐 媒、教育 表都以标签形式存在 02 05 01 多种数据源支持 • 能够覆盖网易所有的数据源,甚至包括4AFkA,REDIQ, 2BAQE等SCHELA KEQQ 4V系统 g大数据系统集成 • gRAMGEP结合,允许通过自定r标签的方式对数据进行动态授权 • 数据传输、自助分析g元数据k心集成 • 基于元数据k心,构建数据质量k心、数据资产管理k心、数据 地图 数据血缘 • 静态血缘 动态血缘 • 血缘支持时间戳,可以按照时间戳读取,过期 • 血缘覆盖率以及血缘采集性能
14. 元数据k心架构图
15. 数据地图 一个复杂的h务有成千dc张表 • f知道数据含r • 找f到数据 • f知道哪个数据更有价值 • f清楚数据的更新频率 • 大量重复建设 • … 解决找数据问题
16. 指标系统
17. 指标方法论 h务模块 (电商h务) 数据域 (z易域) h务过程 (e单) 维度 (商品) 修饰类型 (终端类型) 时间周期 (昨日) 修饰词 (OC) 派生指标 (昨日OC端销售量) 原子指标 (销售量) 维度属性 (商品ID,名称) • 指标和维度命名规范 • 指标口径要清晰(p例或S:5)
18. • 数据k台概览 • 元数据k心 • 数据服务 • 全链路数据质量k心 • 数据资产管理
19. n什么要有数据服务 可维护性 安全隐患 • 打通u数据应用W指标W数仓表的全链路监控 • 底层表直接暴漏 • 表变更,f知道谁访问这个表b • 对数仓的访问缺少权限控制 接入效率 指标口径 • 所有需求一个接口 • 相同指标在多个表k存在 • S.4 高效率接入 • 指标口径f统一 • 指标重用率低,数仓重复加工
20. 数据服务架构 应用层 用户行n分析系统 OpenApi 商品运营系统 modelName! Fields! OrderBy! Distinct! 查询服务 元数据k心 逻辑模型 条件解析 逻辑执行计划 物理执行计划 结果返回 结果聚合 物理执行 CNNPDIMARNP 权限校验 日志管理 访问控制 物理模型 WNPkEP WNPkEP 数据源 MUS:5 WNPkEP 监控报警 缓存 2BAQE 19 4UKIM 结果缓存 元数据缓存 FliterList! Limit! Offset!
21. 异构数据源使用场景 模型路由 /S 2BAQE 大数据量明细数据的查询场景 MUS:5 小数据量的 灵活查询场景 1PEEM9KSL 4UKIM z互式 多维分析场景 离线聚合 多维分析场景 REDIQ 大列表TNON场景
22. 服务监控
23. • 数据k台概览 • 元数据k心 • 数据服务 • 全链路数据质量k心 • 数据资产管理
24. 数据质量 完整性 是指需要的数据已完整记录,可以分n记录数完整性和字段值完 时效性 整性。 是指数据的时效对应用的满足程度,可以分n数据任务结束时间和 运行时长。 01 04 02 03 一致性 是指系统内外部数据源s间的数据一致程度,可以分n指标一致性 和信息一致性。 准确性 是指数据在数仓k的值和实际值是否相同,可以分n口径实现 结果和数据逻辑合理性。
25. 数据质量提升s前的状态 • 超过)0%的问题是由h务和产品发现 • 收集的问题k存在研发BSG的占比达50%
26. 数据质量稽查规则 完整性 准确性 • 表数据量波动监控和绝对值监控 • 数值计算逻辑监控:商品只能归属一个BU • o键唯一监控 • 数据格式的监控,比如I9,UR5 • 字段n空,n0的监控 • 维表的监控 • 数据完整性监控,订单%&小时,终端覆盖 • 数据异常监控,比如日期还没发生 一致性 时效性 • 同一个指标在f同模型f一致监控 • 任务延迟监控 • 相关指标趋势监控,比如ST和OT走势一致 • 表产出时间的监控 • 聚合逻辑一致性监控 • 源数据延迟监控 • f同数据源对同一个实体的值一致
27. 全链路数据质量监控 • 覆盖数据产出的完整生命周期 • 全链路数据血缘的实时监控 • 快速u解哪y数据产品的哪y 指标异常 • 故障恢复时间的请准预估
28. 全链路数据质量监控 • 全链路任务状态监控 • 任务甘特图
29. 数据质量实施效果 500ӻᑣ໐ፊഴᥢ‫!ڞ‬ 100% ໐ஞᤒᥟፍ! ‫ق‬᱾᪠හഝፊഴ! ᨶᰁ‫فᦇړ‬ᖂපᘍ໐! හഝSLAғ99.8%!
30. • 数据k台概览 • 元数据k心 • 数据服务 • 全链路数据质量k心 • 数据资产管理
31. 数据资产管理 • 每个项目花u多少钱b • 每张报表花u多少钱b • 每个数据产品花u多少钱b • 每个人花u多少钱b • 各个h务线预算符合度b • 根据表的热度,存储空间、加 工表消耗的资源,确认表是否 可以优化b给出优化建议b • 表的一键e线
32. 资产管理实现面m的技术挑战 要分析哪y数据b • f同计算引擎的访问热度(表、列) • 最近访问时间 • 资源消耗(任务加工、表存储空间) • 数据血缘关系 数据打通(任务信息注入底层任务) • CNMFIGSPARINM注入 • • 0S ILAGE • 2.0S ASDIR • MR 任务日志 • SOAPk 任务日志 • MERASRNPE SOAPk: +VkABAM 通过EMTIPNMLEMR’Q QUQREL OPNOEPRIEQ注入 • 如何采集数据 2ITE/MR:+VkABAM通过UAPM AOOKICARINM’Q ILOAKA:通过2IMR 方式注入 优化算法 • 从最d游的表开始遍历,对无访问的表以及表相关的任 务e线 • 从d层数据产品产出价值以及报表的访问情况,进行数 据产品或者报表的e线a
33. 系统架构 HiveSQL HiveSQL MR Spark SparkSQL Sqoop Impala SQL Yarn HDFS MR FSImage HDFS Audit Spark MR Spark Impala Impalad Kafka Impala SQL Cluster Job Flow User
34. 数据资产管理效果 ձ‫ۓ‬ӥᕚ! ᤒӥᕚ! ᜓ፜ғ20%౮๜! ኞ޸ޮ๗ᓕቘ! ᤒܴᖽ!