网易杭州研究院大数据技术负责人金小军 - HADOOP IN NETEASE

南安吉

2017/11/14 发布于 技术 分类

网易公司历经了20年的发展,各业务线沉淀了丰富的数据。大数据平台在满足各业务线数据存储,计算的任务,同时承担着整合集团数据,为客户提供全方位的大数据服务。在满足业务需求的过程中,对hadoop各组件进行了定制优化(如分时调度,权限控制,元数据管理,spark多租户,spark高可用,流计算相关)。同时,围绕大数据底层技术平台也孵化出了猛犸大数据开发台,网易有数敏捷数据分析平台等产品。本次演讲主要分享网易如何利用Hadoop平台支持云音乐,考拉,金融,严选等业务,同时也会分享一下,结合网易的业务场景,在hadoop平台构建和使用过程中的优化和经验,最后会介绍一下,网易在hadoop平台持续投入的技术路线规划。

文字内容
1. Hadoop in Netease 金晓军
2. 个人介绍 金晓军 网易杭州研究院 大数据技术负责人 2010年毕业至今,一直从事分布式计算平台设 计与研发工作。 负责网易大数据平台团队建设,人才培养。整 体架构设计,自研系统研发与开源组件功能扩展与 集成,网易大数据平台建设。
3. 数据业务架构 数据应用 网易新闻 网易云音乐 网易考拉 网易云课埻 …… 数据平台 网易有数 / 网易猛犸 数据存储计算服务 数据采集 日志 Database 直接导入 其他仓库 ……
4. 网易大数据体系 Hadoop 开源组件 自研组件 猛犸数据 开发平台 有数敏捷数据 分析平台
5. 01 数据平台
6. 网易大数据体系 大数据应用开发层 数据加工 数据计算 资源管理 数据存储 数据集成 数据源 大数据开发套件(可视化IDE) 数据集成 数据开发 任务运维 自劣分析 数据管理 离线计算 Hive 流式计算 Sloth 内存计算 Spark 统一资源管理与调度 Yarn 分布式文件系统 HDFS和Kudu 分布式数据库 HBase 全量/非实时接入 Sqoop 实时/增量接入 NDC和DataStream 结构化数据 如RDBMS备库 半结构化数据 如JSON 非结构化数据 如音频文件 作业流开发 权限管理 多租户管理 元数据管理 数据质量校验 DQC 秘钥管理 Kerberos 运维监控 Amber
7. 自研系统与开源组件的结合 统一元数据服务 • Hive, spark, impala,hbase元数据打通 • 数仓体系内,用户无需在不同的系统一之间 做元数据同步 • 不同组件组件之前,数据全增量同步 统一元数据服 务 数据安全与权限 • HDFS/Hive/Impala/Spar等组件自劢 权限 同步 • 支持到列级别的权限控制,支持数据自劢加 密,即使被拖库,也不用担心敏感数据泄露 数据安全与权 限 流计算服务 一站式 流计算服务 • Sloth流计算服务化平台 • 通过增量计算的方式,来完成流计算任务 • 使用SQL作为开发方式,完全与离线SQL兼 容,支持 window/join/subquery/having/retractin g等复杂SQL功能 一站式 • 一站式的数据平台,数据地图 • 基于ambari开发的一站式的统一部署,监 控,运维体系
8. 自研系统与开源组件结合 kafla服务 化 精细化的 yarn调度器 扩展 Ranger 统一授权 Spark高可 用 多租户 ……
9. Sloth——流计算服务化平台
10. Sloth 特点 SQL开发 与离线SQL兼容 执行引擎 扩展Flink SQL解析 扩展Calcite 增量计算模型 DDL UDF Having Join Subquery Whole Stage CodeGen 与离线统一平台
11. Sloth 增量计算 考拉要对所有商家按销售额做分类统计,销售额在[0,100]区间内的归为一类, [100,200]区间的的归为一类,以此类推,通过计算输出每个区间内的商家个数。 这个任务可以用SQL定义为: -- stage1:计算每个商家的销售总额 INSERT INTO tmp SELECT seller_id, sum(payment) as total FROM source GROUP BY seller_id; -- stage2: 计算每个销售额区间内的商家个数 SELECT count(seller_id) as num, total/100 as range FROM tmp GROUP BY (total/100);
12. Sloth 增量计算 输入数据 离线计算 流式计算 增量计算
13. Sloth 增量计算 输入数据 离线计算 流式计算 增量计算
14. Sloth 增量计算 输入数据 离线计算 流式计算 增量计算
15. Sloth 增量计算 输入数据 离线计算 流式计算 增量计算
16. SlothPyhsicalPlan
17. 02 数据开发平台
18. 猛犸——数据开发平台 可视化 数据集成 元数据 和数据地图 数据权限 与安全
19. 猛犸——数据集成
20. 猛犸——元数据和血缘
21. 猛犸——细粒度的权限控制
22. 猛犸总结 业务验证 • 经过多个不同领域业务的考验,行之有效 • 完备的产品化机制 • 完善的服务与培训机制 业务验证 灵活数据管理 覆盖全网易互联网 业务场景 十万级任务调度能力 灵活数据管理 • 可视化数据集成 • 元数据管理,数据地图,血缘分析 • 细粒度权限控制 可视化模型开发和 调度 行业标准 灵活数据管理 • 可视化数据集成 • 元数据管理,数据地图,血缘分析 • 细粒度权限控制 行业标准 • 支持常用的Hadoop组件,兼容行业标准 • 降低学习门槛 • 灵活部署,适合大、中、小各种规模业务 应用
23. 03 敏捷数据分析平台
24. 敏捷可视化分析: 常见流程 数据 初步分析 可视化 图像 感知 新想法 知识 数据 明确问题 进一步分析 探索与分析 假定 可视化 用户 可视化循环模型(Wijk & D. Keim)
25. 敏捷可视化分析:解决方案 网易有数 敏捷可视化分析工具 目标 保证分析的时效性 让更多的人能够完成可视化分析 需求 易用性:简单易懂的交互操作,缩短数据建模,查询,可视 化的时间 高性能:高速的数据提取能力 连贯性:尽可能在一个场景下完成这些工作
27. 04 未来技术规划
28. 网易大数据平台未来规划 得益开源 回馈开源 全面Spark 内存计算 Flink为基础的 实施计算体系 新硬件(GPU,FPGA )加速计算 Tensonrflow on Yarn 实时算法平台 统一计算平台
29. Thanks! 金晓军 hzjinxiaojun@163.com