阎志涛 - 移动大数据管理平台实践

盖刚豪

2018/05/13 发布于 技术 分类

今年是中国数据库技术大会第六个年头,大会将继续秉承分享IT最佳应用实践的宗旨,围绕传统数据库和大数据两条技术主线,在目前IT技术和管理快速的大背景下,更加深入地探讨数据库技术的现状和未来的发展方向,以及我们在这个转型过程中的实践经验和教训。

文字内容
1. 移动大数据管理平台实践 阎志涛 TalkingData研发副总裁
2. 关于TalkingData Ta l k i n g D a t a 创 立 2 0 1 1 年 9 月 , 是 国 内最大的数据管理、服务平台。 Ta l k i n g D a t a 核 心 团 队 来 自 O r a c l e 、 IBM、HP等公司,长期从事分布式运 算架构、海量数据处理、数据挖掘算 法 的 研 究 工 作 。 Ta l k i n g D a t a 深 信 数 据本身蕴含巨大的价值,希望通过优 秀的产品、完善的服务,将“大数据” 落地,充分发挥数据的价值,用数据 改变未来。 目 前 Ta l k i n g D a t a 产 品 及 服 务 涵 盖 移 动 应 用 数据统计、移动广告监测、移动游戏运营、 公共数据查询、综合数据管理、数据咨询 服务等多款极具针对性的产品及服务。为 超过80,000款应用、游戏提供数据统计、 分析服务,覆盖超过13亿独立移动设备; 为招商银行、中信银行、平安保险等大型 企业提供全方位数据服务。 从基础数据分析、管理产品,到深度 的 数 据 咨 询 服 务 , Ta l k i n g D a t a 有 着 深厚的数据积累和应用经验。利用海 量数据,不断实践科学计算领域内的 各种算法、概念,不断尝试将数据与 场景相结合,找到适合不同领域的数 据模型,实现数据价值的最大化。 ——“用数据改变未来”
3. TalkingData移动大数据平台 A G App Analytics Game Analytics D E Mobile DMP Enterprise T Ad Tracking I Insight Ta l k i n g D a t a 移 动 大 数 据 平 台能够为客户提供基于移动 互联网数据的全方位服务。 无论您是开发者,还是广告 主,或是大型企业,都能找 到适合自己需求的产品或服 务。 Ta l k i n g D a t a 移 动 大 数 据 平 台产品及服务涵盖基础统计 分析、游戏运营支持、移动 广告监测、第三方数据管理 平台、数据咨询服务,以及 面向大型企业的综合数据解 决方案。
4. 移动互联网大数据特点 • 移动互联网大数据的4V – Volume 随时随地都在产生数据,数据量更大 – Variety 随时随地联网的特性,使得移动互联网的数据更具有多样性。在移动侧可以 有更为精准的位置数据,各种传感器数据。 – Velocity 对速度处理的要求性更高,很多的业务场景需要更实时的数据处理才能使得 数据产生价值。 – Value 更多高价值的数据产生 • 万物皆可联网,数据方便人的生活 – IOT逐渐成为现实,万物都在贡献数据 – 各种智能硬件逐渐普及
5. 移动互联网大数据处理流程 数据获取 数据收集 数据存储 数据计算 数据服务
6. 数据获取 • 获取哪些数据? 设备信息 • 设备ID • 设备软硬件 信息 数据业务信息 • 业务事件 • 会话信息 上下文信息 • 网络 • 位置 • 传感器
7. 数据获取 • 如何获取数据? 存储转发 • 移动网络不稳定 • 移动应用不稳定 数据压缩 • 网络流量消耗 • 电池消耗 • 数据安全 传输协议
8. 数据收集 • 数据收集器 – 数据格式校验 – 轻量级 – 高并发处理 – 无状态 – 存储转发
9. 数据存储 分布式文件系统 NoSQL数据库 关系型数据库 数据长久保存 数据冗余 离线计算服务 数据有时效性 为实时计算服务 缓存 结果型数据 事务一致性保证 多表关联
10. 数据计算 流式计算 • 实时指标 • 基于规则的 标签 离线计算 • 批量统计 • 大时间尺度 数据计算 数据挖掘 • 机器学习 • 迭代算法
11. 数据服务 多维报表 数据可视化 数据服务接口
12. 我们面临的挑战 • 业务发展的驱动,多个竖井 App Analytics • SDK • Collector • Data Store • Compute • Service Game Analytics • SDK • Collector • Data Store • Compute • Service AdTracking • SDK • Collector • Data Store • Compute • Service DMP • Data Store • Compute • Service Insight • Data Store • Compute • Service
13. 我们面临的挑战 • 未来更多的数据业务 – 竖井模式很难支持新业务的开展 • 更多的数据价值探索的需求 – 竖井模式很难深入了解技术 • 更多的数据(Bigger than Bigger) – 竖井模式不利于资源的合理利用 • 没有统一的数据视图
14. TD移动大数据管理平台(π系统) • 整合多产品线的基础服务 – 统一存储 – 统一计算 – 统一数据总线 – 统一数据挖掘 – 统一视觉呈现 – 统一数据收集 – 统一SDK – 统一监控和管理 • 提供更灵活高效的技术支撑 – 产品能迭代速度更快 – 研究成果加速流动
15. SDK App/Game Partners π系统架构 客户 客户 Collectors Exchangers 数据交换 数据 清洗 管理 监控 Game Analytics App Analytics Ad Tracking …… 开发者服务 DMP Services 数据展示(web components...) Data Service APIs ACL 访问APIs 元数据 Storages (HDFS, Kafka, etc.) 存储模块 计算APIs Bitmap/Comete Ad Hoc Compute F/W 计算模块 IT/OPS Algorithms... 算法模块
16. 统一SDK • 统一SDK – 新的统一的数据收取框架 – 业务层和基础层分离 – 非阻塞模式 – 处理各种异常 – 高效存储格式
17. 统一的数据收集 • 统一数据收集系统 – 基于Node.js和C++开发 – 支持分布式部署 – 数据收集系统支持存储转发 – 分布式收集节点和中心节点数据传输高压缩比
18. 统一的数据总线 • 统一数据总线 – 基于Kafka的数据总线 – 规范不同业务线的topic命名规则 – 统一的管理
19. 统一存储 • 统一的离线存储(HDFS) – 数据域管理,多业务系统可以共享存储资源 – 数据文件按照时间进行切片 – 数据文件时效管理,中间数据可以自动删除 – 数据自动归档 – Parquet列式存储格式,方便数据计算 – 计划支持数据EC(Eraser Coding) – 分布式缓存Tychyon
20. 统一存储 • NoSQL数据库 – 开发Bitmap存储,bitmap基本运算下沉到存 储层,底层基于RocksDB – MongoDB 3.0(WireTiger引擎),基于SSD – Redis
21. 统一存储 • 关系型存储 – MySQL Cluster – WebScaleSQL?
22. 统一存储 • 统一接口封装 – 存储层对计算层通过接口提供数据 – 存储对于计算完全透明
23. 统一存储 • 元数据管理 – 基于Hcatalog进行二次开发 – 支持不同数据源 – 支持json,protobuffer等数据格式 – 支持版本
24. 统一计算 • 统一的计算框架和接口 – 基于Yarn进行计算资源调度 – 基于Spark的并行计算框架 – 基于预先生成Bitmap的OLAP解决方案 – 利用Spark Streaming进行流式计算 – 自行开发的任务调度系统 – 统一的计算查询接口
25. 统一的数据挖掘 • 数据挖掘服务化 – 基于统一计算框架 – 针对Spark,自行实现了LR,DT等数据挖掘算法 库 – 将数据挖掘服务化,变成统一计算的一种能力
26. 统一的视觉呈现 • 统一的视觉呈现 – 视觉呈现组件化 – 支持各种自定义报表 – 支持各种数据可视化效果
27. 统一监控和管理 • 统一监控 – 基于Zabbix开发 – 支持CPU、内存、硬盘、网络以及进程运行状 态等等的监控 – 支持短信、邮件、微信报警
28. 带来的好处 • 更方便的增加新的数据业务 • 工程师可以更深入的了解技术 • 资源可以更合理的进行配备
29. 未来 • 进一步优化存储能力 – 热数据、冷数据 、归档数据的合理分层 – 硬盘、SSD、内存的合理使用 – 基于latency的存储提供 • 进一步优化计算能力 – 更好的支持即时分析 – 更细粒度的资源调度能力(Myriad?) • ……