高红锋 - 汽车之家数据平台架构

廖梦槐

2018/05/13 发布于 技术 分类

互联网企业数据仓库构建是采用自下而上的方式,还是自上而下的方式?如果你是一个数据部门的架构师,你怎样去规划数据仓库呢?2015年中国数据库技术大会上,来自汽车之家用户智能组的高红锋为我们介绍了汽车之家平台架构。包括如何实现数据价值,数据价值的保障,实现数据价值的必经之路等。

文字内容
1. 汽车之家数据平台架构
2. 小思考: 互联网企业数据仓库构建是采用 自下而上的方式,还是自上而下的方式? 如果你是一个数据部门的架构师, 你怎么去规划数据仓库呢?
3. 架构师必须要面对的两个方面
4. 该怎么办?
5. 一切以实现数据价值为目标
6. 如何实现数据价值 数据价值 数据门户 数据仓库 数据分析 数据挖掘 数据采集 部 门 管 理 资源保障 系统平台 数据平台 需求分析&产品 平台规划 OKR 数据质量 项 目 管 理 实施计划 制定目标 价值导向 沟通共识 项目规划
7. 数据价值的保障-数据质量 建立全面数据质 量评估环境 评级数据质量 管理进程 数据质量 管理改进 建立全面数据质 量管理实施计划 数据质量项目 实施
8. 数据标准规范管理 业务数据 技术数据 标准规范 标准规范 数据质量委员会 数据标准管理 数据标准流程管理 数据标准执行 流程 定义 流程 变更 标准 执行 标准 监控 系统管理 版本 标准 标准 管理 查询 维护 数据质量系统 数 数据质量检核 据 检核定义 检核引擎 质 量 体 数据质量监控 数据监控 安全监控 系 规 元数据基础管理 划 技术元数据管理 检核分析 质量过程管理 需求管理 知识管理 问题管理 系统监控 数据质量报告 流量数据报告 业务数据报告 元数据系统 业务元数据管理 报表 元数据 ETL元数 源系统元 数据仓库 据 数据 元数据 业务模型 管理 业务指标 管理 元数据映 射 计算规则 主数据 版本管理 视图管理 变更管理 生命周期管理 元数据访问管理 元数据查询 元数据采集 人工录入 自动采集 模板导入 元数据分析 核心数据分析 影响分析 血缘分析 活力分析 元数据检核
9. 实现数据价值的必经之路-平台化
11. 收 集 采集 消息中间 件 Kafka Web server server agent Kafka server agent Kafka server 系统架构 存储计算 应 用 监控系统 mr spark hive stream 存储 ing Yarn 资源管理 My sql Hdfs(2.4) nn1 nn2 zk MS SQ Jmq L dn … dn … Hba se 接口 gagtaete wwayay 权 限 Data 控 api 制 体 系 hue kylin 调度系统
12. 个案分享
13. IP库更新流程 ipi种pI种子P种子库子库1 库1 差异IP库 获取日志IP 排序列表 抓取IP解析 相同IP库 更新差异 IP库 更新 投票 整合IP库 更新 IP特例库 IIPP AAPPII IP API AUTO IP库 经纬DB IP 服务 用户地区 解析 影响分 析报告 用户解 析页面
14. Cookie 技巧 Cookie_用户标识ID = UID(36位)+ First Datetime + First ReferDomain 标识用户;标示用户第一次访问时间;标示用户第一次访问来源; 提升统计分析效率; Cookie_Evercookie =Cookie_用户标示ID 恢复用户标识ID; 使用户跟踪更精准; Cookie_fingerprint = number 评估用户规模;防作弊; Cookie_ref =上次访问来源 + 本次访问来源 用于提升统计分析效率
15. APP统计SDK日志采集模型
16. 移动设备唯一标识问题  冲突与漂移: 冲突——多个设备获取的UUID相同 漂移——单个设备产生多个UUID  Android IMEI 缺陷 (1)山寨 (2)权限限制 (3)如何多app共享  iOS OpenUDID 缺陷 (1)剪贴板共享被限制,如果证书前缀一致,可以共享 (2)Keychain要求证书前缀一致 (3)IDFA可能被用户禁用,存在被被app store拒风险 (4)MAC已被禁用(iOS7)
17. 解决冲突和漂移的方案
18. 欢迎加入汽车之家 高红锋 数据平台部门经理 email: gaohongfeng@autohome.com.cn 微信: sdkf2014122