从0到1构建企业大数据体系

微风

2019/03/24 发布于 技术 分类

文字内容
1. 0-1构建企业大数据体系 —谢巍盛 2018年10月20日
2. 1
3. About Me 上海交通大学: 模式识别与智能系统 Intel: 图形图像, 大数据, 开源, 机器学习, 优化算法 甜橙金融: 负责公司大数据和AI体系建设 2
4. “Big data is a term used to refer to the study and applications of data sets that are so big and complex that traditional data-processing application software are inadequate to deal with them.” - wikipedia
5. Agenda 1. 数据体系 2. 大数据平台 3. 应用系统 4. 团队组建 5. Q&A 4
6. 数据体系 仓库集市 数据治理 5
7. 仓库集市 实践中的问题: TD到Spark迁移 任务启动时间片 生命周期管理 任务队列管理 6
8. 数据治理 数据缺失 历史不能追溯 不准确 问题定位难 不及时 问题解决周期长 口径不一致 …… 数据安全 元数据管理 数据标准 数据质量 生命周期 数据服务 数据架构 7
9. 大数据平台 数据科学平台 自助BI分析平台 流计算 8
10. 数据采集 数据源多样 数据量大 可用性可靠性 Web Log Streaming SysLog App Log Sensor Messaging System RDBMS CRM ERP 9
11. 甜橙自助BI分析平台 安全性差 效率低 parser 资源利用率低 实践中的问题: 权限管理 路由策略 数据倾斜 JDBC 数据计算 Presto, Kylin, Spark, Hbase等优化 … 10
12. 甜橙数据科学平台 安全性差 工程能力要求高 知识不可沉淀 资源利用率低 实践中的问题 计算引擎融合 服务流水线化 … Data Scientist Dev Data Clean Feature Engineering Scheduler Dependency Algorithms RM Reload Hyper Parameter Evaluations Visualization Compute Execute 11
13. 流计算 业务监控 风险控制 K-V Store 标签系统 Message Queue Compute Engine 实践中的问题: 选型 间断性delay脉冲 实时监控系统的优化 消息系统 … 12
14. 13
15. 推荐系统 online DB1 (1M) Rules 标签系统 Recall (1K) Query ETL Ranking ETL Training prod1 prod2 … (TopK) 实践中的问题: Pipeline model serving Online learning 模型管理 … 建模平台 分析平台 DB2 offline 14
16. 决策管理系统 Rule Build Model Build Management System Orange-BI + realtime OrangeDSL serving offline Model Store Rule Store Core Rule Engine msg MQ Pre Post MQ msg AI Engine Streaming Anti-fraud Inference Jackson 3- rd party SP …… 15
17. 团队建设 Less is More! 16
18. 17
19. 18
20. Thanks! We a r e H i r i n g x i e w e i s h e n g @ b e s t p a y. c o m . c n
21. 附录-风控设备查询(22亿) 90% Result (Target: <30ms) 80% 160000 60% 140000 120000 40% 100000 60000 40000 20.00% 19.68% Before 7.12% 10.00% 0.00% < 48k 48k-96k 96k-192k 192k查询结果 0.77% 0.02% 384k- > 768k >1000ms 900 - 999ms 800 - 899ms 700 - 799ms 600 - 699ms 500 - 599ms 400 - 499ms 300 - 399ms 200 - 299ms 26.04% 30.00% 100 - 199ms 40.00% 90 - 99ms 0 46.36% 80 - 89ms 20000 70 - 79ms Compression Network & other Scan耗时占比 60 - 69ms 50.00% Disk I/O 80000 50 - 59ms 0% 8% 2% 40 - 49ms 20% 30 - 39ms 100% After Optimization: - blockCache Size: 64k -> 256k - Compaction and GC - SSD support - RowKey design 20
22. 附录-业务监控优化 150K records/s 500K records/s Optimization - core/mem tuning - parallelism - network bandwidth 21
23. 附录-streaming peak Client Server 22
24. 附录- TensorFlowOnSpark Data ingestion: - TF file reader and QueueRunners (no Spark involved) - Feeding. Consume RDD data via tf feed_dict (the least efficient way) Pros: -Work along with spark components -Async- and synchronous training -Model and data parallelism -P2P among TF processes -Near linear scalability -Automatic role assignment Cons: -lack of both GPU scheduling and heterogeneous container scheduling -application lifecycle maintained by Spark 23