百度外卖 梁福坤:基于Druid的大数据采集即计算实践
登录发表评论
文字内容
1. 基于Druid的S百大A度数外C卖据C梁2采福0集坤17即计算实践
2. 关于我 梁福坤 10年+职业生涯 SACC20172014.2月入职百度,创建Do平台并提供地图Place6大行业做数据分析 2014年5月专注 百度外卖大数据专项分析 现在负责百度外卖大数据平台+智能物流策略团队
3. 01SACC2大01数7 据架构
4. 平台 Do平台 烽火 亮剑 数据集市 驾驶舱 关联融合 ETL 大数据架构V4.1 核心服务 基础服务 数据仓库 报表/任性/自如 用户、商户画像 渠道分析 流量分析 UE仪表盘 SACC2017实时OLAP Adhoc/Dora*/雷电 Druid+冲击波 调度(通天) + CT 任务 CDH Yarn Impala Phoenix Hive GreenPlum Spark Cluster ElasticSearch HDFS/Kudu OpenSQL OpenLog OpenWeb 数据托管 传送门 数据源 DB/Binlog Kafka/NMQ Web Page Log/PB
5. 02SACC2平01台7 化设计
6. 以往实时交付方案方案 OpenApi Log Web DB Pids 采集 数据使用方 Spark Streaming Pb解析 Kafka 字段解析 SACC2017ETL过程 (过滤、计算、清洗) 中间表 Impala 交付 SQL Adhoc Phoenix 调度系统 Kafka Topic HDFS
7. 存在的问题 实时性差 流程多 周期长 数据半产品化交付 数据明细化落地 业务需求二次加工 效率差 QPS低 数据0建模 数据交付 业务层次诉求 SACC2017
8. 业务场景梳理 化繁为简 采集即计算 业务分析专注数据 RD专注平台化 SACC2017 热点数据高吞吐解决方案
9. Druid选型的考虑 大数据量下的实时多维OLAP分析 化繁为简 • 实时计算能力 • OLAP分析支持 • 时间序列的预聚合分析 SACC2017性能 • 弹性数据扩展 • 高并发/高可用/高吞吐 • 延迟数据融合 丰富查询接口 • Rest ApI • 过滤器/聚合器 • 后置聚合器
10. OLAP分析的准备 交付 支持 开放式 Log 数据交付 KafkaTopic 数据源PB定义 SACC2017分发/推送/入库 规则 解析 过滤 丰富 Function 数据采集 服务BNS 采集服务配置 Topic定义 HDFS 路径 实时预警
11. 开放式Log的承上启下 param("common.log_id") PB 集群1 日 志 parseTime("common.timesta 采 TK 集 oa pf ik ca 定 义 字 段 解 析 规 则 mp", "HH", 1) SACC2017更多解析function 字段Mapping TK oa pf ik ca 消 集群2 费 1 其他消费端 …. 黑 白 滤名 单 过 线上校验规则
12. 开放式Log的承上启下 SACC2017
13. 开放式Log的承上启下 SACC2017
14. 开放式Log的承上启下 SACC2017
15. 03SACC2服01务7 架构实践
16. 预设窗口设计 离实 SACC2017离线场景 支撑历史场景分析 复杂关联分析 T+1的分析需求 实时场景 近期数据源 计算规则可预设 近实时需求
17. DataSource 开放式Log 表meta 维S度ACC20指1标7 时间字段
18. DataSource –01 基本信息 SACC2017
19. DataSource –02 维度选择 SACC2017
20. DataSource –03 指标选择 SACC2017
21. DataSource –04 时间字段选择 SACC2017
22. Cube预设窗口逻辑 Datasource 选择 指标 维度 过滤规则 入库规则 自动创建库 SACC2017数据Join支持 解析规则 Mysql/ElasticSearch 调度任务
23. Cube-01 基本信息 SACC2017
24. Cube-01 基本信息 SACC2017
25. Cube-02 主DataSource信息 SACC2017
26. Cube-03 主DataSource指标 SACC2017
27. Cube-04 主DataSource指标 SACC2017
28. Cube-08 关联信息 SACC2017
29. Cube-08 关联信息 SACC2017
30. 实时数据展示 SACC2017
31. 04SACC2性01能7 调优
32. 性能调优实践1 环境 (5个节点 128G内存+24core +SSD Radio5 1.7T): MiddleMananger 2台独立 1台混部 Broker Historical Coordinator 2台混部 Overlord 1台混部 SACC2017 操作: Fact_log_sak 数据高峰 1w/s,针对user_id做count (distinct) 现象: broker节点在查询时,如查询需要的计算量过大,会报资源不足情况,查询无结果 解决:增大堆外内存 druid.processing.numMergeBuffers = max(2,druid.processing.numThreads / 4) MaxDirectMemorySize >= druid.processing.buffer.sizeBytes * (druid.processing.numMergeBuffers + druid.processing.numThreads + 1)
33. 性能调优实践2 背景:高峰期MiddleMananger 消费Kafka数据延迟严重 调优过程: 1: worker节点jvm配置调整,增大堆内存和堆外内存,最佳占服务器物流 内存 是1/10 和 1/3 2017 2:增大work的线程数和线程缓存 druid.processing.buffer.sizeBytes=2147483646 CC druid.processing.numThreads=10 SA 3:分配多个任务消费 topic : "druid_waimai_log_fact_log_sak_v1", replicas : 1, taskCount : 2, taskDuration : "PT1200S"
34. SACC2017
-
1
爱奇艺 张超:爱奇艺广告大数据实践
August
-
2
京东金融数据库团队负责人 高新刚:京东金融...
flagunlock
-
3
58同城高级架构师 沈剑:58速运数据库降...
初鸿禧
-
4
长虹集团移动应用产品总监 孔帅:基于Hyb...
佴代卉
-
5
腾讯音乐 李深远:QQ音乐的个性化探索
庄宏浚
-
6
蘑菇街 刘旭晖:大数据平台调度系统架构理论...
琴同甫
-
7
摩拜数据库团队资深经理 李凯:摩拜开源技术...
遇俊民
-
8
腾讯IEG游戏平台部 涂远东:VR视频直播...
驹平晓
-
9
云徙科技CTO 李元佳:企业互联网架构实践
三叔
-
10
京东商城基础架构部 丁俊:京东分布式K-V...
全向晨
-
百度外卖 梁福坤:基于Druid的大数据采...
沐古香
-
12
锦佰安创始人&CEO 冯继强:AI领域的人...
袭斌斌
-
13
阿里人工智能实验室 王天舟:语音识别技术回...
莫鸿风
-
14
腾讯音乐 罗静:全民K歌黑产对抗之路
崇宛白
-
15
中国信息通信研究院 徐恩庆:重点行业云计算...
校耘志
-
16
中国移动云计算产品部 刘军卫:中移苏研存储...
铎慕卉
-
17
腾讯优图实验室 谭国富:深度学习在图像审核的应用
势寻芹
-
18
阿里巴巴猫客技术部 默燧:移动端图像加载优...
函晓蕾
-
19
金山云 郝明非:H.265在视频直播场景下...
钮雅静
-
20
为胜科技技术总监 郭宏泽:基于容器的持续集...
融灵枫
-
21
腾讯云托管hadoop服务平台(EMR)技...
甘淳静
-
22
苏宁云商IT总部高级架构师 王一硼:移动端...
圣浩宕
-
23
徐少杰:Event sourcing & ...
赖采蓝
-
24
小米生态云 李波:小米生态云应用引擎实践
柏清淑
-
25
王苹:荣之联大数据平台的应用实践
天空的空
-
26
滴滴 许令波:统一资源调度平台建设实践
拜问萍
-
27
海纳云CTO 邹均:区块链与数据时代
欧骊英
-
28
滴滴研究院 李秀林:智能交互 美好出行
虞博远
-
29
姜凤波:全用户态服务开发套件F-Stack
箕斯雅
-
30
阿里巴巴 总监 蔡龙军:面向未来的泛内容A...
建凯安
-
31
苏宁攻防实验室 黄宙:潜行狙击--业务安全...
邗建木
-
32
先声教育 CTO及联合创始人 秦龙:人工智...
曲念天真
-
33
天云大数据副总裁 李从武:人工智能驱动Fi...
葛碧白
-
34
同盾科技联合创始人 张新波:拥抱金融科技的...
区平卉
-
35
闲鱼架构负责人 王树彬:闲鱼架构实践
凌凝云
-
36
苏宁易购 朱羿全:苏宁易购全站HTTPS实践之路
守绍元
-
37
阿里巴巴高级技术专家 何源:阿里网络故障智...
羽经赋
-
38
慧川智能 刘曦:ImageNet挑战赛之后...
甘淳静
-
39
滴滴架构团队负责人 王海:滴滴移动端基础架...
浦俊慧
-
40
资深技术专家 占超群:迎接在线化与开放化分析时代
凌凝云
-
41
Qunar数据库架构师 黄勇:去哪网数据库...
世问梅
-
42
思必驰 张顺:可定制开发的语音交互技术
侍凝蕊
-
43
京东云 张成远:云时代的数据库演变之路
桑紫萱
-
44
网易 孙建良:网易新一代对象存储引擎
carefulpeacock
-
45
微软亚洲研究院研究员闫莺:构建企业级区块链生态
濮阳畅畅
-
46
京东云 朱凌:京东云为企业提供智能化之路
瓮幼枫
-
47
搜狗测试开发工程师 张杰:前端测试质量的度量
招春蕾
-
48
VMware中国研发现先进技术中心技术总监...
慕菊华
-
49
第四范式 程晓澄:机器学习在推荐系统中的应用
勇正初
-
50
阿里巴巴 金吉祥:万亿级数据洪峰下的消息引擎
Cartel
-
51
刘歧:一个简单的直播服务引发的悲剧
笪含蕊
-
52
搜狗语音交互技术中心 陈伟:搜狗智能语音之路
源嘉怡
-
53
搜狗大数据平台部 申贤强:分布式存储优化与...
范姜敏丽
-
54
李珂:vivo大规模机器学习实践
麴元纬
-
55
阿里巴巴 江文斐:窄带高清,打造新优酷极致体验
惠名姝
-
56
瓜子二手车 彭超:瓜子云的落地
Deis
-
57
京东搜索 尹德位:京东亿级流量海量数据搜索架构
乔向薇
-
58
AWS 解决方案架构师 薛峰:云平台计算服...
淦雪莲
-
59
美团外卖 刘宏伟:美团外卖自动化业务运维系统建设
巧德厚
-
60
上汽集团 李涛:站在云时代的路口
茂清霁
-
61
数美基础架构负责人 关涛:实时大数据在风控...
公西驰鸿
-
62
魅族 段启智:Android多分支代码自动同步
霍涵蕾
-
63
INT基金会首席架构师 项若飞:INTch...
桂凡白
-
64
京东商城基础架构部技术总监 桂创华:京东图...
况尔蝶
-
65
360基础架构组技术经理 陈宗志:大容量r...
频运华
-
66
转转推荐算法部负责人 张相於:C2C市场中...
龚平萱
-
67
去哪儿网DEVOPS 马文:基于Mesos...
言冰洁
-
68
美团配送技术专家 付雅文:美团配送移动网关...
宛宏朗
-
69
毛大鹏:机器学习和未知样本检测
原晓博
-
70
偶数科技CEO 常雷:新一代数据仓库
登学林
-
71
优调科技技术总监 朱妤晴:技术前沿进展:系...
须寒梅
-
72
360 人工智能研究院 李东亮:云端图像技...
蒲芳洲
分享











