资深技术专家 占超群:迎接在线化与开放化分析时代

凌凝云

2017/11/14 发布于 技术 分类

企业数据的爆炸式增长正为扩大分析策略在企业应用软件领域的拓展提供了数据基础,如何针对海量数据以数据库形态提供实时在线的灵活分析以及开放的数据集成则变成了巨大的挑战,本次分享将会提供一些让大数据分析在线化与开放化的实践。

文字内容
1. 迎接在线化与开放化分析时代SACC2017Welcome to the Online and Open Big Data Analytics Era 离哲(@flyinweb) 资深技术专家
2. 1 发展趋势 2 3典S型AC案C例2017 解决方案
3. 1970 Relational [ SQL+OLTP ] SACC20171993 12 Rules [ OLAP ] 2005 GFS+MR [ Big Data ] More... Autonomous HTAP Federation Cube Text Graph Vector Time Series
4. 5M-More Accessible 内部服务 ~100 SACVCS2017外1部00,0产00+品 ~1s +
5. 5M-More Data 抽样 VS 全量 PB + SACC2017多数据源(DB/HD/HD/File/..) 毫秒级 多场景 ( )Table/Graph/GIS/TS/Matrix.. 场景优化 混合云
6. 5M-More Ways 数据驱动 数据展现 流程化 SACC2017 业务驱动 数据洞见 敏捷化 漏斗模型/标签模型/...
7. 5M-More Realtime SACC2017批量装载 VS 实时写入 10,000,000/s + 预建模 VS 即时 10,000 QPS + 自服务 人人都是分析师
8. 5M-More Action Insight SACC20175000+ 预测 营销管理 (VCRM...) 10000+ 100K+ 安全风控 1M+ 推荐 1M+
9. 电商业务 SACC2017 CRM——洞察用户 用户属性多样化:几十甚至数百个用户标签 筛选条件多样化:“买了又买”,“买了又看”,“看了不买”.... 洞察指标多样化:性别分布、浏览次数、城市分布….
10. 电商业务 SACC2017 经营分析——洞察经营情况 维度多:品类、品牌、产品、型号 周期长:半年、一年、两年… 数据实时性:半个小时内的数据波动
11. 电商业务 SACC2017可视化大屏——洞悉业绩 海量实时数据:每笔订单、每次浏览都要立即呈现 交互式展现:收货地域、分品类… 复杂的计算:top排行、区域热点…
12. 营销业务 ROI 787% SACC2017 DMP——精准营销 海量数据:万亿级的互联网行为数据 海量维度:自由组合上千标签,快速圈选人群 复杂功能:人群扩展、自有数据上传…
13. O2O SACCO22O0-1C7RM——数据体现价值 海量会员:线下门店、餐饮的刷卡客户/预定客户/咨询客户… 多种来源:交易数据、营销数据、wifi连接… 实时干预:针对刚刚到访的、刚刚路过的客户进行分析、投放
14. 交通 SACC2017
15. 安全 智慧搜索系统 一站式多维搜索 档案系统 知识图谱 时一切空S皆分A有析迹C可系C循统2017 碰撞比对系统 多源极速碰撞 网络舆情监测系统 标签系统 舆情导控 对象标签化
16. 典型架构 生产业务 实时 ETL 批量 数据清洗 触达引擎 应用场景 主题库+ 标签化 Insight 预测/报表 SACC2017数据加 工 标准化 实时 同步/更新 规则引擎 规则管理/同步 匹配服务 ID/POI/商品 Open API 安全风控 CRM 营销 敏捷BI 推荐 .... 实时 回流
17. 典型架构 分析 外部渠道 API 透视分析 业务管理 触达报表 前 触达引擎 SACC2017业务数据库 Cache AnalyticDB/Impala/... 端 Cache 触达日志 MaxCompute/Streamcompute/Hadoop/Spark S3 /OSS
18. 挑战一:高并发访问-存储性能 20X 列存 SACC2017 3X 压缩 内部测试 1000X 预排序 100X 全索引
19. 挑战一:高并发访问-低延时 内部测试 13% 时延方差 SACC201L74 3秒法则 混合负载 CPU Mem Net IO
20. 挑战二:实时数据&明细查询 Select TA.*,TB.* from.. Order by ... Limit 100 Desc SACC2017 Drill Down TOP N Insert into TA Values ... 10,000,000+/s
21. 挑战二:实时数据&明细查询 Delta V1 Delta V2 Delta V... 历史数S据ACC2017 40x 10x 行列混存 Block索引 内部测试 分布式 多版本合并 Pull vs Push?
22. 挑战三:多集合交并差 漏斗、标签模型 Select * from subquery1 100+ MSI(nSeetilenelerucsctset*c* tf frroomm s suubbqquueerSryy3A2 CC2017局1部0并0x行 Union Select * from subquery4) 内部测试 表组级多版本 多层缓存
23. 挑战四:海量数据实时ETL&同步 TAG ETL Hadoop/Spark/ MaxCompute OSS/S3 AnalySticADCBC2017node1 node2 node3 node4 ... 内部测试 EDM SMS 150万 exp 500万 imp 双边并行
24. 挑战五:执行引擎 MPP+DAG双引擎 SACC2017 流式分时执行 细粒度资源分级 TPC-H/TPC-DS支持
25. 挑战六:优化器 SACC2017
26. More 钉钉群 SAC微C信20群17
27. SACC2017