神策数据联合创始人兼CTO曹犟 - 从日志统计到大数据分析

该演讲首先从日志统计平台,用户数据仓库,数据源管理等方面介绍了早期日志统计的原理和缺陷,又对当今大数据分析工具进行了介绍。主要技术点:Hadoop,日志统计,用户行为分析,大数据分析。面向人群:数据分析师。

1. 从日志统计到大数据分析 曹犟 @  神策数据
2. • 2008:日志统计平台 • 2011:用户数据仓库 • 2013:数据源管理
3. • 需求响应周期长 • 运维成本高 • 运行速度慢 • 员工个人成长受限
4. 基于 Hadoop  的日志统计平台
8. n   days n   mins n   hours n   mins 开发周期: 天级 到 分钟级 运行时间: 小时级 到 分钟级 经过1年半的时间, 整个公司的统计任务 都统一到了平台
9. • 计算资源需求急剧膨胀 • 数据质量没有保证 • 数据价值没有充分利用
10. 统一的用户数据仓库
11. Insight DataMart User  Data  Warehouse 网页搜索 凤巢 网盟 知道 网页搜索 凤巢 网盟 知道 百科 结构化数据 百科 文本日志
12. 全公司所有业务线的用户行为数据统一到一张表,通过用户 ID   可以访问到用户在全百度上的所有行为 用户ID ID01 ID02 ID03 事件类型 注册 登陆 搜索 时间 … … … 国家 … … … 省份 … … … URL … … …
14. 数据源混乱 入库周期长 数据时效性低
15. 直接从数据源头治理
16. 非结构日志源 • 格式变更影响下游 • 数据解析效率低 • 数据内容不可理解
17. 结构化日志源(Google  Protocol  Buffer): • 格式变更向前向后兼容 • 数据解析效率高 • 数据带有Schema • 节省存储和带宽
18. 日志源的结构化、 元数据审核管理 传输实时化 查询引擎直接可分 析源结构化数据
19. • 数据源统一管理,覆盖数万台服务器 • 数据源头产生,既可实时 SQL  分析
20. • 数据源很重要 • Event  模型很有效
21. • 数据采集手段在增强 • 大数据计算能力的软硬件环境在成熟 • 竞争加剧,整个行业的数据意识在提升
22. • 人力成本 • 时间成本
23. • 数据采集能力不足 • 分析能力比较基础 • 数据资产顾虑
24. 神策分析
25. 可以私有化部署的 用户行为分析产品
28. 私有化部署 全端数据接入 PaaS  平台
29. 全端数据接入
30. 代码埋点 可视化埋点 导入辅助工具
31. PaaS  平台
32. BI 查询层 数据存储层 数据传输层 数据接入层
33. BI 查询层 数据存储层 数据传输层 数据接入层
34. 架构实现
35. • 适应私有化部署 • 数据与处理能力完全开放 • 模型精简,减少 ETL 开销 • 支持每天十亿级别数据 • 秒级导入,秒级查询
36. 数据流向
37. 利用神策的查询开放接口,可以非常容易的: • 与客户已有的系统进行无缝对接 • 利用 SQL  引擎扩展已有的分析功能 • 为合作方提供强大的在线分析能力
38. 在线分析 搜索优化 个性化推荐 精准广告 100% 反作弊 用户画像 文本挖掘
39. 金融 电商 视频 企业服务 在线教育 么么直播
40. 在线医疗 新媒体 健身 游戏 互联网+ 其他
41. 神策分析,帮你实现数据驱动!