2015中国数据库技术大会演讲-日志易

应香菱

2018/05/13 发布于 技术 分类

自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix两大技术社区,已经连续举办了五届中国数据库技术大会,每届大会与会规模超千人,大会云集了国内水平最高的数据架构师、数据库管理和运维工程师、数据库开发工程师、研发总监和IT经理等技术人群,是目前国内最受欢迎、人气最高的的数据库技术交流盛会。

文字内容
1. 海量日志实时分析 日志搜索引擎
2. 提纲 • 日志的应用场景 • 过去的做法 • 现在的做法 • 日志搜索引擎 • 日志易产品架构
3. 一条 Apache Access 日志 • 180.150.189.243 - - [15/Apr/2015:00:27:19 +0800] “POST /report HTTP/1.1” 200 21 “https://rizhiyi.com/search/'>https://rizhiyi.com/search/” “Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0)'>rv:37.0) Gecko/20100101 Firefox/37.0” “10.10.33.174” 0.005 0.001 • 字段: – Client IP: 180.150.189.243 – Timestamp: 15/Apr/2015:00:27:19 +0800 – Method: POST – URI: /report – Version: HTTP/1.1 – Status: 200 – Bytes: 21 – Referrer: https://rizhiyi.com/search/'>https://rizhiyi.com/search/ – User Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0)'>rv:37.0) Gecko/20100101 Firefox/37.0 – X-Forward: 10.10.33.174 – Request_time: 0.005 – Upstream_request_time:0.001
4. 日志:时间序列机器数据 • IT 系统信息 • 操作系统 • 应用软件 • 用户信息 • 用户行为 • 各种传感器信息 • 日志反映的是事实数据 • 深度解析LinkedIn大数据平台(http://www.csdn.net/article/201407-23/2820811/1
5. 应用场景 • 运维可用性监控 • 应用性能监控 • Application Performance Monitoring (APM) • 安全审计 • Security Information Event Management (SIEM) • 用户数据统计分析 • 物联网 • 智能家电 • Nest Lab 采集的智能恒温器数据使用 Splunk 来分析 • 车联网
6. 过去的做法 • 日志没有集中处理 • 登陆每一台服务器,使用脚本命令或程序查看 • 日志被删除 • 磁盘满了删日志 • 黑客删除日志,抹除入侵痕迹 • 日志只做事后追查 • 没有实时监控、分析 • 使用数据库存储日志 • 无法适应TB级海量日志 • 数据库的schema无法适应千变万化的日志格式 • 无法提供全文检索 • Complex Event Processing (CEP) • 难以处理大数据量
7. 现在的做法 • Hadoop • 批处理,不够及时 • 查询慢 • 可作基亍日志的用户数据离线挖掘,无法做 OLAP (On Line Analytic Processing) • Storm • 历叱久,停止开发 • 仸务调度差 • Spark • 生态圈完整 • DataBricks 丏门支持 • Storm vs. Spark Streaming • Storm 是真正的流式处理,Spark Streaming 是 mini-batch • Exactly Once vs. At Least Once • 延时与吞吏率的取舍 • Hadoop/Storm/Spark都只是一个开发框架,不是拿来即用的产品
8. 对日志准实时搜索、分析 • 日志准实时搜索引擎 • Splunk • ELK (Elasticsearch/Logstash/Kibana)
9. Splunk • 首创用准实时搜索的方法来分析日志 • 功能非常丰富 • Search Processing Language • 类似 Linux 命令,支持管道,子查询等功能 • Gartner report (2014/7/18) • Splunk在日志检索时抽取日志的关键字段,检索速度慢 • Splunk按每天处理的日志量收费,价格较贵
10. Splunk 与 棱镜门
11. ELK • 三个独立的开源套件 • 一些著名互联网公司对 ELK 做二次开发,使用过百台的 ELK 集群分 析日志 • 存在问题 • 运维管理不方便,三个独立的系统,没有统一的部署、管理工具 • 没有告警功能 • 没有用户认证及权限管理 • 统计、分析功能有限
12. 日志易 • 日志搜索分析平台 • rizhiyi.com • 企业部署版 • SaaS 版 • 每天500MB日志处理免费
13. 日志易架构
14. 日志易功能 • 搜索 • 告警 • 统计 • 事务关联 • 配置解析规则,识别仸何日志 • 安全攻击自动识别 • 开放API,对接第三方系统 • 高性能、可扩展分布式架构 • 10万 EPS (Event Per Second), 每天TB级日志
15. 日志易 vs. Splunk • Splunk • 日志进入系统时不抽取关键字段,直接做索引,在检索时抽取关 键字段 • 灵活、索引文件小,但检索延时大 • 日志易 • 日志进入系统时就抽取关键字段,然后做索引 • 索引文件大,但检索延时小 • 可在索引前配置解析规则,抽取日志里的仸何关键字段
16. 日志易介绍:总览
17. 日志易介绍:日志结构化
18. 日志易介绍:字段抽取、统计
19. 日志易介绍:搜索
20. 日志易介绍:统计
21. 日志易介绍:告警
22. 日志易介绍:安全审计
23. 日志易介绍:仦表盘
24. 日志易,日志分析更容易 rizhiyi.com