赵俊 - 应用与DB的实时依赖分析与故障定位

FEDay

2018/05/13 发布于 技术 分类

携程高级架构经理赵俊就《应用与DB的实时依赖分析与故障定位》作了主题分享。他指出,当网站访问量越来越大的时候,对于DB是一个“灾难”,大量报错需要花很久的时候才能定位。基于此,携程开发了DAP。DAP(Data Arch Portal)是基于Java开发的, 使用12种开源框架的实时应用与DB监控平台。它为携程提供了从架构到应用访问DB的全面监控服务和决策支持。

文字内容
1. 应用与DB的 实时依赖分析与故障定位 赵俊
2. DAP背景 • 大量报错,需要花很久时间才能定位? • 应用程序访问DB有性能瓶颈,怎么知道? • 应用、DB成巨网耦合,怎么解耦才是高收益? • …………
3. DAP架构 监控系统指标 • 对应用无影响(服务端上线、宕机等) • 实时性(消息快速到达服务端) • 吞吐量(服务端高的吞吐量) • 开销低(客户端尽可能开销低)(开销2%以 内) • 可靠性(消息100%到达服务端) • 服务端处理100%的到达消息
4. DAP架构 架构总图
5. DAP架构 Agent设计
6. DAP架构 客户端需要注意问题 • 内存开销 由于埋点问题,消息足够大 • CPU开销 构建消息足够轻量 • 任何服务端或者网络问题
7. DAP架构 Writer设计
8. DAP架构 服务端需要注意问题 • 消息处理速度,每秒处理20w消息 • 复杂任务异步化 • 自身能力监控 • 存储(压缩)
9. DAP架构 HBase设计
10. DAP架构 Trace设计
11. DAP架构 Trace读写实现