支付宝无线:从前端到后端的服务治理

微风

2019/03/24 发布于 技术 分类

文字内容
1. 支付宝无线 从前端到后端的服务治理 阿里巴巴集团 - 支付宝 - 无线基础技术部 - 庞磊 邮箱:lei.panglei@alibaba-inc.com 1
2. 2015-6-3
3. 2015-6-3
4. 大纲 现状与挑战 服务治理场景 服务治理的实现 4
5. 现状与挑战 5
6. 支付宝无线现状 200 多个系统 60亿请求 支付宝 无线 上千台服务器 几百人规模 6
7. 服务治理挑战 如何快速进行数据处理 如何对关键指标监控及预警 如何进行从端到服务的链路分析 7
8. 大纲 现状与挑战 服务治理场景 服务治理的实现 8
9. 服务治理场景
10. 重点指标监控 性能 流畅 度 闪退 电量 流量 10
11. 问题快速定位 open_page:ViewController click:ViewController:ButtonId 应用B RPC 应用A Network:WIFI,RPC'>Network:WIFI,RPC 2015-09-25 10:10:10.111 应用C open_page:ViewController2 click:ViewController:ButtonId1 应用F RPC 应用D Network:WIFI,RPC'>Network:WIFI,RPC 应用E 2015-09-25 10:12:10.111 客户端 服务 11
12. 链路分析 消息服务 收消息 应用C 发消息 读写文件 服务器 调用 收消息 应用G 分布式 文件系统 应用B 服务器 调用 存 应用A 分布式 缓存 缓 服务器 调用 应用F 读写缓存 写 客户端 调用 无 线 网 关 服务器 调用 服务器 调用 应用E JDBC 数据库 12
13. 故障自动分派 Crash Bug … 服务治理 13
14. 大纲 现状与挑战 服务治理场景 服务治理的实现 14
15. 服务治理的实现 15
16. 日志数据处理流程 可视化展现 日志数据采集 实时计算 存储 故障分派 预警
17. 实时计算平台 17
18. 实时计算架构 REST API 日志 流出 指标 计算 合并 任务 计算 告警 任务 任务 Jstorm levelDB HBase MySQL InfoBright 存储 消息队列 日志采集 18
19. 日志数据采集 业务服务器 LogAgent 日志中心 客户端日志采集 LogAgent 19
20. 实时计算 指标计算 map distinct reduce merge 日志 中心 存储 map 日志流出 reduce merge JStorm 20
21. 报警 指标监控 计算 计算公式 阀值报警判定 发送报警信息 Groovy脚本报警 判定 21
22. 日志模型 22
23. 日志关系 设备1对应日志 设备1 用户 设备2对应日志 设备2 23
24. 日志模型 行为日志 • UI切换 • 点击事件 • H5页面 性能日志 • 网络日志 • 业务性能埋点 异常日志 • 闪退日志 • 流量&电量日志 服务端日志 • Tracelog • 业务日志 24
25. 客户端 主要指标及处理 25
26. 闪退处理 日志采集 流出/计算 定时任务 闪退日志 Crash HBase 栈分析 闪退报告 MySQL 26
27. 电量&流量统计 日志采集 指标计算 展现 HBase Log Agent 电量监控 流量监控 Alipay Mobile SDK 27
28. 性能计算 L1 20.33ms Time1,BIZ_KEY1, level1=20ms^level2=50ms,level3=50ms Time2,BIZ_KEY1, level1=21ms^level2=55ms,level3=52ms L3 50.66ms L2 51.66ms Time3,BIZ_KEY1, level1=20ms^level2=50ms,level3=50ms BIZ1 日志采集 指标计算 展现 HBase time,BIZ_KEY1,level1={sum:61,cnt:3} time,BIZ_KEY1,level2={sum:155,cnt:3} time,BIZ_KEY1,level3={sum:152,cnt:3} 28
29. 服务日志处理 29
30. TraceLog Tracer 组件是一个异步日志组件,通过统一的 ID,将调用链路中的各种网络 调用情况以日志的方式记录下来,以达到透视化网络调用的目的。 B.service C.service1 A-1 B-1 C-2 TRACE_ID C.service2 C-3 30
31. TraceLog处理 Time,traceId,A-1,B-2,Y,serivce,20ms B-2 Time,traceId,A-1,C-1,Y,serivce,30ms A-1 traceId1 C-1 日志流出 展现 InfoBright -----------------------------------------------------traceId1 Time1, A-1,B-2,Y,service,20m Time2, A-1,C-1,Y,service,20m ------------------------------------------------------ 31
32. 端行为与服务贯通 open_page:ViewController2 click:ViewController:ButtonId1 Network:WIFI,RPC 2015-09-25 10:12:10.111 无 线 网 关 应用F 应用D 应用E networkId = (deviceId + seq) 客户端 服务 networkId,traceld 32
33. 故障快速分派 33
34. 故障自动分派 日志流出 栈分析 去重 关键字匹配 故障派发 34
35. 谢谢 35