全球架构师峰会 Arch Summit 2018

主动监测在定位网络异常上的实践 朱朝

1. 主动监测在定位⽹网络异常上的实践 朱朝 2018.12
2. ⽬目 录 • 关于米路通 • 从用户视角看问题 • 主动监测是什么 • 具体实践 ü 大网波动感知 ü CDN效果评估 ü 网络劫持监测
3. 关于⽶米路路通 米路通(https://apm.mi.com) • 来自内部需求 • 监测点覆盖440个地市 • 真实用户网络环境
4. ⽬目 录 • 关于米路通 • 从用户视角看问题 • 主动监测是什么 • 具体实践 ü 大网波动感知 ü CDN效果评估 ü 网络劫持监测
5. 沉默的⽤用户 73% 问题是通过用户发现 23% 服务不可用的严重问题 98% 2% 流失 用户选择沉默 用户投诉反馈 无法挽回
6. 从⽤用户视⻆角看问题 云服务 Internet Web服务器 用户 设备 网络 CDN 应用服务器
7. ⽬目录 • 关于米路通 • 从用户视角看问题 • 主动监测是什么 • 具体实践 ü 大网波动感知 ü CDN效果评估 ü 网络劫持监测
8. 不不同监测的特点 技术点 主动监测 被动监测 用户类型 模拟用户 真实用户 样本量,样本偏差 采样,存在样本偏差 全样本/采样,样本偏差小或无 配置部署 灵活配置,无需部署 有部署工作量 性能影响 非侵入,无性能影响 侵入,轻微性能影响 网络性能问题定位 支持 ping, traceroute, nslookup,抓包 无法精确定位网络问题 页面元素采集 可提供完整访问瀑布图,包括错误元素 出错的元素无法提供数据 样本分布 根据需要可以均衡采集 实际用户访问,有忙闲时
9. 监测原理理
10. 使⽤用场景 可⽤用性监测 对⽐比分析 CDN评估 云主机监测 压⼒力力测试 任务类型 抓包 源码 PC、⼿手机、路路由器器、盒⼦子 Header 推 流 MTR 点 播 私 有 协 议 dig 直 播 事 务 流 程 Trace route ⽂文 件 下 载 诊断依据 Ping 全 ⻚页 ⾯面 劫持监测
11. 业务架构 客户端 采集 数据报表 PC数据 采集 趋势 运营商 元素 主机 错误 …… 散点数据 汇总数据 任务配置 即时监测 任务配置 节点组配置 警报配置 账户管理理 对账单 点次配置单 联系⼈人 … …. 任务管理 配置管理 API接口 单点登录 监控报告 调度管理 节点管理 调度日志 任务调度 日志查看 手机数据 采集 会员管理 账户系统 积分体系 支付体系 结算体系 节点管理 运维监控 数据聚合 数据存储 数据分析 数据传输 数据监控 数据质量控制 数据收集
12. ⽬目 录 • 关于米路通 • 从用户视角看问题 • 主动监测是什么 • 具体实践 ü 大网波动感知 ü CDN效果评估 ü 网络劫持监测
13. 什什么是⼤大⽹网 北京 陕西、新疆、甘肃、 宁夏、青海 北京大区 西安大区 湖北、湖南、广西、 海南、河南 天津、河北、黑龙江、 吉林、辽宁、山西、 内蒙古 武汉大区 四川、重庆、云南、 成都大区 贵州、西藏 天津大区 骨干网 上海、南京 大区 杭州大区 广州大区 广州 上海、江苏、安徽、 山东 浙江、福建、江西
14. 当时的状态 监控报警 问题分析 大网问题 带宽图掉量 投诉 访问日志 故障排查 运营商 自己问题
15. 处理理的思路路 服务故障 机房故障 任务 ISP故障 区域故障 指标 数据汇总:按运营商、地区、主机分布、时间粒度、错误类型 个体原因 时间
16. 当时的数据 通过查看分类汇总后的数据,可以推测出问题原因
17. 当时的数据 下钻后还可以看到详细信息,获取精确 的故障持续时间是11:46 -12:23
18. 数据构成要素 10000+任务 覆盖全国探针 分钟级频率 警报阈值
19. ⼤大⽹网数据构成
20. ⽹网络链路路感知 实时判断区域间链路故障 扩展: https://apm.mi.com/ • 故障诊断详情 • 异常关联分析
21. 区域指数感知 实时判断区域网络故障 扩展: https://apm.mi.com/ • LDNS解析成功率 • 区分不同接入方式 • 更多地市数据
22. ⽬目 录 • 关于米路通 • 从用户视角看问题 • 主动监测是什么 • 具体实践 ü 大网波动感知 ü CDN效果评估 ü 网络劫持监测
23. ⾏行行业趋势 传统 网 宿 蓝 汛 帝 联 云 新兴 快 网 同 兴 白 山 云 云 帆 加 速 网 心 科 技 新 流 万 联 阿 里 云 腾 讯 云 金 山 云 百 度 云 七 牛 云 高 升 供 销 科 技 视 界 云 美 团 云 U 云 又 拍 云 华 为 云 京 东 云 迅 达 云
24. 让服务透明 上层 下层 用户 CDN 源站
25. 让服务透明 变更更未知 效果未知 调整加速资源、变更更解析策略略 前期选型、后期质量量考核是否达标 CDN 故障未知 出现故障时是否由于CDN引起 对⽐比未知 使⽤用多家CDN时选型
26. 评估原则 有标准 定义行业加速基线 可量量化 可以给出效果得分 给建议 结合数据给出优化建议
27. 评估⽅方法 可用性 监测成功次数比率 79 建连时间 65 63 TCP握手前两次握手时间 下载速度 总下载字节数/总下载时间 * 100% 78分 首包时间 建连后首个字节返回时间 71 覆盖率 69 72 DNS时间 域名解析消耗时间 目标主机同省同运营商匹配率
28. ⽬目 录 • 关于米路通 • 从用户视角看问题 • 主动监测是什么 • 具体实践 ü 大网波动感知 ü CDN效果评估 ü 网络劫持监测
29. ⽹网络类型 DNS劫持 链路路劫持 • 数据流中插入特定报文 • 使客户端获得错误数据 • 弹广告或显示其他网站内容 • 返回非真实网站IP地址
30. 判断依据 链路劫持 DNS劫持 • 元素域名白名单 • 主机IP白名单 • 源代码文本 • CNAME信息 • MD5校验 • Header信息
31. DNS劫持案例例 乌鲁木齐移动该域名全部报无法建连错误
32. DNS劫持案例例 乌鲁⽊木⻬齐 移动 ⻄西安移动
33. 链路路劫持原理理
34. 链路路劫持案例例 建连是客户端到服务器时延43ms,而劫持数据 返回时间变为只有5ms
35. 链路路劫持案例例 网页首元素被跳转到其他网站
36. 链路路劫持案例例 建连和首包服务器返回的TTL相差很 多,说明劫持设备进行修改
37. 规避⽅方法 HTTPS HttpDNS • 解决链路劫持现象 • DNS劫持问题解决 • 并非100%杜绝 • 解析调度更精准 • 带来的性能开销需要评估 • 只适用于移动端
38. THANKS!

相关幻灯片