阿里巴巴高级技术专家 何源:阿里网络故障智能化治理

阿里在全球现在有几万台网络设备,几百万端口。每分钟产生几十万的日志,上千万的指标采集。如何在如此大的体量下实现对全网风吹草动的监控,及时的故障定位和自动的故障恢复?我们将给大家介绍一下阿里巴巴在网络领域的大数据实践经验。

1. 阿里网故络障故何S自障A源动智C(发C能荆2现杭化01)&治7恢理复的实践: 阿里巴巴高级技术专家
2. 体量大 型号多&架构多 结构复杂 网络自身依赖 SACC2017
3. SACC2017
4. 采集 网络设备/防火 墙/ANAT/LVS 互联网质量 专线&VIP 服务器丢包& 延时 故障发现 根因定位 设备状态扫描 SACC2017 变更扫描 流量攻击扫描 运营商状态扫 描 自动化故 障处理 端口/板卡/整 机隔离 运营商切流 主备切换 复杂场景,人 工介入
5. SACC2017
6. SACC2017
7. SACC2017 阀值比例(流量大于70%)  发生频率(端口down一分钟十 次)  聚合阀值(链路组25%链路中 断,同一集群20%NC ping失败)  条件组合(流量超过70%并且 出现丢包)
8. SACC2017
9. 连通子图+PageRank+告警等级 SACC2017
10. Syslog聚类分析 我们的方法:人工干预聚类结果,基于 Active learning使得聚类结果逐渐变优 错误码和 日志主干 日志预处理 日志的分 类结果 提取中心词 每类日志 的中心词 日志生成向量 • 错误码:日志中标记错误类型 的编码。例如:PLATFORM- SACC2017SFP-2-LOW_RX_POWER_ALARM 日志词 • 日志主干: 频向量 – 将ip替换成ipaddress – 将mac地址换成macaddress 日志聚类 – 将端口替换成phyport – 将数字,符号等去掉 • 中心词:可以代表一类日志的 词序列。 网工验证
11. Syslog实时分析系统 错误码和 日志预处理 日志主干 错误码可 以分类 分类成功 结果 SACC2017else 最匹配的类 中心词匹 和匹配度 配分类 匹配度达标 1. 重要日志 过滤; 2. 日志关联 分析 …… 写入分类灰 灰名单 网工协助分 名单 析
12. 采集 故障发现 根因定位 自动化故 障处理 网络设备/防火 墙/ANAT/LVS 互联网质量 专线&VIP 服务器丢包& 延时 设备状态扫描 SACC2017 变更扫描 流量攻击扫描 运营商状态扫 描 端口/板卡/整 机隔离 运营商切流 主备切换 复杂场景,人 工介入 • 原子化扫描场景,告警事件触发,灵活配置
13. 故障扫描 SACC2017
14. 端口抖动隔离 SACC2017
15. Internet 城市C SACC2017 核心层 接入层 城市A 服务器 城市B
16. 质量探测体系 SACC2017
17. SACC2017
18. 互联网故障检测 • 从全球IP地址库为每个国家(中国美国的每个省和州), 每个运营商动态挑选5000个存活IP进行探测,每分钟千 万级IP • 构建网络质量基线,S而A非C单C纯2的01阀7值进行告警
19. SACC2017