360 谭学士-360 AIOps 亮剑网络运维

泥翠丝

2018/05/13 发布于 技术 分类

GOPS 全球运维大会由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)联合主办,指导单位为工信部信通院数据中心联盟(DCA)。全球运维大会是国内第一个运维行业大会,面向互联网及传统行业、广大运维技术人员,传播先进技术思想和理念,分享业内最佳实践。 迄今为止,GOPS 已经举行了八次,大会参会嘉宾累计突破2万人次,国内每一站均为本地区最大规模的高端运维盛会,满意度和推荐度高达95%以上。

文字内容
1. GOPS 全球运维大会 2018 2018.4.13-4.14 中国·广东·深圳·南山区 圣淘沙大酒店(翡翠店) GOPS 全球运维大会2018·深圳站
2. AIOps 亮剑网络运维-ISP流量异常检测 谭学士 360网络开发工程师 GOPS 全球运维大会2018·深圳站
3. 目录 1 项目背景 2 时序序列算法 3 机器学习 4 当下与未来 GOPS 全球运维大会2018·深圳站
4. POWER BY 360 GOPS 全球运维大会2018·深圳站
5. OUR OPS 月活用户 5.15亿 大陆120 /香港1/美国1 ISP 带宽 3.5T 0 我们对业务中断 容忍! 我们要洞察网络中 任何异常! GOPS 全球运维大会2018·深圳站
6. DC中ISP出口流量特征和挑战 多业务混杂,整体呈现周期性 流量波动大、频繁 局部看没有规律 定义 GOPS 全球运维大会2018·深圳站 发现 定位
7. 传统监控 VS 算法+机器学习 GOPS 全球运维大会2018·深圳站
8. 目录 1 项目背景 2 时序序列算法 3 机器学习 4 当下与未来 GOPS 全球运维大会2018·深圳站
9. 平稳性检验与分布 原始数据 一阶差分后显示数据整体平稳 自相关系数 GOPS 全球运维大会2018·深圳站 正态分布
10. 3-sigma 正态分布: 优点:简单高效 缺点:敏感度偏高 GOPS 全球运维大会2018·深圳站
11. EWMA(指数加权移动平均) 算法表示: EWMA(t ) = λY(t)+ ( 1-λ) EWMA(t-1) for t = 1, 2, ..., n. 设计权重系数λ, 0< λ <1, λ越大 Y(t)越大,t-1时刻就越小 考虑趋势 GOPS 全球运维大会2018·深圳站
12. 环比振幅 方法1:r(t) = abs( !(#) ) !(#%&) 方法2:r(t) = abs( '()*(+(#)) ) ,-./(+(#%&)) 方法2 采用时间窗口,可有效吸收瞬时波动,但牺牲了敏感性 GOPS 全球运维大会2018·深圳站
13. 动态阈值 -2代表取值时,取倒数第2大和倒数第2小 GOPS 全球运维大会2018·深圳站 优点: 阈值动态变化 过滤单次波动对阈值的影响 缺点: 无法发现阈值内的大幅波动异常 多次超历史的波动会影响到阈值
14. 小流量监控优化 小流量大波动 设计曲线函数:y = w * ln( x + b) 我们的参数:b = 0.4812,w = 25.4566 GOPS 全球运维大会2018·深圳站 阈值曲线
15. 算法为王,为何还要机器学习? 80% GOPS 全球运维大会2018·深圳站 20%
16. 目录 1 项目背景 2 时序序列算法 3 机器学习 4 当下与未来 GOPS 全球运维大会2018·深圳站
17. 机器学习架构 Design Schedule Update History Data Sample input Model (Training) output Current Data Sample input Model Predict GOPS 全球运维大会2018·深圳站 Model Offline Normal Online Anomaly
18. 学习方式选择 有监督 Ø 正负样本比例: 1 : 1 Ø 人工标注 Ø 有效的Boosting 无监督 Ø 不必考虑正负样本比例 Ø 无需标注,自动学习信息 Ø 手工调参优化 GOPS 全球运维大会2018·深圳站
19. 特征提取 目标: 异常时一定有波动! 不符合历史波动规律! 异常时的数据是小概率事件! 特征向量:[ [归一化流量大小(zs), 环比振幅(ca) ] ] GOPS 全球运维大会2018·深圳站
20. 聚类经典:K-Means k = 2, threshold = 2.4 GOPS 全球运维大会2018·深圳站
21. 异常检测中的黑马: Isolation Forest 算法来自周志华老师在2011年的文献:Isolation-based Anomaly Detection 思想 GOPS 全球运维大会2018·深圳站 Model
22. K-Means vs IForest 特征数量要求 训练性能 预测性能 分类设定 易用性 K-Means 相对较多 采用循环距离计算,训练效率相对 较低 比较质心点距离--较快 需要对样本提前设定类别数量 需要删除离群点--差 IForest 无需太多特征 采用二叉树,训练效率快 遍历树后综合评分-较快 不需要 自动规避异常--好 我们最终的选择: IForest GOPS 全球运维大会2018·深圳站
23. 模型训练细节 Ø 模型设计 2 Model(in/out)/Port Ø 样本选取 Last 7 days Ø 窗口大小设定 10 Minutes Ø 模型更新 Daily update 效果 GOPS 全球运维大会2018·深圳站 IForest 最大估计数= 7 最大样本数= 256 数据剔除率 = 0.01
24. 算法与机器学习相结合 多算法仲裁 准确率:79% 多算法仲裁 GOPS 全球运维大会2018·深圳站 模型仲裁 准确率:98.5%
25. 目录 1 项目背景 2 时序序列算法 3 机器学习 4 当下与未来 GOPS 全球运维大会2018·深圳站
26. TopN数据参考 IDC流量TopN关联展现 基于之前的积累,通过API获取IDC当前 IN/OUT方向业务TOPN数据 异常出现 GOPS 全球运维大会2018·深圳站
27. 曲线相关性定位业务 Pearson相关系数 用于分析两个连续性变量之间的关系,公式: r= ∑617&(!1 2!̅ )(41 245 ) 1500 ∑617&(!1 2!̅)8∑617&(41 245)8 1000 500 取值范围 相关程度 0 r ≤ 0.3 不存在线性相关 0.3 ≤ r ≤ 0.5 低度线性相关 0.5 ≤ r ≤ 0.8 显著线性相关 r > 0.8 高度线性相关 GOPS 全球运维大会2018·深圳站 时刻1 时刻2 时刻3 时刻4 时刻5 时刻6 时刻7 时刻8 时刻9 曲线1(单位 Mb/s) 曲线2(单位 Mb/s)
28. 下一步要做的事情 Ø 关联分析 Ø 根因分析 GOPS 全球运维大会2018·深圳站 故障预测 故障根本原因 自动启动预案 故障自愈
29. Thanks 高效运维社区 开放运维联盟 荣誉出品 GOPS 全球运维大会2018·深圳站
30. 想第一时间看到高效运维社区 的新动态吗? GOPS 全球运维大会2018·深圳站