阿里巴巴 张娟 - 弹性容量管理探索

Jeremy

2017/12/18 发布于 技术 分类

ArchSummit全球架构师峰会是InfoQ中国团队推出的面向高端技术管理者、架构师的技术大会,参会者中超过50%拥有8年以上的工作经验。 ArchSummit秉承“实践第一、案例为主”的原则,展示新技术在行业应用中的最新实践,技术在企业转型中的加速作用,帮助企业技术管理者、CTO、架构师做好技术选型、技术团队组建与管理,并确立技术对于产品和业务的关键作用。

文字内容
1. 智能弹性容量量管理理 by 张娟(希宁)
5. ABOUT ME 2011年年加⼊入阿⾥里里 2016年年~⾄至今,从事集团弹性资源管理理
6. Contents 01 背景 4 02 智能弹性容量量管理理 9 03 具体实践 20 04 未来展望 32
7. 01背景
8. 成本运维的困境 稳定性 > 效率 > 成本 ‹#› ⽉月度资源保有量量趋势图 ⽉月度流量量趋势图
9. 成本运维的困境 多少合适? ‹#› You never know!
10. ‹#› 传统做法 经验预估 压测到⽬目标量量级 等⽐比预估
11. 容量量规划的意义 • ⽤用更更科学⼿手段做资源运营。 预算规划 1 2 软件迭代容量量评估 峰值流量量应对 3 4 新IDC引流容量量初 始化
12. 02智能弹性容量量管理理
13. 概述 W HT W What “容量量规划”+“弹性伸缩”+“⻛风险 评估” How “智能决策” + “⾃自动执⾏行行” Target “最优利利⽤用” + “容量量⾃自治” Who “Dev+Ops” + “业务”
14. 智能容量量管理理反馈环 需求管理理 01 04 02 数据分析 03 容量量预测 弹性伸缩
15. 容量量预测公式 ‹#› 抽象成简化公式: ⽬目标机器器数 = 预测流量量 / 应 ⽤用单机能⼒力力(预测)
16. 流量量预测 ⾃自然态流量量预测 利利⽤用集群流量量时序特征回归 ⾮非⾃自然态流量量预 全链路路流量量模型,基于业务⽬目标的各应⽤用集群流量量预测,线性 测 回归
17. 单机能⼒力力预测 First step 应⽤用特征分析 1 Second step 提取关键性能指标, 2 建⽴立算法模型 Third Step 通过⽇日常样本数据回 3 归预测 Fourth step 压测验证,效果反馈 4 5 Last step 周期性产出单机性能 数据
18. 线性回归模型 “.” 为拟合后的点 ‹#› “.” 为真实样本点
19. 模型校正 局部加权 ‹#› 残差降噪
20. ‹#› 效果评估 理理论评估 QPS {CPU(Max) / 2 } 预测 QPS {CPU(Max) } 实际评估 压测验证 1-abs(qps真实 –qps预测)/qps真实
21. 数据处理理框架 De D aD () DO D e D DP S / HD D D D ‹#› D/ S / S b
22. APM应⽤用性能管理理 维护应⽤用性能基线。 性能趋势跟 踪。 发现变更更异 常。 ‹#› 辅助架构演 进。
23. 04具体实践
24. 实践场景 01 ⽇日常弹性 02 分时复⽤用 03 边压边弹 03 02 04 01 05 04 IDC引流评估 02 05 其他 04
25. ‹#› ⽇日常弹性 锁定 理区间
26. ‹#› ⽇日常弹性 备注: 集群⽔水位 = 集群QPS / (单机QPS 极限值 * 机器器数) 单机QPS极限能⼒力力 触发模式:⼿手动、⾃自动、定时 触发策略略
27. ‹#› 分时复⽤用背景
28. 分时复⽤用挑战 服务SLO保证 I 事件模型、QoS监控 和熔断机制 精细化分时调度 III 全时段精细化削峰填 ⾕谷 ‹#› II 资源边界最⼤大化 精准权重调度和容量量预 测 IV ⾼高效执⾏行行,快速 恢复 数据分析为前提,多 种执⾏行行策略略
29. ‹#› 分时复⽤用核⼼心模块
30. ‹#› 分时复⽤用效果
31. ‹#› 边压边弹 12 11 10 9 8 7 6 5 4 3 2 1 压测负载易预量测增,容长量趋量评势估 压测交易量增长趋 QPS 700 qps 拟合后与目标负载的交叉点n 600 500 400 300 曲线拟合 qps 200 对数 (qps) 100 0 0 20 机器学4习0 60 80 100 CPU
32. ‹#› 边压边弹执⾏行行流程
33. ‹#› 边压边弹智能决策 ᕮຎ‫ݍ‬ḇ 1$C(N+8Z_ `B`@G%6 ཛྷࣳଫአ @UI?[`@ $C4N`@ ཛྷ໊ࣳྋ \ 3TD&" :9; <J= /] R0 !X5 ᇙ஄൉‫ݐ‬ HK6$C(N+8 /-.A': ᓒဩཛྷࣳᦧ֌ J=VY)%P W*2 J=: TEཛྷXࣳT HଫEአRE @UI?[`@ $C4N`@ ୑ଉຽဳ @UIQF/:E&"8> `@G% E L &"6#8O ᕮຎ‫ݍ‬ḇ L7/-`B^ MS, 6?[`@4N `@G%
34. 边压边弹⽬目标 ‹#› 压测⽆无⼈人值守
35. 05未来展望
36. • 智能化容量量⾃自治。 • 整体集群资源0冗余。
37. F&Q Please Join Us!
38. ‹#› Thanks!