玲昕-阿里巴巴规模化混部技术演进

生长平

2018/05/13 发布于 技术 分类

GOPS 全球运维大会由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)联合主办,指导单位为工信部信通院数据中心联盟(DCA)。全球运维大会是国内第一个运维行业大会,面向互联网及传统行业、广大运维技术人员,传播先进技术思想和理念,分享业内最佳实践。 迄今为止,GOPS 已经举行了八次,大会参会嘉宾累计突破2万人次,国内每一站均为本地区最大规模的高端运维盛会,满意度和推荐度高达95%以上。

文字内容
1. GOPS 全球运维大会 2018 2018.4.13-4.14 中国·广东·深圳·南山区 圣淘沙大酒店(翡翠店) GOPS 全球运维大会2018·深圳站
2. 阿里巴巴规模化混部技术演进 蒋玲(玲昕) 阿里巴巴-系统软件部-技术专家 GOPS 全球运维大会2018·深圳站
3. 个人简介 p 蒋玲,阿里花名玲昕; p 2012年加入淘宝网,曾负责电商、菜 鸟、新零售、阿里影业等业务运维; p 大促自动化备战产品负责人; p 电商规模化混部项目负责人; p 5次参与双11备战,曾荣获“2015年双 11技术保障老A(特种兵)称号”。 GOPS 全球运维大会2018·深圳站
4. 目录 1 阿里巴巴混部探索简介 2 混部方案及架构 3 混部核心技术 4 未来展望 GOPS 全球运维大会2018·深圳站
5. 阿里巴巴混部探索简介 1. 为什么混部?业务增长 VS 资源成本 2. 何为混部? 3. 混部在阿里的发展 4. 阿里巴巴规模化混部成果 GOPS 全球运维大会2018·深圳站
6. 为什么混部? p 业务增长:双11大促日成交额1682亿、大数据存储KPB级、日均百万级任务; p 不同类型业务部署于独立的数据中心,资源体量巨大,万台机器; p 容灾等设计使得在线业务数据中心资源利用率不高,10%左右; p 不同业务特性,表现出分时复用的可能性。 双11交易额(亿) 2000 1682 1500 1000 500 0 2009 2010 2011 2012 2013 2014 2015 2016 2017 GOPS 全球运维大会2018·深圳站
7. 何为混部 ( Co-location ) ? • 不同类型业务混合部署(资源整合) • 通过调度与隔离的手段进行资源共享与竞争 • 保障不同业务服务质量(服务优先级) 实时型业务 计算型业务 GOPS 全球运维大会2018·深圳站 混合部署
8. 在线离线混部 在线业务-高优先级 离线业务-低优先级 交易、支付、浏览型请求 实时响应,不可降级 延时敏感,不可重试 日常:白天高、夜晚低 大促:脉冲压力高,持续时间短 计算型任务 离线任务,可短时间降级 延时不敏感,可重试 日常:白天低,夜晚高 大促:部分降级 在线 • 容器化分配资源 • 高优先级 • 在线日常空闲 离线 • 按进程申请资源 • 低优先级 • 离线日常繁忙 共享与 抢占 • 在、离线各自分 配整机资源 • 闲时离线填充 • 竞争时离线退出 GOPS 全球运维大会2018·深圳站
9. 阿里巴巴混部探索历程 2014年 • 提出混部 2015年 • 线下测试 2016年 • 生产环境验证 • 200台 • 内部用户 2017年 • 生产环境小规 模混部 • 数千台 • 外部用户 2018年 • 生产环境规模 化混部 • 万台 • 外部用户 GOPS 全球运维大会2018·深圳站
10. 阿里巴巴规模化混部成果 1. 混部规模达数千台,经历双11交易核心场景验证; 2. 在线集群上引入离线计算任务(在离线):日常CPU利用率 10% -> 40%; 3. 离线集群上部署在线业务(离在线),支撑双11大促数W笔/s交易创建能力; 4. 混部环境下对在线业务服务干扰影响小于5%; GOPS 全球运维大会2018·深圳站
11. 阿里巴巴规模化混部成果 在线集群上引入离线计算任务:日常CPU利用率 10% -> 40% 混部 40% GOPS 全球运维大会2018·深圳站 非混部 10%
12. 阿里巴巴规模化混部成果 混部环境在线交易服务RT表现:混部干扰 <5% GOPS 全球运维大会2018·深圳站
13. 目录 1 阿里巴巴混部探索简介 2 混部方案及架构 3 混部核心技术 4 未来展望 GOPS 全球运维大会2018·深圳站
14. 混部方案及架构 1. 混部整体架构 2. 混部场景业务部署策略 • 计算存储分离技术 • 无中生有:资源共享 3. 混部场景业务运行策略 • 大促:站点快上快下 • 日常:分时复用 GOPS 全球运维大会2018·深圳站
15. 混部整体架构 p 合并资源,分时 复用; p 业务资源调度: sigma、Fuxi; p 0层:协调一层 调度及资源分配; p 内核级资源隔离; p 支持业务服务优 先级,保障SLA。 GOPS 全球运维大会2018·深圳站
16. 混部场景在线业务部署策略 在离线集群 离在线集群 p 资源整合:网络环境、机型约束 p 单元化架构: • 单元内交易闭环; • 单元流量根据userid进行分流; GOPS 全球运维大会2018·深圳站
17. 计算存储分离技术 传统数据中心 统一计算 计算 SSD 计算 SSD 计算 计算 HDD 计算 HDD 计算 计算 优势: 计算 业务对多类资源高要求降维,减少资源碎片,降低成本; 调度复杂度降级; 充分利用高带宽网络红利; GOPS 全球运维大会2018·深圳站 统一存储 SSD SSD HDD HDD
18. 混部集群资源分配 无中生有;充分共享;竞争隔离。 在线侧 pouch1 CPU pouch2 double 离线侧 job1 job2 job3 Disk 在线分配额 离线分配额 MEM 在线分配额 离线分配额 oversold 在线使用额 离线使用额 在线分配额 离线分配额 Net GOPS 全球运维大会2018·深圳站
19. 大促资源退让机制:站点快上快下 p 在线站点维度容量管控 - 精细化容量模型建模; - 独占型及可伸缩型应 用; p 快速站点容量伸缩能力; p 在线、离线资源调配机制; p 装箱调度能力; p 整站点运行时,离线有部 分资源损失,业务降级; 站点快上: 1小时内快速拉起整站 点容量; 最小站点(K笔/s): GOPS 全球运维大会2018·深圳站 整站点(W笔/s): 站点快下: 半小时内快速缩容到最 小站点容量,释放资源 给离线;
20. 大促站点快上快下:站点运行计划 p 离在线集群支撑99大促、双11大促、双12大促; p 快上1小时、快下半小时,万笔交易能力伸缩,涉及近千个在线容器; p 离线业务平滑顺延,业务无损,用户无感知(半小时全停); p 充分共享物理资源。 GOPS 全球运维大会2018·深圳站
21. 快上快下:不同场景下的资源分配 Day by day Hours*N次 Hours GOPS 全球运维大会2018·深圳站
22. 日常资源退让机制:分时复用 在线日常流量曲线: 在线缩容 离线扩容 GOPS 全球运维大会2018·深圳站 在线扩容 离线缩容 p 时间维度优化资 源分配; p 弹性伸缩,分时 复用; p 平均CPU利用率 提升至60%+;
23. 目录 1 阿里巴巴混部探索简介 2 混部方案及架构 3 混部核心技术 4 未来展望 GOPS 全球运维大会2018·深圳站
24. 混部核心技术 1. 内核资源隔离技术 • CPU HT隔离:Noise Clean,解决超线程资源争抢问题,一堆HT核不会同时跑离线、在线任务 • CPU调度隔离:CFS基础上增加Task Preempt特性,提高在线服务调度优先级 • CPU缓存隔离: CAT,三级缓存(LLC)通道隔离(Broadwell及以上) • 内存隔离:Cgroup内存用量隔离、Bandwidth Control内存带宽隔离、OOM优先级; • 内存弹性:在线闲时,离线调度突破mem Cgroup limit • IO隔离:IO带宽隔离 • 网络QoS隔离:单机TC增强管控;金银铜牌业务等级定义(在线银、离线铜),全网络分等级带 宽保障; 在线业务高优先级保障 GOPS 全球运维大会2018·深圳站
25. 混部核心技术—Memory动态超卖 p 内存容量隔离与抢占—动态内存分配 Cgroup分组控制离、在线内存初始配额; 新增超卖cgroup,将实际未消耗的物理内存分配给离线超卖任务; 在、离线实际使用内存间保留buffer值,用于满足在线内存使用增量; Memory/ Offlinenormal/ Online/ Offlineoversold/ work1 work2 Pouch1 Pouch2 pouch3 Work3 work4 GOPS 全球运维大会2018·深圳站
26. 混部核心技术 2. 在线集群调度 • 应用画像 • 资源调度:装箱、亲和互斥 • 应用自动伸缩、分时复用 • 站点快上快下 3. 离线集群调度 • 分等级任务调度 • 动态内存超卖 • 无损降级、有损降级 NetIO CPU Memory DiskCapacity 调度器 NetCapacity DiskIO 调度器 GOPS 全球运维大会2018·深圳站 调度器
27. 混部核心技术—在线资源调度sigma p 兼容Kubernetes API, 和开源 社区共建 p 采用阿里Pouch容器 (兼 容OCI 标准) p 通过阿里多年大规模及 双11验证 GOPS 全球运维大会2018·深圳站
28. 混部核心技术—离线资源调度 GOPS 全球运维大会2018·深圳站 p 面向海量数据处理和大规模计 算类型的复杂应用 p 提供了一个数据驱动的多级流 水线并行计算框架,在表述能 力上兼容MapReduce,MapReduce-Merge,Cascading, FlumeJava 等多种编程模式。 p 高可扩展性,支持十万以上级 的并行任务调度,能根据数据 分布优化网络开销。自动检测 故障和系统热点,重试失败任 务,保证作业稳定可靠运行完 成。
29. 混部核心技术—统一资源调度0层 p 通过sigma和fuxi完成在线离线 的各自调度 p 通过零层相互协调资源配比 GOPS 全球运维大会2018·深圳站
30. 目录 1 阿里巴巴混部探索简介 2 混部方案及架构 3 混部核心技术 4 未来展望 GOPS 全球运维大会2018·深圳站
31. 未来展望 1. 规模化 2. 多元化 3. 精细化 GOPS 全球运维大会2018·深圳站
32. 规模化:混部成为基础技术能力 全面混部,将成为基础部署能力 千台规模 万台规模 万笔交易 GOPS 全球运维大会2018·深圳站 十万笔交易
33. 多元化:不同类型的业务及资源混部 p 不同业务类型; p 不同硬件设备; p 不同基础设施(云上、云下); 实时 FPGA 计算 GPU GOPS 全球运维大会2018·深圳站 混部
34. 精细化 精细化业务资源画像; 精细化容量管理; 精细化资源调度; 精细化内核隔离; 精细化监控及运维配套; GOPS 全球运维大会2018·深圳站
35. THE END Q&A 微信号:smallfishxx GOPS 全球运维大会2018·深圳站
36. Thanks 高效运维社区 开放运维联盟 荣誉出品 GOPS 全球运维大会2018·深圳站
37. 想第一时间看到高效运维社区 的新动态吗? GOPS 全球运维大会2018·深圳站