阿里搜索中台在DevOps和AIOps的思考及实践

微风

2019/03/24 发布于 技术 分类

文字内容
1. 阿⾥里里搜索中台在DevOps&AIOps的思考及实践 柳柳明 阿⾥里里巴巴⾼高级技术专家
2. 在此键⼊入姓名 在此键⼊入Tittle
3. • DevOps-基础调度框架 DevOps-运维管控平台 • AIOps-实践 •
4. 搜索 AI·OS DL Trainings & Olap 淘宝 天猫 PAI-TF Blink 闲⻥鱼 AE 优酷 … Drogo RTP HA3 DII Inference Search Rec Recall iGraph TPP WSearch SP Blink Store CM2 DeployExpress Lazada Open Search AIRec ES Cloud Consoles Ranking Products AIOps Swift 会场 AutoUmars AOP Torch AutoScale 猜 Jarvis, Mobile AI·OS KMonitor Hawkeye 拍⽴立淘 Sophon Build Service Native Yarn Offline in Online Dolphin Indexlib Suez, AI Online Framework Carbon Stateless Service Layer AI Online Serving Hippo, Online Elastic Scheduling (Migrating to Yarn) Sigma, Universal Batch Resource Allocation Sync Service Bahamut TisPlus, Console for Engineers Themis (Hippo Console)
5. DevOps基础调度框架:简单服务调度 • ⾃自动部署 • 服务挂载 • 可⽤用性保障 • • • 平滑扩缩容 Failover Rolling升级、回滚 5
6. DevOps基础调度框架:复杂⾏行行列列式服务调度 • 场景 − − − • • 最终⼀一致性服务 ⾼高性能⾼高可⽤用低成本 offline for online 服务特点 − 当前状态和⽬目标diff − 渐进性最终⼀一致性 − 需要较⼤大数据和索引 − 统⼀一通信 − 统⼀一存储 − 开放计算 基础能⼒力力 − ⼆二层调度 − 运维管控 − 数据索引 − 多表处理理 − 实时更更新 − ⾼高效通信 − 流程定制 Suez平台 iGraph DII RTP HA3 BE 执⾏行行流程 执⾏行行流程 执⾏行行流程 执⾏行行流程 执⾏行行流程 HA3 RTP iGraph 运维 管控 分布式通信框架 ⼆二层 调度 召回 索引库 排序 过滤 插件机制 DII 流量量调控 表达式计算 多表 辅表 BE 查询缓存 算分 统计 中间数据管理理 ⼦子表 实时更更新 Suez Worker 索引服务 … 离线管控 全量量数据 6 实时更更新数据
7. DevOps运维管控平台 历史问题 • • • 存在三套各⾃自独⽴立的运维系统,维护难、投⼊入多,架构迭代缓慢 在线服务基础运维具备相似性:在线服务管理理、数据Dump&Build、数据回流链路路管理理等。 差异点是不不同业务系统的管控模型不不⼀一样 Sophon … IGraph HA3 DII Suez+Hippo 7 RTP Bahamut BuildService
8. DevOps运维管控平台:基础运维 • 简化运维概念 应⽤用管理理 业务逻辑 抽象 在线服务管控 服务 ⽤用户 Conf 1:N Zone N:1'>N:1'>N:1'>N:1 N:1'>N:1'>N:1'>N:1 Cluster Source N:1'>N:1'>N:1'>N:1 M:N translate Table 数据管控 数据 Data-Chain 抽象 上海 深圳 张北 新加坡 HA3 SP HA3 SP HA3 SP HA3 SP DUMP Swift DUMP Swift DUMP Swift DUMP Swift BS CM2 BS CM2 BS CM2 BS CM2 Hadoop DP2 Hadoop DP2 Hadoop DP2 Hadoop DP2 Hippo Zookeeper Hippo Zookeeper Hippo Zookeeper Hippo Zookeeper PE 8
9. DevOps 运维管控平台:基础运维 服务单元化 • 在离线⾃自动部署⽅方案 • 流量量⾃自动容灾切换 Sp 数据冷备 st3 na61 ha3 x ha3 na61 build service x build service st3 data Center na61 在离线单元化 na61 ha3 st3 x build service na61 st3 x data Center na61 na61 dump swift na61 dump swift na61 St3 na61 dump swift
10. DevOps运维管控平台:业务迭代效率提升 Daily target HA3 数据/biz变更更 • 稳定性保障 diff HA3 current 同步预发 • 发布迭代标准化 • 多重校验机制保障 Pre 冒烟验证 target HA3 diff 冒烟case录⼊入 HA3 current 发布线上 冒烟平台 灰度发布 target Online 并⾏行行机房 HA3 串串⾏行行机房 diff current Clone服务化 HA3 压测服务化 Metric波动 指标监控 切流 10 压测对⽐比
11. DevOps运维管控平台:从系统到全链路路 • 数据关系处理理 • ⾼高度可定制 • auctions Blink Sync 增量量全量量统⼀一 sku auctions_extends users Blink Sync UDP Merge ⾏行行转列列&Bulkload Left Join Blink Sync SwiftSource HbaseScan HbaseLeftJoin UDF SwiftSink HdfsSink
12. AIOps 在搜索的实践 iGraph • SP, Wsearch • TPP • • • • • • • • • • AIOps HA3 ES HA3 HA3 KMon • Metrics + Log + Event • alarm->action • • + • • •
13. AIOps-⼤大促突发流量量变化:弹性扩缩容 背景 • • • QPS预估差异过⼤大 服务间存在错峰 服务QPS存在波动周期性规律律 ⽬目标 • • 打破静态分配资源,按时按需分配 根据流量量动态调整,应对突发流量量
14. AIOps-⼤大促突发流量量变化:弹性扩缩容 HA3 TPP HA3 TPP HA3 TPP HA3 TPP HA3 TPP HA3 ❶ ❶ ❷ TPP ❷ HA3 TPP ❶ ❷ +
15. AIOps-⼤大促突发流量量变化:简单弹性调度困境 • • • Horizontal Pod Auto-scaler • C
16. AIOps-⼤大促突发流量量变化:弹性扩缩容 H + H H c a A CPU/ Mem H B CPU/ Mem CPU/ Mem Drogo & AutoUmars Buffer TPP iGraph DII HA3 Q1 2 3 1 2 - 3 e CPU/ Mem Kmonitor Agent Kmonitor
17. AIOps-资源碎⽚片:容器器最优布局 碎⽚片整理理:提⾼高资源分配率 服务多样性:scale-up 业务亲和性:cpu share
18. AIOps-数据量量和流量量⾃自然变化:⽇日常化容量量评估 背景 从1000+到10000+的业务规模爆炸 业务变化是常态 • • ⽬目标 • Hippo Torch Mem / CPU ⾃自动化申请合理理的(成本低,安全)容器器资源 容量量评估 • • 克隆隆仿真 ⾃自动化性能压测 KMonitor 平台价格调控 • • ⼩小规格实例例提升资源分配率 平衡CPU&Mem&Disk使⽤用 Auto-scale output *
19. AIOps-服务热点分布不不均匀:数据智能搬迁 • • • ⽬目标:负载均衡、⽔水位合理理 约束条件:可控范围内迁移、特殊业务规则 渐进式流量量预热
20. AIOps-平台化建设 • 基础设施建设 • • • ⾼高效管控的执⾏行行-夯实的DevOps • ⼀一切运维对象样本化-运维样本库 + • 算法的⾼高效迭代优化-算法产品化 • c • & • • + • g • g • • E • M • & • e • • • L L A • • L i
21. 在此键⼊入姓名 在此键⼊入Tittle
22. 在此键⼊入姓名 在此键⼊入Tittle
23. 微信 钉钉