杨乾坤-天猫1682亿数字背后的大数据实时计算平台的架构和运维

资芳馥

2018/05/13 发布于 技术 分类

GOPS全球运维大会由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)联合主办,指导单位为工信部信通院数据中心联盟(DCA)。全球运维大会是国内第一个运维行业大会,面向互联网及传统行业、广大运维技术人员,传播先进技术思想和理念,分享业内最佳实践

文字内容
1. GOPS 全球运维大会 2018 2018.4.13-4.14 中国·广东·深圳·南山区 圣淘沙大酒店(翡翠店) GOPS 全球运维大会2018·深圳站
2. 阿里巴巴实时计算平台 运维架构演进 杨乾坤 技术专家 GOPS 全球运维大会2018·深圳站
3. 目录 1 实时计算平台的运维挑战 2 统一的运维自动化平台 3 主动出击,消除隐患 4 走向智能化 GOPS 全球运维大会2018·深圳站
4. 实时计算、离线计算、在线服务差异 分钟or 小时 离线 计算 SLA 秒级 实时 计算 毫秒级 在线 服务 容灾方式 u1 u3 u2 在线服务 u1 u2 实时计算 资源利用率 u 离线计算 在线服务 实时计算 离线计算 GOPS 全球运维大会2018·深圳站
5. 规模、利用率和稳定性、实时性的矛盾 异构 热点 软硬件 资源利 故障 用提升 GOPS 全球运维大会2018·深圳站
6. 目录 1 实时计算平台的运维挑战 2 统一的运维自动化平台 3 主动出击,消除隐患 4 走向智能化 GOPS 全球运维大会2018·深圳站
7. 平台和运维架构 GOPS 全球运维大会2018·深圳站
8. DAM:硬件运维、运营利器 硬件检 故障预 查 测 硬件运 故障修 营 复 GOPS 全球运维大会2018·深圳站
9. 产品化 Aquila:从工具到产品的升级 运维操作白屏化 服务统一的运维规范和模式 可持续集成能力 对自动化操作的支持能力 GOPS 全球运维大会2018·深圳站
10. Aquila:概念和功能需求 stack 管理 • 一组特定版本的服务集合 • 通过stack 执行单个或多个服务的同时 升级 配置管理 • 支持机器配置分组管理 • 配置代码化,通过git管理,有版本概念, 支持review和回滚 自动化方案 • 集群的自动化扩容 • 服务的自动拉起和维持 通用接口 •完整的rest api,支持各级操作 GOPS 全球运维大会2018·深圳站
11. Aquila:设计和实现 GOPS 全球运维大会2018·深圳站
12. Aquila优势:服务更稳定 1、支持server的HA架构,保障server的高可用 2、db采用云数据库,保障数据的安全性 3、增加配置review流程,保障配置的正确性 4、bugfix的100+,包括配置分组的严重bug等 GOPS 全球运维大会2018·深圳站
13. Aquila优势:服务更稳定 GOPS 全球运维大会2018·深圳站
14. Aquila优势:服务更稳定 GOPS 全球运维大会2018·深圳站
15. Aquila优势:管理更高效 1、stack管理更高效,stack依赖管理重新设计,整体更加简洁 2、集群管理更加高效,多集群管理功能 3、增加配置导入导出流程,方便配置管理和复用 4、支持机器自动注册和服务自动部署,支持docker服务自动部署 5、流程优化的30+,包括部署向导、batch升级、rack导入等 GOPS 全球运维大会2018·深圳站
16. Aquila优势:管理更高效 GOPS 全球运维大会2018·深圳站
17. Aquila优势:服务接入更开放 1、stack包管理和server分离,服务接入更加方便,迭代更快 2、对service 的meta文件进行拆分,将版本信息和依赖、操作信息分离, Stack升级更加灵活 3、支持更灵活的安装方式和源,rpm、tar、git、oss等 GOPS 全球运维大会2018·深圳站
18. Aquila优势:性能更高 1、数据库表结构优化,单server支持50+集群 2、host管理优化,单集群支持5000+机器 3、其他性能优化20+,包括锁优化,事件管理优化,前端框架优化等 GOPS 全球运维大会2018·深圳站
19. Tesla:统一的大数据运营平台 业务中心 • 个人中心:作业 优先级、预算管 理、健康度管理 • BU中心:作业 优先级、预算管 理、健康度管理 平台运营 工具服务 • 集群水位:各种 物理资源、服务 资源维度 • 资源成本:预算、 资源分摊、账单 • 红黑榜:任务 级别、个人级别、 BU级别 • 服务大屏 • 机器分析:硬件、 os、服务层分析 • 任务分析:血缘 分析、资源占用、 优化建议 • 队列分析:作业 列表、资源使用 率 GOPS 全球运维大会2018·深圳站
20. Tesla:统一的大数据运营平台 GOPS 全球运维大会2018·深圳站
21. 目录 1 实时计算平台的运维挑战 2 统一的运维自动化平台 3 主动出击,消除隐患 4 走向智能化 GOPS 全球运维大会2018·深圳站
22. 在影响业务前完成服务器自愈 Dam硬件预测 Aquila上线服 务,加入集群 Aquila下线服 务 自愈or维修完 Dam下线服务 成 器 GOPS 全球运维大会2018·深圳站
23. 资源的自动化扩容 Tesla探测资源水 位紧张 加入集群,调度作 业 启动向Sigma的资 源申请请求 自动化部署服务 容器启动agent, 向Aquila完成注册 GOPS 全球运维大会2018·深圳站
24. 目录 1 实时计算平台的运维挑战 2 统一的运维自动化平台 3 主动出击,消除隐患 4 走向智能化 GOPS 全球运维大会2018·深圳站
25. 集群智能分析-异常分析 GOPS 全球运维大会2018·深圳站
26. 集群智能分析-机器聚类分析 GOPS 全球运维大会2018·深圳站
27. Thanks 高效运维社区 开放运维联盟 荣誉出品 GOPS 全球运维大会2018·深圳站
28. 想第一时间看到高效运维社区 的新动态吗? GOPS 全球运维大会2018·深圳站