阿里巴巴技术专家乔红麟 - 阿里巴巴数据库智能优化系统探索与实践

黄振荣

2017/11/14 发布于 技术 分类

数据库诊断优化是提高数据库性能和稳定性的关键技术之一。过去几年阿里巴巴集团数据库规模急剧增长并且业务变化越来越快,传统DBA人工加工具的诊断和优化方法在规模如此之大,业务场景如此复杂的今天面临极大的挑战。 阿里巴巴数据库技术团队近几年在智能数据库诊断优化方面有一些探索和实践,期望能够在本次演讲中分享: 1、为什么从传统DBA为中心的专家诊断优化转变为向开发人员提供自助化诊断优化服务? 2、如何将数据库诊断优化专家经验转换为产品? 背后的技术和挑战有哪些? 3、如何基于海量数据分析为诊断优化提供更多有价值的输入? 4、如何结合机器学习/深度学习等技术提供更加智能的数据库诊断和优化服务? 5、“自诊断,自优化”智能数据库诊断优化系统的一些思考

文字内容
1. 阿里巴巴数据库智能优化系统! 探索与实践 阿里巴巴集团-数据库事业部! 乔红麟(洪林)
2. 关于我 乔红麟,花名洪林。2015年3月加入阿里巴巴数据库技 术团队,目前负责阿里巴巴数据库智能优化产品 CloudDBA开发。2007年毕业于北京邮电大学,先后从 事过服务器虚拟化(Xen/KVM/VMware vSphere),存储 备份(EMC/DataDomain), 分布式存储等相关技术开发工 作。 Mail: kenny.qhl@alibaba-inc.com qiaohonglin@gmail.com
3. Agenda Why How Now Q&A 阿里数据库优化服务诉求 CloudDBA关键技术 数据库智能优化探索 Q&A
4. Agenda Why How Now Q&A 阿里数据库优化服务诉求 CloudDBA关键技术 数据库智能优化探索 Q&A
5. 数据库优化服务诉求 – 业务诉求 Ø  业务发展速度远超DBA人员发展速度 Ø  数据库规模大,成本压力 Ø  数据库性能带来的稳定性风险(如烂SQL) Ø  业务负载变化常态化,报警前故障已发生 Ø  业务场景复杂,数据库性能容量预估难 Ø  …... 服务产品化 全局规模优化 主动诊断 智能异常发现 容量预估
6. 数据库优化服务诉求 – 用户诉求 Ø “数据库运行的怎么样?” Ø “数据库调用时延为啥变高了?” Ø “数据库刚优化了怎么又慢了?” Ø“  上次的优化效果怎么样?” Ø“  我们需要DBA啊….“ Ø  …… 信息透明 自助化诊断优化 持续优化 量化跟踪,流程闭环 产品化输出
7. CloudDBA@Alibaba CloudDBA是一个数据库智能优化产品,面向开发人员提供自助化诊断优化 服务,致力于成为用户身边的数据库专家。 人 工具化 自动化 智能化 用户身边的数据库专家
8. Agenda Why How Now Q&A 阿里数据库优化服务诉求 CloudDBA关键技术 数据库智能优化探索 Q&A
9. CloudDBA整体架构
10. 产品设计原则 Ø  自助化 Ø  流程闭环 Ø  主动诊断 Ø  规模优化 Ø  数据驱动 Ø  智能化 采集 评估 跟踪 分析 建议 采纳
11. SQL优化闭环 开发流程闭环 压测 需求 分析 数据模 型设计 库表设 计/变更 SQL Review 线下 测试 预发/线 上部署 线上 监控 持续优化 主动 优化 优化 建议 采纳 建议 量化 评估 优化流程闭环 AliSQL When/What to Optimize? 实时/离线计算 全局分析 需优化SQL集合 How to Optimize SQL诊断优化 Deploy & Evaluate 建议推送 量化跟踪 慢日志 全量SQL流水 SQL Template Continuous & Adaptive Self-tuning
12. SQL优化 – What-if Optimizer Ø 全局视角 Ø 代价评估(CBO) Ø 动态采样
13. 空间优化 Ø 实例迁移? Ø 紧急扩容? Ø 删除数据?
14. 数据驱动 – 数据通道 AliSQL Server DBAgent AliSQL Server DBAgent …… AliSQL Server DBAgent AliSQL Server DBAgent Kafka 数据采集 指标丰富(OS/DB/Log/SQL等) 秒级采集 全网覆盖 jStorm ODPS Spark 实时分析 多维度实时汇聚 秒级延迟 全量SQL分析 AliSQL(RocksDB) 离线分析 性能成本模型 容量预测 超大数据量
15. 数据驱动 – 全量SQL分析
16. 数据驱动 - 全量SQL业务价值 Ø 实时全量SQL性能查看 Ø SQL Workload优化 Ø 性能热点分析 Ø性  能优化度量 ØS  QL审计 ØS  QL模型分析 Ø…  …
17. 数据驱动 – 全局优化 Ø  量化全网优化收益 Ø  建立全网性能成本模型 Ø  全网性能成本基线 Ø  发现规模优化点 Ø  ……
18. Agenda Why How Now Q&A 阿里数据库优化服务诉求 CloudDBA关键技术 数据库智能优化探索 Q&A
19. 智能优化 – 自动化到智能化 Ø 异常检测/关联分析 Ø 主动预警 Ø 容量预估 Ø 自诊断,自优化 Ø …… 图片来源
20. 智能优化探索 – 空间预测 Goal: 基于历史增长趋势预测空间可用天数 Value: 自动扩容决策提供输入 全局实例调度策略输入 Challenges: 无规律导入/删除数据 Algorithm: Prophet(Facebook) RDP(Ramer Douglas Peucker) Result:
21. 智能优化探索 – 异常发现 Ø被  动诊断 -> 主动诊断 ü  未报警DB已经异常? ü  历史特征学习? ü  快速发现异常?
22. 智能优化探索 – 自诊断,自优化
23. Summary Why How Now 阿里数据库优化服务诉求 CloudDBA关键技术 数据库智能优化探索
24. Q&A We are hiring!!! Java技术专家/高级专家 ü  数据库诊断优化 ü  Java后端开发 ü  数据处理/数据分析(Storm/Spark等) 算法专家/高级专家 ü  数据挖掘 ü  机器学习 Mail: kenny.qhl@alibaba-inc.com qiaohonglin@gmail.com
25. THANK YOU