新浪 WOT2015 “幕后英雄”数据库平台备份系统介绍v1,3 肖鹏

阿木的花园

2019/06/25 发布于 编程 分类

文字内容
2. “幕后英雄” 新浪数据库平台备份系统介绍 肖鹏
3. ⺫⽬目录 • 备份的意义 • 第⼀一阶段—满⾜足需求 • 第⼆二阶段—集中管理 • 第三阶段—效率与安全 • 总结
4. 备份的意义
6. 备份的意义 • 数据安全的基⽯石 • 数据恢复的救命稻草 • 扩容的源头
7. ⼀一些数字 • ⼀一年7000+次扩容 • ⼀一年12次数据恢复 • ⽇日志量3T每天,数据总量2PB • 全年备份36w次,备份成功率99.9%
8. ⾎血泪的教训
9. 备份系统的进化 第⼀一阶段 ⼑刀耕⽕火种 ! 满⾜足 基本需求 第⼆二阶段 集中管理 ! 满⾜足 业务发展 第三阶段 安全和效率 ! 挖掘 备份的价值
10. 第⼀一阶段:满⾜足需求
11. 场景描述 • ⼏几⼗十台服务器 • 不到100个端⼝口 • 不到10T的数据量
12. 解决⽅方案 备份⽅方式 全量冷备 备份周期 每天 备份源 专⽤用MB 备份清理 3天前 存储⽅方式 压缩 扩容 ⼿手⼯工 存储地点 本地+NFS 管理 ⼿手⼯工
13. 架构图 ! ! MB ! 实例 ! 备份 !! ! 备份 ! 程序 ! ! 压缩 ! ! 今天的 ! 备份 ! ! ! MB服务器 传输 ! ! 前天的 ! 备份 ! ! ! ! 清除 昨天的 程序 备份 ! ! ! ! ! 今天的 ! 备份 ! ! ! 远程NFS服务器
14. 思考和原因 • 使⽤用MB为了避免影响线上 • 使⽤用备份存储主要由于业务数据库的容量⽐比较⼩小 • 远程存储主要考虑多机备份,避免单份备份失效 • 设定过期是为了节省NFS的空间
15. 第⼆二阶段:业务发展
16. 业务发展太快
17. 场景描述 • 上千台服务器 • 700+个端⼝口 • 数据容量达到PB级别
18. 遇到的问题 • 容量⼤大了,本地存储不了 • 端⼝口多了,管理不⽅方便 • 备份多了,不⽅方便找 • 专⽤用的MB,成本太⾼高了
19. 解决⽅方案 备份⽅方式 引⼊入xtrabackup 备份周期 ⾃自定义 备份源 MB+Slave 备份清理 最近3份 存储⽅方式 不压缩 扩容 ⾃自动 存储地点 NFS 管理 集中
20. 架构图 备份 策略 备份管理系统 ! ! 扩容 NFS ! 管理 管理 备份 统计 冷备 MB NFS 热备 Slave NFS NFS
21. 思考和原因 • 使⽤用xtrabackup在线备份可以节省MB,降低成本 • 集中管理,避免登录每台服务器,提⾼高⼯工作效率 • 开发⾃自动扩容,降低重复劳动的强度 • 开发备份统计,关注备份成功率及时修复
22. 备份流程图 备份 策略 监听 程序 备份 统计 发起 备份 执⾏行 备份 监控 进度 信息 ⼊入库 失败 告警
23. ⼀一些细节 • 备份失败⾃自动重试⼀一次,提⾼高备份成功率 • 单机多实例备份采⽤用队列,⼀一次⼀一个,节省IO和带宽 • NFS分机架部署,避免交换机流量被打满 • 同⼀一台NFS上的业务错峰备份
24. 第三阶段:安全和效率
25. 业务百花⻬齐放
26. 场景描述 • 规模继续增加 • 业务场景多样性 • 安全审计 • 还原效率
27. 遇到的问题 • 业务差异巨⼤大,⼩小的1G,⼤大的2T • 过多的备份任务和NFS服务器,管理复杂度上升 • 公司的审计需求 • 快速批量扩容 • 还原的成功率
28. 解决⽅方案 备份⽅方式 引⼊入延迟备份和 永久备份 备份周期 ⾃自定义 备份源 MB+Slave 备份清理 最近3份 存储⽅方式 不压缩 扩容 ⾃自动 存储地点 NFS+HDFS 管理 集中+还原测试
29. 架构图 备份 策略 备份管理系统 ! 扩容 NFS ! 管理 管理 ! 备份 统计 MB NFS Slave HDFS Delay 永久备份 还原 检测
30. 思考和原因 • 引⼊入HDFS解决NFS过多引发的管理问题 • 引⼊入延迟备份解决⼤大容量业务备份失败率⾼高的问题 • 引⼊入永久备份满⾜足公司的安全审计需求 • 增加还原检测提⾼高备份数据还原成功率 • 改进⾃自动扩容,提⾼高扩容的效率
31. 还原检测 检测 策略 备份 存储 结果 ⼊入库 还原 程序 判断 程序 还原 测试机 还原 结果 告警
32. ⾃自动扩容改进 备份 数据 找 服务器 确认 业务 确认 业务 推荐 服务器 资产 管理 扩容 批量 扩容 备份 数据 启动 完成 启动 完成
33. 总结
34. 管理层 备份 策略 NFS 管理 扩容 管理 备份 统计 备份⽅方式 全量 冷备 在线 热备 延迟 备份 永久 备份 存储⽅方式 NFS HDFS 备份源 MB SLAVE DELAY 还原 检测
35. 未来计划
36. 规划中 • 建⽴立binlog server backup,定点恢复+⾃自动拆分 • 提炼标准化接⼝口,结合⽔水位系统实现智能扩容
37. Q&A ! 招聘 数据库⼯工程师 ⾃自动化开发⼯工程师 MySQL、Redis、HBase @billy鹏的⾜足迹