全球运维技术大会

CNUTCon 打造运维友好的存储系统

1. 打造运维友好的存储系统 苏锐 Juicedata 合伙⼈人
2. 分享者介绍 • 苏锐 • 06年年开始了了码农⽣生涯 • ⼯工作过不不同类型的公司,Intel、Maxthon、多背⼀一公⽄斤(NGO)、⾖豆瓣、功夫 洗⻋车 • 做过 Tech Lead,做过产品经理理,也做过 CEO • 去年年,加⼊入 Juicedata
3. 运维⼯工作最关⼼心存储的⼏几件事 • 容量量规划 & 空间管理理 • 数据备份 & 验证 • 监控 & 性能
4. 容量量规划 & 空间管理理 • 容量量规划的两难 • 少了了,业务⻓长得快,经常要扩 • 多了了,资云源利利时⽤用率代低,,成本需⾼高 要容量量规划么? • 过程⾮非常复杂
5. 容量量规划 & 空间管理理 • 对象存储 • 简单的 key-value 结构不不能满⾜足需求 • 数据难管理理 • ⽂文件系统
6. 容量量规划 & 空间管理理 du -h -d 1 灵感来⾃自于 DaisyDisk for Mac
7. 容量量规划 & 空间管理理 rm -rf /jfs/tmp juicefs rmr /jfs/tmp
8. 备份 & 验证 • 裸盘 • 云盘:也不不是 100% 持久性安全 • AWS EBS 年年故障率 (AFR) 维持在 0.1%–0.2% 之间,此处的故障指卷完 全或部分丢失。// 也就是如果你有 1000 块盘运⾏行行⼀一年年,其中会有 1-2 块 出现故障 • 备份的正确性:2017.2.1 GitLab 误删数据库,5 份备份都不不能⽤用 • 异地容灾:2015年年 Google europe-west1-b 数据中⼼心被雷雷劈
9. 备份 & 验证 xtrabackup MySQL replica Local volume compress encrypt MySQL replica uncompress decrypt 1.5T数据库,全套流程需要 18⼩小时 Object storage or HDFS download Local volume
10. 备份 & 验证 MySQL replica xtrabackup auto compress & encypt JuiceFS /jfs/mysql-backup snapshot & run MySQL replica 1.5T数据库,全套流程需要 2⼩小时 详细说明与相关代码:http://t.cn/EwPck3v
11. 备份 & 验证 logger JuiceFS Meta Service push Different Region logger follower follower Raft TLS logger Different leader Cloud snapshot logger & changelog Your Cloud Account Object Storage TLS JuiceFS client FUSE Application
12. 备份 & 验证 AWS California Primary JuiceFS Meta Service S3 JuiceFS clients < 1s < 30s Aliyun Beijing Mirrored JuiceFS Meta Service OSS JuiceFS clients
13. 备份 & 验证 • 直接写⼊入对象存储的数据怎么备份? • 云平台提供跨区复制 • JuiceSync,开源,⽀支持 13 种不不同的对象存储 • https://github.com/juicedata/juicesync • $ juicesync SRC DST
14. 监控 • 监控⼀一个 HDFS 集群需要多少个指标? • NameNode 监控:可⽤用性、负载、总⽂文件数、总块数、集群使⽤用百分⽐比、 存活DN数量量、丢失DN数量量、坏盘数量量、丢失block数量量 … • DataNode 监控:读block平均时间、写block平均时间、不不健康节点数 … • 还有集群资源使⽤用量量监控、集群分配数据监控、ZooKeeper 监控、JVM 监 控、RPC 服务监控、Linux 机器器监控 …
15. 监控 & 性能 • 通⽤用 API • https://juicefs.com/api/volume/VOLUME_NAME/metrics? token=YOUR_TOKEN • Prometheus API • https://juicefs.com/api/volume/VOLUME_NAME/status? token=YOUR_TOKEN
16. 监控 & 性能
17. 监控 & 性能 https://github.com/juicedata/logstash-output-file/pull/1/files
18. 监控 & 性能 https://github.com/juicedata/logstash-output-file/pull/2
19. 运维⼯工作最关⼼心存储的⼏几件事 • 容量量规划 & 空间管理理 - 弹性容量量,⽬目录结构 & 图形化管理理 • 数据备份 & 验证 - ⽅方便便⽀支持备份正确性验证、灾难恢复和异地备份 • 监控 - ⼀一个 API 接⼊入 • 性能 - 图形化的系统调⽤用分析
20. 苏锐 rsu@juicedata.io

相关幻灯片