中国移动云计算产品部 刘军卫:中移苏研存储产品化之路

铎慕卉

2017/11/14 发布于 技术 分类

中移苏研存储产品化之路,存储产品线介绍,开源社区投入,新增产品化高级功能,开源存储产品问题总结及存储产品后续规划。

文字内容
1. 中移苏研中S国存移A动C储苏C州2研产0发1中品7心 化之路 云计算产品部 刘军卫
2. 中移(苏州)软件技术有限公司 苏州研发中心(对内),占地480亩, 总建筑面积36万平,目前在职人数850 人,远期规划4500人,聚焦云计算、大 数据、IT支撑系统三大领域,中国移动 IT能力内化和业务创新发展的中坚力量。 2017云计算产品部 CC目前在职240人,开源与自主研发相 SA结合,打造产品化的计算、存储、网络、 安全、云管平台等IaaS、PaaS全线云计 算产品,产品部署规模超过20000台服 务器,研发和工程实力业内领先。
3. 云管平台 (CMP) 运营管理 统一 资源 管理 统一 视图 统一 认证 和 鉴权 系统 资源池管理 统一 监控 告警 资产 管理 智能 运维 云安全管理 安全 中心 4A系统 企业网盘 流媒 体处 理 容灾 备份 协同办公 政务 云 医疗 云 金融 云 DevOps工具 视频 云 行业应用和解 决方案层 (SaaS层) 微服务能力总线(API Gateway) 能力层 微 服 务 应用中间件 (aPaaS) 集成中间件 (iPaaS) 大数据中间件 (bdPaaS) 通信能力中间件 数据中心 (ctPaaS) 操作系统 能 力 基于容器的数据中心操作系统(DCOS) (PaaS层) 7总 1线 0( 计算 存储 网络 安全 API Gateway 2云主机 裸机 C弹性伸缩 融合存储 对象 存储 虚拟专有云 VPC 虚拟防火墙 恶意代码防护 云平台 AC服务编排 块存 储 CDN 操作系统 入侵防御 (IaaS层) S) GPU主机 文件存储 SDN 应用控制 FPGA主机 NFV 安全态势感知 超融合(云计算一体机、数据库一体机、超高性能存储一体机) 虚拟化定制版 容器定制版 定制化操作系统 大数据定制版 数据库定制版 核心设计理念:一级平台,两级管理  统一化(运营与运维统一)  统一用户管理与认证鉴权  统一资源管理和视图  统一监控、告警  分层解耦、微服务化  微服务总线,实现业务与能力前后端分 离,实现业务的标准化接入  分层解耦,IaaS/PaaS/SaaS分层搭积 木式累加设计,实现资源动态联动  功能组件和业务逻辑模块化、服务化, 实现以应用为中心的能力化封装  智能化、自动化  智能化业务部署与运维  智能化资源分配和调度  智能化的服务发现和治理  控制平面容器化(CCP)  Containerization Control Plane  基于Kubernetes的微服务化控制平面
4.  开源SDN方案 - OpenDaylight (2013,java) - ONOS (2014,java) - RYU (2012,python)  商业SDN方案 - 阿朗,华为,华三,中兴 - 思科,Juniper,NSX  存在问题 - underlay与overlay统一管理 - 物理机/虚拟机/容器统一管理 - 与Neutron对接问题 -设备兼容性适配 SACC2017
5. 从中国移动看存储需求  共享硬盘(块存储,替代SAN设备或者专用存储设备) • 数据库,和目视频,电信网性能、告警数据,归档,容 灾等,量最大,百PB以上级别,绝大部分要求ISCSI支持  云存储(对象存储) 017• 企业网盘,无纸化办公,CDN,归档,容灾等,预计18 C2年需求超过100PB SAC NAS存储设备(文件存储) • 139邮箱,和目视频,人工智能,大数据框架等,预计 18年需求在200PB左右
6. 中移苏研存储产品线 统一存储 管理平台 自动化部署 用户管理 监控告警 资源统计 性能分析 存储池管理 块存储管理 对象存储管理 文件存储管理 网盘 存储网关 和目视频 无纸化办公 归档备份 云存储 云硬盘 云化NAS 云化CDN SACC2017S3 Swift Qemu iSCSI NFS CIFS 对象存储 (BC-oNest) 块存储 (BC-EBS) 文件存储 (BC-EFS) 超融合存储 (BC-Cube) 一体机、定制化服务器
7. SACC2017
8. 大云1.0发布 5  全面基于Ceph提供块、对象存储  40PB的对象存储集群 21  基于IPSAN的块存储  双集群20PB块存储集群  自研对象存储 10 1 大云3.0发布 大云4.0发布  优化Ceph性能,SSD性能盘 C20172010年  基于Sheepdog,容量盘  基于IPSAN,性能盘  Cinder统一管理性能盘、容量盘 2015年 2016年 SAC 2016年5月对象存储从oNest转向Ceph RGW  支持ISCSI,开始试点  支持物理机挂载  存储一体机,支持高性能场景 2017年8月  16年11月发送第1个Ceph补丁  2016年10月块存储从Sheepdog转向Ceph RBD  累计至今13人共计被接受150个补丁,提交6  生产环境块存储400+节点,15PB+容量,对象存 个特性,修复50多个Bug 储600+节点,30PB+  首个对象存储多数据中心生产环境案列  Ceph社区排名5位,国内第2位  Ceph RBD iSCSI项目(TCMU)最大贡献者之一
9. 产品化特性(1) – ISCSI  LIO:LinuxIO(LIO)是 Linux 里面一个标准、 开源的 SCSI Target 子系统。LIO 是下一代基于 软件实现的各种 SCSI Target 主流解决方案,其 支持 的SAN 技术中所有流行的存储协议。 LIO + TCMU + LIBRBD  目前社区主流  Redhat,Suse,IBM大力推进  代码易于维护  TCMU:通过 UIO(用户态驱动实现技术)把 17SCSI 命令从 LIO Core 透传到用户空间,使得可 20以在用户空间实现各种 Target 驱动。 CC TCMU-Runner:tcmu-runner 是 TCMU 在用 SA户态下的驱动部分,也是 TCMU 模块的主要处 LIO + KRBD  stgt无社区  国内厂商采用毕源定制版本 STGT + LIBRBD 理逻辑单元。其主要工作是从 TCMU 内核模块  krbd功能、性能全方面落后librbd 映射 ring buffer 到用户空间,然后读取、处理、  需要高版本内核 并更新各个 SCSI 命令。
10. 产品化特性(1) – ISCSI:VAAI高级特性支持 苏研主导了TCMU+LIO对VAAI特性支持的开发,在TCMU社区合并了50+Commit,在Ceph的 Librbd端合并了Writesame与CompareAndWrite两大特性, XCOPY与UNMAP优化。 SACC2017
11. 产品化特性(2) – TCMU高级特性开发 TCMU-runner Dynamic Reloading  原来的tcmu-runner修改配置文件之后,需要重启服 务使配置生效,修改配置会影响业务。  独立实现Dynamic Reloading技术,通过引入新的独 立线程reloading thread监听配置文件的修改,从而支持 TCMU配置的动态修改。 C2017TCMU-runner Logger AC 原来的实现强依赖于syslog接口,难以维护,且存在出 S错时阻塞工作线程的问题  独立实现Non-block Logger子系统,引入自己的 ring-buffer,跟syslog实现解耦从而避免了阻塞问题, 并支持多种方式的日志输出(syslog、stdout、logfile)  代码少于1000行,易于维护
12. 产品化特性(3) – 生命周期管理&桶级别同步 S3对象生命周期  为RGW添加非当前版本对象生命周期管理机制 https://github.com/ceph/ceph/pull/13385  为RGW添加冗余delete marker清除机制 https://github.com/ceph/ceph/pull/14703 定义 (XML) 对象生命周期 SACC2017(2)删除 桶级别同步  原来RGW只支持Zone级别同步,S3也并不 支持桶级别同步  苏研和社区协作开发了桶级别同步 https://github.com/ceph/ceph/pull/15801 (1)归档
13. 产品化特性(4) – 流式存储  支持多种协议  丰富的API  简化视频存储方案  支持第三方软件 • 支持RTMP推流上传 • 签名API • 视频采集客户端直接 • 支OBS/ffmpeg • 支持RTSP推流上传 • 推流API • 支持HLS观看视频 • 点播、直播API 推流到对象存储 • 支持点播/直播 • 其他第三方客户 端 核心代码开发 本地 用 户 SACC2017推流/观流实现 点播 推流/观流日志记录 云端 HLS 摄像头 RTMP/RTSP 自定义配置 云 存 储
14. 产品化特性(5) – 桶级日志  记录内容丰富 • 请求类型、访问对象名称、请求时 间、请求处理时间、客户端IP、请 求URI、用户自定义参数都可记录 共享资源的统计分析,例如 - 下载次数最多的文件是哪个? - 下载次数最多客户端IP是哪个? 7 自定义日志存放位置 01• 可指定日志存放在位置 C2• 存放在其他桶可选性能优先或者容 SAC量优先  CLI和REST接口 • CLI接口查看生成状态 • REST接口配日志置桶日志更方便
15. 后期规划(1) 基于TCMU+LIO的 下一代iSCSI解决方案 强化集成基于TCMU+LIO+Ceph的iSCSI解决方案, 并大力推广,使之成为业内首选的标准化解决方案。 17TCMU Ring Buffer CMD Area的Dynamic C20Grow/Shrink开发,优化CMD处理效率和节省内存 SAC使用。 SCSI命令集完整支持。
16. 后期规划(2) 针对视频应用优化的对象存储方案 流式上传。采用RTMP/RTSP 协议进行推流上传,将视频数据直接存放到对象存储中,转储成 HLS文件,可用于视频的点播或直播。 追加上传。提供对象的追加上传功能,可以在对象的尾端追加数据,提高传输效率,满足视频 SACC2017应用的需求。
17. 后期规划(3) 基于Key/Value存储存储的小文件性能优化方案  开源的Glusterfs小文件性能提升是一大难题,苏研计划使用Key/Value存储加速元数据处理, 提升小文件性能。 SACC2017
18. SACC2017
19. SACC2017