运维 张兴龙-京东基础运维的智能化实践

京东基础运维从0到1的过程,讲述京东集团从5000台服务器到十万台服务的运维成果和变化。京东集团运维自动化的平台建设和架构经验。

1. 京东基础运维的智能化实践
3. 用户/客户 服 务 IDC基础平台 层 成本/结算 项目交付 供应商管理 资源管理 自系 动统 化层 平 台 设备的运营及维护 网络规划/管理与维护 操作系统/基础软件 流 程 体 系 管 理 物 基础环境 理 层 基础设施的运营 数据中心 硬件设备 技术保障 机柜 供电 基础服务 介质 综合布线 其它设施
4. 我们和京东一起成长 -- 运维发展历程 人力时代 ..<表格记录> ..逐条记录 ..手动更新 工具时代 ..<软件脚本> ..配置工具 ..批量部署 自动化时代 ..<自动化> ..系统自动化 ..服务自动化 Y 智能化时代 ..<智能化> ..运维---IT运营 ..运维精细化 2011年 308亿 2个IDC机房 5人团队 10000亿+ 40倍 ↑ 近百个节点机房 ?人团队 2017年
5. 智能化的愿景 分析 决策 自动化 智能化 大数据 逻辑 预设 异常 防御 执行 人工 干预 可视化
6. 使用内存操作系统,通过PXE网络引导完全在内存中运行,不占硬盘资源,对服务器硬件 进行操作包括BIOS配置,RAID配置,BMC配置,实现对磁盘分区和创建文件系统等操作 。 系统部署 硬件配置 信息采集&监控 • 多类型操作系统 • 全程页面化自动化 • 业务定制模板 • 自定义RAID配置 • BMC带外配置 • BIOS参数调节 • IPMI/LLDP协议 • CPU、内存、硬盘……信息 • 同步信息到CMDB平台
7. 系统部署
8. 智能化的对比 每次任务发起 到结束以分钟 计算 无人力投入 每次任务从发 起到结束耗时 以天计算 至少1个人力全 程跟进 1500台 300台
9. 智能化的效果 发起需求靠人 01 发起任务定时定量 02 故障跟踪手段单一 03 只能对内提供服务 04 任务处理在工位 05 差异化 01 系统决定是否发起需求 02 数据驱动任务,模型决定规模 03 监控和故障知识库 04 对外赋能 05 移动办公看状态
10. 基础运维的安全 基于平台化、智能 化的运维安全管理 § 基础运维保障
11. 平台职能(IDC平台) 选型 打通 + 完整覆盖 IT 资产生命周期 需求 收集 报废 预算 运营:提供完善的IDC 成本运营基础数据。在采购、 预算、选型、利用率、故障等多方面提供 TCO 数据支 撑。最终为优化 IT 投入成本服务。 下架 运维:通过完善的流程和自动化手段,提升服务器 变更 线上 对业务需求方的交付效率和利用率。 运行 统筹周边业务和系统:监控管理 IDC 机房现场 运营和外包业务。 故障 CMDB 上线 交付 OP 采购 到货 验收 变更
12. 设备故障处理
13. 设备利用率监控
14. 设备利用率平台 实现 4 + 1 利用率计算模型统计 • 约1000W/min 原始数据 • 约100W/S 写入量 • 平均值、峰值、中位值、95%分位值 • 支持京东各体系、一级部门、二级部门 统计粒度 • 实现对比参照 618、11.11数据 • 区分业务部门独立查询权限 通用型:服务器利用率各项指标均衡使用 权重:CPU*40%+内存*20%+磁盘*40% 计算型:服务器利用率侧重于CPU 权重:CPU*100%+内存*0%+磁盘*0% 内存型:服务器利用率侧重于内存 权重:CPU*20%+内存*80%+磁盘*0% 存储型:服务器利用率侧重于磁盘 权重:CPU*20%+内存*0%+磁盘*80% 其他型:服务器利用率无规律以及部分老旧设备 权重:CPU*50%+内存*50%+磁盘*0%
16. 谢谢! THANKS!