刘然 微博平台自动化运维实践

1. 微博平台⾃自动化运维实践 刘然 新浪微博 ⾼高级产品运维架构师
2. • 业务背景 • 痛点分析 • ⾃自动化运维实践 • 未来展望
3. 业务结构
4. 服务类型 三⼤大服务类型: 基于http协议web服务 基于motan协议rpc服务 多种队列列处理理服务
5. 业务数据 ⽤用户 ⽤用户:10亿 DAU:2亿+ MAU:4亿+ 业务量量 ⽇日志:百T+ RPC:万亿+ 接⼝口:600亿+ 系统 设备:万+ 集群:500+ 业务线:100+ 运维 Docker:95% 扩缩容:5min 变更更:30次/w KPI SLA:99.99% RT:50ms 故障分:<2/季
6. • 背景介绍 • 痛点分析 • ⾃自动化运维实践 • 未来展望
7. 峰值挑战 1、峰值来得快、上限⾼高。
8. 需求挑战 2、产品需求变化快。 单⽇日变更更400+次 18年年增加服务池100+ 7*24⽀支持代码发布
9. 稳定性挑战 3、稳定性要求⾼高。 A 来⾃自政府的稳定性要求 C 来⾃自客户的稳定性要求 B 来⾃自群众的稳定性要求 D 来⾃自产品的稳定性要求
10. 技术挑战 4、技术⾰革新快。 监控报警 Nagios ganglia Zabbix Graphite ELK 数据传输 Rsync Rsyslog Scribe Flume Logstash 容器器化 docker console swarm mesos k8s 配置管理理 Puppet Ansible Saltstack
11. • 背景介绍 • 痛点分析 • ⾃自动化运维实践 • 未来展望
12. 运维职责
13. 技术驱动 脚本驱动 通过编写脚本 简化⼈人⼒力力操作 过程。 开源服务驱动 利利⽤用开源技术,通过 少量量的⼆二次开发强化 部分运维组件。 商业服务驱动 通过购买第三⽅方提 供的服务强化部分 运维组件。 ⾃自研服务驱动 组建产品-研发的⾃自研 体系,通过⾃自研各组 件提升运维能⼒力力。
14. 微博平台运维体系
15. ECO系统架构
16. ECO系统展示
17. ECO系统展示
18. ECO系统展示
19. Graphite体系架构
20. Graphite展示
21. 混合云系统架构
22. 单元化扩容架构 ⻓长连接业务,扩缩容遇到的问: 1. 单slb扩多ECS时,会频繁断连 2. 多SLB扩容ECS时,由于轮询策 略略问题,在⻓长连接业务场景会 出现ECS连接数不不均的问题 ⻓长连接业务,扩缩容遇到的问: 1.单slb扩多ECS时,会频繁断连 2.多SLB扩容ECS时,由于轮询策略略问 题,在⻓长连接业务场景会出现ECS连 接数不不均的问题扩容ECS时,由于轮 询策略略问题,在⻓长连接业务场景会出 现ECS连接数不不均的问题
23. 公有云实践 ⻓长连接业务,扩缩容遇到的问: 1. 单slb扩多ECS时,会频繁断连 2. 多SLB扩容ECS时,由于轮询策 略略问题,在⻓长连接业务场景会 出现ECS连接数不不均的问题 ● 通过路路由配置分散两条专线压⼒力力,可随时切换 ● VPN做备⽤用 ● 不不同业务划分⽹网段,便便于监控专线带宽使⽤用情况 ৳๙ ๲Ӭ l 专线 ৳๙ ॖႨ౵$ l 微博 ‫ྐ׈‬ Ⴅ‫پ‬ l VPN⽹络 专线 ‫ྐ׈‬ ॖႨ౵" l 阿⾥云
24. 私有云实践 ◆Step 1 docker+实体服务器器 !利利⽤用离线集群 !更更细的单元划分 !实时的容量量评估 ◆Step2 openstack+kvm+docker !更更完善的物理理隔离 !更更灵活的动态调度 !成本的充分利利⽤用 私有云分布 step1 step2 step2 9% step1 91%
25. 弹性扩容实践 ●混合云进展: ➢容器器数:5000+ ➢晚⾼高峰⾃自动扩容500+ 微博平台 ⼿手机微博 红包⻜飞 其他 主要业务⽅方 其他 8% ●春晚备战: ➢10分钟混合云扩容1000节点、 ⼿手机微博 23% ➢2017春晚峰值历史新⾼高,完成4700台阿⾥里里云ECS扩容, 实现⽆无降级平滑过渡,公有云⾼高峰⽀支持微博50%主体流 红包⻜飞 11% 微博平台 58% 量量。完成feed流、红包⻜飞、⼿手机微博公司各主要业务线均 完成上云⽀支持
26. • 背景介绍 • 痛点分析 • ⾃自动化运维实践 • 未来展望
27. 未来展望 ⻓长连接业务,扩缩容遇到的问: 1. 单slb扩多ECS时,会频繁断连 2. 多SLB扩容ECS时,由于轮询策 略略问题,在⻓长连接业务场景会 出现ECS连接数不不均的问题 关于技术: 1、进⼀一步深化⾃自动化程度,优化⾃自动化流程。 2、提升容器器调度⾃自由度。 3、探索⼈人⼯工智能技术落地⽅方向。
28. 未来展望 ⻓长连接业务,扩缩容遇到的问: 1. 单slb扩多ECS时,会频繁断连 2. 多SLB扩容ECS时,由于轮询策 略略问题,在⻓长连接业务场景会 出现ECS连接数不不均的问题 关于团队: 1、在引⼊入和培养⽅方⾯面更更侧重成员开发能⼒力力。 2、进⼀一步提升服务意识。 3、更更注重运维平台的持续扩展能⼒力力。