范超-京东智能运维和自动化测试工具平台实践

荤采春

2018/05/13 发布于 技术 分类

范超,8年电商网站运维经验,曾就职于腾讯公司,负责易迅网整体运维工作。目前就职于商城前台产品研发部,负责PC网站、APP后台、卖家平台等系统的运维支持。专注于建设移动互联网立体化监控,配套运维工具、技术运营平台建设,移动端架构和加载速度优化工作。

文字内容
1. GOPS 全球运维大会 2018 2018.4.14 中国·广东·深圳·南山区 圣淘沙大酒店(翡翠店) GOPS 全球运维大会2018·深圳站
2. 智能运维和自动化测试工具&平台实践 范超 运维总监 GOPS 全球运维大会2018·深圳站
3. • 自我介绍 • 负责商城前台业务APP、PC网站、无界零售、大客户业务运维管理工作 • 2014年4月加入京东,报障移动端占比从20%增长到80%的规模 • 负责过腾讯社交、电商业务运维,连续7年618和双11大促备战、保障经验 • 丰富的自动化运维、立体监控、移动互联网优化实践经验 GOPS 全球运维大会2018·深圳站
4. 技术服务的AI方向 智能运维 用户体验 智能监控:根因分析、预测、 精准化推送,场景化的故障 自愈、无人值守 大数据 基础平台 评价分类排序 业务纠错 图片识别 业务环节的降本增效 算法 反馈分类 语音转换 用户异常分析 用户画像 自动化测试(case、ui) 测试策略控制 性能预测及建议 技术驱动业务 其他技术服务
5. 一、全网质量监控-智能调度 ü 全网质量监控的困境 32个省*3大运营商+中小运营商+海外,质量各不同 京东覆盖3地9机房的接入点 网络监控依赖网络质量的矛盾 ü 网络地址的采集 业务请求日志中收集用户的网络地址 ü 逆向探测 多机房出口、多并发的反向ping 无法成功探测的网络地址进行标记,并自动的剔除或恢复 ü 探测数据沉淀和告警 每个省份/运营商至少积累20个可用探测点 根据经验、业务数据合理设置阈值发送有效告警 GOPS 全球运维大会2018·深圳站
6. 一、全网质量监控-智能调度 u 智能调度: 基于长期稳定的数据,从自助调度,到自动调度 GOPS 全球运维大会2018·深圳站
7. 一、全网质量监控-CDN质量 • 客户端做图片加载异常埋点,结合 CDN节点流量监控及时发现用户无法 打开图片异常,进行流量调度。 GOPS 全球运维大会2018·深圳站
8. 二、用户反馈跟进-NLP APP、M站、WQ、PC、电话客服、咚咚客服渠道,每天5万条用户反馈数据 事件单3000条/天 用户 反馈渠道 事件单 GOPS 全球运维大会2018·深圳站
9. 自动建单、派单,快速关联反馈信息ID 日报、周报、月报、APP版本总结,自动生成 GOPS 全球运维大会2018·深圳站
10. 三、数据曲线预测-精准告警 ü 应用场景 由于整点秒杀、抢购业务特点,核心系统指标数据存在毛刺,不确定因素多,噪声较大 ü 数据分析 基于历史数据,做加权平均计算,可的出得出相对准确的未来预测值,包括日常峰值毛刺活低谷值 根据准确的预测值,设置较低的阈值,可以敏感的发现各类问题。 GOPS 全球运维大会2018·深圳站
11. 三、返回码监控-精准告警 返回码 ••基于nginx流量转发+错误捕获 ••提升用户体验(遮蔽具体错误信息,跳转对应主页) ••多纬度的统计(客户端ip、域名、服务器ip、具体请求) ••实时告警 客户端 发送HTTP请求 响应HTTP请求并 返回资源 业务A网页服务器 业务B网页服务器 转发HTTP状态码 缓存服务器 业务C网页服务器 缓存服务器 数据存储 配置模块 数据库服务器 收集模块 分析模块 告警模块 GOPS 全球运维大会2018·深圳站
12. 四、自动化测试实践-活动检查 ü 日常在线活动5000+,运营管理上百人,跨部门、跨体系 检查内容-可用性 活动过期 活动404 活动白屏 活动平台适配错误 活动包含下架商品 活动节假日问题 活动页https配置问题 活动页会员plus价格问题 首焦banner重复配置 活动入口与内容匹配 在线活动,可用性检查 在线活动 定时检查 CMS后台 下线活动 检查内容-性能 首屏流量过大 无缓存 缓存时间过短 传输未压缩 http连接未复用 静态资源使用cookie 单张图片过大 页面未延迟加载 JQuery未使用精简版 加载时间过长 无效资源 发布前,性能检查 创建活动 保存活动 上线检查CGI GOPS 全球运维大会2018·深圳站 允许上线 暂停上线
13. 四、自动化测试实践-活动检查 ü 多渠道扫描 APP、PC、微信和手Q入口、一号店 广告推广:邮件、消息推送、短信、微信、线下投放物料库 ü 入口级别扫描 一级入口:首页,5分钟频率 二级入口:频道页、主会场活动,10分钟 三级入口:分会场活动,广告页等,1小时 ü 收益 全年累计发现运营活动问题数量超100,000个 日均扫描活动数15,0000条 通过系统检查代替人工每日可节省人力20人小时 全年累计发现活动性能问题数量超2800个、平均处理时间10分钟 活动页首屏流量消耗减少超过30%平均页面加载时间提升20% GOPS 全球运维大会2018·深圳站
14. 四、自动化测试实践-活动检查 啄木鸟 系统 厨卫 水果 特征1 吸油烟机 苹果 特征2 热水器 猕猴桃 特征3 灶台 橙子 特征n … … GOPS 全球运维大会2018·深圳站
15. 五、自动化测试实践-持续集成 ü APP版本流程的困境 APP开发编译失败了,测试只能干等着 新发现的bug,到底是哪个测试包引出的 测试自己本地打包测试,熟悉成本太高 模块1测试完成了,模块2还没提测 ü APP版本流程的困境期待的改变 是否能够通过持续集成统一出日常提测包 是否能够通过持续集成统一出集成回归包 是否能够通过持续集成追溯问题 是否能够通过持续集成出特定的测试包 GOPS 全球运维大会2018·深圳站
16. 五、自动化测试实践-持续集成 GOPS 全球运维大会2018·深圳站 在这里找到你 要的测试包
17. 五、自动化测试实践-持续集成 GOPS 全球运维大会2018·深圳站 持续集成环境没有备份 没有统一的入口 手动部署环境 缺乏有效的配置管理 未关联测试工作 无法满足敏捷项目的需求 通过多点部署方式容灾 通过建设平台统一入口 通过容器和配置管理实现 自动部署 实现数据全配置化 关联了单元测试,UI自动 化测试 自动化构建流程
18. 移动端管理 GOPS 全球运维大会2018·深圳站
19. Thanks GOPS 全球运维大会2018·深圳站