风起云涌,APM开启全新数字化体验时代

桥祺祥

2017/11/14 发布于 技术 分类

APMCon是由听云、极客邦科技与InfoQ联合主办的全球高水准APM技术盛会,聚焦当前最为关键的移动端、Web端和Server端的性能监控和管理技术。整个会议包含智能运维、数据库性能优化、移动性能优化、前端性能优化、业务数据实时分析和可视化、微服务与容器与CDN加速等话题。 APMCon内容源于实践并面向社区,来自国内外的演讲嘉宾依据热点话题,面向5年以上的技术团队负责人、中高级开发和运维人员、工程总监分享APM技术创新、趋势和最佳实践。

文字内容
1. 风起云涌 APM开启全新数字化 体验时代 Moca / Aug 10th,  2017
2. CEO  Top  Business  Priorities for  2017  and  2018 (Ranked   by  mentions    within   top  three  -­‐ %  of  respondents) Growth 58% IT-­‐related 31% Corporate 23% Customer21 % Product 20% Financial 16% Workforce 16% C16o%st         8%management Marketing Quality   improve-­‐ ment 7% GRC 7% Sales 6% Pleade  tell  us  about  your  organization’s   top  five  strategic   business  priorities   for  the  next   two  years  (2017/2018).’’(Open-­‐style responses) n=388   CEO s    and    senior   business   executiv es 2017 Gantner,Inc.
3. Submentions  Within  the  IT-Related   Category  of  CEO  Business  Priorities             1% 1% 1% Technology,general Digital,social,web,online Digital  transformation Improvement   general Info,analytics  and  big   data Cloud-related Automation Cybersecurity loT-related Mobile  and  m-commerce E-commerce Workforce   productivity Digital  marketing Multichannel Please  tell   us  about  your  organization's  top  five  strategic  business  priorities   for  the  next  two  years  (2017/2018).”(Open-style   responses) n=191  CEOs  and  senior  business  executives  that  mention  IT  in  top  five  business  priorties   for  the  next  two  years(2017/2018) 2017 Gantner,Inc.
4. 数字化转型对企业带来两个最大的变化 • 业务更多搭载数字化体验呈现,如微信、App,   网站,IoT • IT团队不再只关注稳定保障,还要保证快速迭代创新以适应业务的发展需要。 企业内部IT团队,以及业务团队, 希望能够对数字化业务交易的性能有更高的能见度。 这让性能分析软件市场得到了强有力的 推动。 13.9% 基于现存全球90亿美金的市场, 在2015年这个细分市场又增长了
5. Gartner对性能分析技术的趋势判断 Hype  for  IT  Performance  Analysis,  2017 expectations Wireless  Network   Monitoring   Tools Unified   Communications  Monitoring   Tools Dy nam ic   Optimization   Capacity  Planning  and   Management  Tools V ir t ual  Deskt op  Infr ast r uc t ur e  Monit or ing Network  Fault  Management Tec hnology DevOps Digit al  Ex per ienc e   Monitoring Ar t ific al  Int elligenc e  for  IT   Operations   (AIOps)   N et w or k  Per for m anc e   Monitoring   and   Diagnostics   Tools IT  Event  Correlation  and   Analysis  Tools IT  Infr ast r uc t ur e  Monit or ing Application   Performance  Monitoring   Suites Platforms Cloud   Management  Platforms Innovation   Trigger Pe ak   of   Inflated Expectations Trough  of   Disillusionment time Slope  of   Enlighenment As  of  July  2017 Plate au   of   Productivity Plateau  will  be  reached: less  than  2  years 2  to  5  years 5  to  10  years more  than  10  years Obsolete   before  plateau
6. Gartner对性能分析技术的趋势判断 Figure  2. Priority  Matrix  for  IT  Performance  Analysis,  2017 APM是唯一相对成熟且高价值的技术 benefit years  to  mainstream  adoption less  than  2  years 2  to  5  years transformational high moderate IT  Event   Corre lation   and   Analysis  Tools Network  Fault   Management low As  of   July  2017 Source:  Gartner  (July   2017) AApppplliiccaattioion n    PPeerrffoorrmmaanncec e    MMoonniittoorrini ngg   S  uSiuteiste s DevOps DevOps Cloud   Manage me nt   Platforms IT  Infrastructure   Monitoring 5  to  10  years more  than  10  years A rtifical   Inte llige nce  for  IT   Operations  (AIOps)   Platforms Capacity   Planning  and   Management  Tools Digital   Expe rie nce   Monitoring Dynamic   Optimization   Technology Network  Performance   Monitoring   and   Diagnostics   T ools Unified  Communications   Monitoring   T ools Virtual   De sktop   Infrastructure   Monitoring Wireless  Network   Monitoring   T ools ©2017  Gartner,  Inc
7. 传统的监控不再有效 从用户体验出发面向应用 的监控 能发现70%的问题 面向基础架构的监控 只能发现30%的问题 最最终终用用户体体验验 应应用用程序序 基基础础架构构 WWebb MQ JVM DB OS Server 99.9% 99.9% 99.9% 99.9%
8. Gartner定义的APM必须具备的能力 Magic  Quadrant  for  Application  Performance   Monitoring  Suites Magic   Quadrant 数字化用户体验监控 (DEM) 应用的发现、 深入追踪与诊断(ADTD) 应用分析 (AA)
9. 3大 APM 应用场景
10. APM 新应用
11. 用户体验 量化与优化 移动市场瞬息万变。 用户的忠诚与满意度 都是由最棒的产品性能 惯 出来的, 你不惯着,自然有人惯着。
12. 常见问题 促销活动上线,如何动态掌握 用户体验,快速决策? 内部迭代管理如何制定性能优 化目标? 如何定义用户体验并快速定位 问题?
14. 用户体验 量化
15. 用户体验 监控与分析 核心指标 加载中 完全加载时间 页面可交互 首屏时间 白屏时间 发起浏览请求 开始呈现内容 首屏呈现完毕 DOM  Ready 用户体验核心指标 • 白屏:指用户浏览器输入网址后至浏览器出现至少文字或1px图片的时间, • 计算公式:firstPaintTime-navigationStart • 首屏:用户看到第一屏浏览器内所有的元素呈现所花费时间,听云采用首屏高度内图片加载法获取首屏时间 • 可交互:网站界面交互不依赖于javascript的功能可以使用的时间,也指Dom  Ready时间 • 计算公式:perfData.domInteractive  - perfData.navigationStart • 完全加载:网页中所有资源加载完成并且可用时间,也指Onload时间, • 计算公式:LoadEventEnd-NavigationStart 加载完 成
16. 用户体验 监控与分析 页面性能分析 用户体验 监控与分析 Ajax请求分析 JS错误分析 流媒体监控
17. 用户体验分析 全站监控 • 可以看到全站每个URL的用户体验指标 • 并支持各个指标排序 • 快速查找定位所关注的核心问题 • 点击URL可以去对应URL性能详情
18. 用户体验分析 全站监控 • 可以看到全站每个URL的用户体验指标 • 并支持各个指标排序 • 快速查找定位所关注的核心问题 • 点击URL可以去对应URL性能详情 全站URL 访问量排序 所有指标支持排 序 Learn More
19. 用户体验分析 URL详情
20. 用户体验分析 慢页面详情 基于投诉用户IP  追踪其问题现场 慢页面发生的用户环 境包含:IP、地域运营 商、浏览器、分辨率、 UA 资源元素加载瀑布图 点击可以看到每个元素 的耗时指标 页面加载过程 分解
21. 用户体验分析 全栈溯源 一键直达服务问题根源 全栈溯源 一键直达服务端请求详情 慢页面每个元素 的加载详情
22. 用户体验分析 JS错误追踪 精准定位问题代码行 可以看到该URL下发生的 JS错误,调用页面、时 间段、错误类型、浏览 器、错误次数 JS错误代码的行与列 方便排查问题
23. 用户体验分析 慢元素 大数据分析满页面, 快速找出导致慢页面 的共性元素。可以看 到慢元素的大小、类 型、耗时、调用次数
24. 云体验度量 本以为上了云 就能够实现梦想中的 自动化、高可用 终于可以歇口气 直到 决定把业务迁移到云上 那一刻才发现, 心无所依 体验度量,不能再等。
25. 上云客户 上云选哪家好,云厂商分配的节 点资源实际效果如何? 上云后如何管理保证性能高可视, 是应用、网络、还是云主机的问 题? 云厂商 如何从最终用户体验维度制定链 路节点路由最优策略?
26. 云选型对比 说明 网络层监测数据 平均延时 丢包率 未压测 压测 26ms -­‐ 0.54% -­‐ 云一 基础页面下载时间 应用层监测数据 建立连接时间 首包时间 可用性 1.244s 0.745s 0.018s 0.015s 0.104s 99.91% 0.085s 99.65% 说明 未压测 压测 网络层监测数据 平均延时 丢包率 30ms 4.69% -­‐ -­‐ 云二 基础页面下载时间 应用层监测数据 建立连接时间 首包时间 可用性 1.888s 0.017s 0.058s 99.45% 0.701s 0.017s 0.039s 99.32%
27. 云选型对比 云一 云二 服务器 说明 Bj-­‐ 未压测 101.201.57.1 84-­‐20183 压测 Bj-­‐ 未压测 101.201.57.1 84-­‐20184 压测 Sh-­‐ 未压测 139.224.36.1 37-­‐20178 压测 Sh-­‐ 未压测 139.224.36.1 37-­‐20179 压测 Gd-­‐ 未压测 120.76.198.1 47-­‐20216 压测 Gd-­‐ 未压测 120.76.198.1 47-­‐20217 压测 Apdex 应用服务 器 响应时间 Cpu使用 率 磁盘I/O 0.966 136ms 0% 0% 0.607 144ms 29.3% 0.006% 0.962 137ms 0% 0% 0.638 144ms 29.4% 0.003% 0.978 140ms 0% 0.819 134ms 28.0% 0% 0% 0.968 148ms 0% 0.816 134ms 27.9% 0% 0% 0.954 147ms 0% 0% 0.635 146ms 28.1% 0.057% 0.971 0.769 154ms 139ms 0% 0% 26.8% 0.002% 服务器 说明 Bj-­‐ 未压测 139.198.2.66 -­‐222 压测 Bj-­‐ 未压测 139.198.2.66 -­‐223 压测 Sh-­‐ 未压测 139.198.190. 206-­‐222 压测 Sh-­‐ 未压测 139.198.190. 206-­‐223 压测 Gd-­‐ 未压测 121.201.29.1 98-­‐222 压测 Gd-­‐ 未压测 121.201.29.1 98-­‐223 压测 Apdex 应用服务 器 响应时间 Cpu使用 率 磁盘I/O 1 16ms 0.0% 0% 0.999 59ms 18.8% 0% 1 0.999 16ms 58ms 0.0% 18.6% 0% 0% 1 80ms 0.0% 0% 1 58ms 18.8% 0% 1 80ms 0.0% 0% 1 59ms 19.0% 0% 1 0.999 83ms 54ms 0.0% 0% 17.0% 0.002% 1 0.999 86ms 55ms 0.0% 16.9% 0% 0%
28. 上云后管理 Cost   Transpare ncy  and   Optimizati on Capacity   and   Resource   Optimizati on Cloud   Migration   and  DR Service   Request   Managem ent Provisioni ng   Orchestrat ion  and   Automatio n Governan ce  and   Policy Cloud   Management   Functionality Monitoring   and   Metering Service-­ Level   Managem ent Security   and   Identity Continuou s   Configurat ion   Automatio n Multicloud   Brokering
29. 云厂商节点优化 p 每个服务区的服务节点质量监控 (与曲兰君沟通增加了PEK1,2,3 GD1,AP1,SH1的监控频率和访问城市) p 节点分布访问策略调整 (各运营商和各城市之间的访问最优机房和线路) p 私有节点,实现每个分区数据的互联 (在青云内部环境部署听云的私有节点,进行机房之间的探测) p 竞品分析,PK数据的报告
30. 网络链路选型 基于听云Network 节点访问: • 20W节点 • 全球330个城市 延时 丢包率 测试 l 好 l 中 l 差
31. 网络链路选型 l PEK1机房在移动的访问效果最优,优于联通和电信 l 延时分布呈放射状从北京像外扩散 l 延时基本集中在20ms-‐40ms,丢包率很低 l PEK2机房在移动的效果访问不佳,尤其丢包率较高 l 成都,杭州,济南,郑州的移动用户访问PEK2机房效果不佳,不建议PEK2对这四个地区的移动线路提供服务。
32. 联通 l 筛选出联通用户的访问效果后, 具体的各城市联通线路用户访 问机房的最优节点见图: l 其中上海覆盖7个城市,广东覆 盖7个城市,PEK3覆盖13个城 市,PEK2覆盖1个城市,PEK1 覆盖3个城市 l 现阶段可调整至如图,后续综 合负载和新一轮数据情况进行 进一轮优化 通过延时和丢包综合判断最优线路,丢包为第一考虑因素
33. 电信 l 筛选出电信用户的访问效果后, 具体的各城市联通线路用户访 问机房的最优节点见图: l 其中上海覆盖5个城市,广东覆 盖7个城市,PEK3覆盖7个城市, PEK2覆盖6个城市,PEK1覆盖 5个城市 l 现阶段可调整至如图,后续综 合负载和新一轮数据情况进行 进一轮优化
34. 移动 l 筛选出移动用户的访问效果后, 具体的各城市联通线路用户访 问机房的最优节点见图: l 其中上海覆盖0个城市,广东覆 盖8个城市,PEK3覆盖0个城市, PEK2覆盖5个城市,PEK1覆盖 18个城市 l 现阶段可调整至如图,后续综 合负载和新一轮数据情况进行 进一轮优化
35. DevOps DevOps的本质不是保障稳定 性,而是适应并促进业务的快 速发展。 唯一的价值体现是能否在节奏 要求内支持 商业,客户价值的 体现。 持续监控,可视,可控,可衡 量,才能保证持续交付。
36. APM是DevOps技术的高价值投入 Hype  Cycle   for  DevOps,  2017
37. APM是DevOps的应用 回到第二步 Step9 定位性能变化的原因 Step8 把偏移变量作为因素关联 业务和测试目标 Step 7 度量生产环境性能与 测试数据的偏移 Step 6 设定业务迭代目标 Step 1 基于目标进行开发 step2 基于目标进行测试 Step3 设定性能测试矩阵 Step4 执行迭代到生产环境 Step5
38. APM是DevOps的应用 DNS Proxy CDN CDN GTM CDN CDN Data Center Web FW Web Web App Database Storage App App Database Storage Data Center Web App App Zabbix、DBMON、NAGIOS、 Tivoli(生产)、ELK、响应系统 Mobile   users App Monitor Wap site Browser  Monitor Mobile   site Network Midware System DB Core  network Network delay Components discovery Last  mile Content Hijack Application topology Availability OnDemond check Transaction DB Call JVM Code  review System Network DB SQL Storage server Loading Memory Log
39. 高价值的体现 DevOps团队
40. 关于建立性能监控体现的几点建议 w a • 数据是核心,建立更加一体化的监控 体系,并基于数据加强运维自动化 • IT管理者需要基于数字化转型更新 性能监控策略 • 从数字化用户体验层出发,并与 业务数据做关联分析
41. Thank  You Moca / Aug 10th,  2017