吴兆松-Zabbix高级玩法

泷飞鸣

2017/12/08 发布于 技术 分类

OpsWorld 运维世界大会由运维帮、云技术、Linux中国三大社区联合举办,三大社区汇聚了大量的技术精英和行业领袖,拥有广泛的群众基础和专家人脉,订阅号粉丝达到20多万人,技术内容覆盖整个互联网技术圈。为了加强行业内的技术交流,本次大会希望通过分享先进的互联网技术,碰撞彼此的思想,一起打造世界领先的互联网技术分享平台!

文字内容
1. Zabbix高级玩法 吴兆松
2. 关于我 吴兆松 @itnihao OneOaaS技术负责人 Zabbix用户,《Zabbix企业级分布式监控系统》作者 运维人员, Go python shell用户 从业经历有大型ISP Cache系统建设、互联网游戏、O2O运维,大型企业私有云建设、大型 企业监控系统建设 目前专注于运维工具平台的开发设计工作 mail: itnihao@qq.com
3. 目录 自动化配置 故障与警告 趋势预测 性能优化
4. Zabbix可以支持的监控类型 l Agent l SNMP Agent l IPMI Agent Agent监控功能 l Agentless Monitoring l Web Monitoring l Database Monitoring l Internal Check l Calculated Monitoring l Custom Command Monitoring CPU Memory Network Disk Service Log File Other Load Average CPU Utilization Memory Utilization Swap/Pagefile Utilization Network Transfer Network Error/Drop Packet Collisions Filesystem Utilization Disk I/O Process Monitoring Windows Service TCP Port connectivity TCP Port response time DNS Monitoring NTP Monitoring Text Log Eventlog File Monitoring Performance Counter(Windows only)
5. Zabbix的分布式架构 垮机房、垮地区分布式部署 使用场景:一个中心管理节点,多个分 部,多个机房 Dashboard 计算 聚合 SSH Telnet Database External Scripts Agent SNMP IPMI JMX Trapper zabbix-agent
6. 自动发现-Discovery 网络 发现 条件 定期搜索IP+端口+特定 条件范围的回复信息 自动 注册 条件 根据Porxy信息/agent 信息判断是否添加 低级别 发现 条件 定期发现主机上面丢失 的监控元素 动作 创建/删除主机和模板,远程 命令/开关主机模板/添加分组 动作 创建/删除主机和模板,开关 主机模板/添加分组 动作 创建/删除监控项 自智 动能 省心 省力 新设备上线! 新分区加入! 新网卡加入! 新元素加入! 多端口加入!
7. LLD-Low Level Discovery
8. In Zabbix, six types of discovery items are supported out of the box: discovery of file systems; discovery of network interfaces; discovery of CPUs and CPU cores; discovery of SNMP OIDs; discovery using ODBC SQL queries; discovery of Windows services. 自动发现的trigger阈值定制: Set the free disk space trigger prototype for a host to: {host:vfs.fs.size[{#FSNAME},pfree].last()}<{$LOW_SPACE_LIMIT:{#FSNAME}} And add macros: {$LOW_SPACE_LIMIT} 10 {$LOW_SPACE_LIMIT:/home} 20 {$LOW_SPACE_LIMIT:/tmp} 50
9. Zabbix API
10. Zabbix API 推荐项目pyzabbix https://github.com/lukecyca/pyzabbix
11. 通过API构建DevOPS生态
12. 目录 自动化配置 故障与警告 趋势预测 性能优化
13. 故障? 什么是故障? 如何定义故障?
14. 故障事例 CPU利用率>90% 内存利用率>90% 磁盘空间>90% ……
15. 故障事例
16. 故障事例
17. 故障事例
18. 例子: {host:system.cpu.load.last()}>5 操作符号: - + / * < > = <> <= >= or and not 功能函数: min max avg last count date time diff regex等 故障分析和依赖: {oneoaas1:system.cpu.load.last()} > 5 and {oneoaas2:system.cpu.load.last()} > 5 and 
 {oneoaas:tps.last()} > 5000
19. 目录 自动化配置 故障与警告 趋势预测 性能优化
20. 凡事预则立,不预则废 基于现在,预测未来
21. 典型使用场景 磁盘还能用多久? 带宽还能撑多久? 用户数会到多少?
22. 1.Trigger函数forecast() 在一段时间内,多久会达到设置的阈值 {Zabbix server:vfs.fs.size[/,free].forecast(7d,,7d)}<100M 2.Trigger函数timeleft() 达到阈值,需要多久的时间 {Zabbix server:vfs.fs.size[/,free].timeleft(7d,,104857600)}<1h
23. 目录 自动化配置 故障与警告 趋势预测 性能优化
24. 性能调优原则 规划期间-考虑磁盘IOPS 架构方面-性能足够高,开销足够小 安装部署-保证各软件最优编译配置 监控方式调整 主动模式最优
25. 可视化解决方案-Grafana
26. 可视化解决方案-OneOaaS Monitor
27. 关于OneOaaS OneOaaS为用户提供运维工具,解决方案。包括CMDB,监 控系统,代码部署等云时代的运维解决方案。 公司由一批资深运维专家组成,他们对云计算和自动化运维有 着独特的见解, 对技术有着狂热的追求,对各行业务有着透彻的 理解,能够为用户提供切实有效的解决方案,并善于为客户解决 运维难题。 其提倡用理论指导运维的方式,帮助客户建立运维意识,制定运维规范,使用成熟高效的运维工具 去迎接大规模运维问题。公司自研的运维工具,能够有效解决运维中的资产管理问题,配置管理问题, 开发测试难题,代码管理问题,监控告警问题。真正的做到运筹帷帐之中,决胜千里之外。 公司官方网站: http://www.oneoaas.com
28. THANKS