12 不可达/不可用主机设置
概述
当agent检查(Zabbix, SNMP, IPMI, JMX)失败并且主机变得不可达时,一些配置 参数 定义了 Zabbix server 作何反应。
不可达主机接口
主机接口在检查失败后被视为不可访问(网络 错误,超时)由 Zabbix、SNMP、IPMI 或 JMX agent。请注意,Zabbix agent主动检查不会以任何方式影响接口可用性。
从UnreachableDelay 那一刻起定义了在这种无法访问的情况下使用其中一项(包括 LLD 规则)重新检查接口的频率,并且此类重新检查将由无法访问的轮询器(或用于 IPMI 检查的 IPMI 轮询器)执行。默认情况下,下次15 秒后再次检查。
在 Zabbix 服务器日志中,不可达性由以下消息指示这些:
Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds
请注意,指示失败的确切监控项和监控项类型 (Zabbix agent)。
在主机不可达期间,Timeout 参数也会影响主机再次被检查的时间。如果Timeout 是 20 秒,但是 UnreachableDelay 是 30 秒, 下一次检查在 50 秒后 。
UnreachablePeriod参数定义了不可达的总时长。 UnreachablePeriod 应该比 UnreachableDelay大几倍, 这样在主机变为不可用之前,主机会被检查不止一次。
如果不可达主机再次出现,监控自动恢复正常:
恢复 Zabbix agent 对主机 “New host”的检查: 连接恢复
将主机接口状态切换回可用
当不可达期结束时,再次轮询接口, 降低使主机接口状态无法访问的监控项的优先级 状态。如果不可达接口再次出现,则监控自动恢复正常:
resuming Zabbix agent checks on host "New host": connection restored
一旦接口可用,主机不会立即轮询所有监控项有两个原因:
- 它可能会使主机过载。
- 主机接口恢复时间并不总是与监控项计划轮询时间匹配。
因此,在主机接口可用后,监控项不会立即被轮询,但他们将被重新安排到下一次轮询。
不可用主机状态
主机不可达期结束后主机没有再次出现, 视主机为不可用。
在server 日志中,不可用是通过类似下面的消息来表示的:
temporarily disabling Zabbix agent checks on host "New host": interface unavailable
在前端 主机可用性图标由绿色(或灰色)变为红色(注意,在鼠标经过时会提示错误描述):
UnavailableDelay 参数定义了在主机不可用期间,主机被检查的频率。
默认为 60 秒 (所以此时从上面的日志信息来看, “temporarily disabling”意味着禁用检查一分钟)。
当主机连接恢复时,监控也会自动恢复正常:
enabling Zabbix agent checks on host "New host": interface became available