8. 服务监控

概述

服务监控功能是为帮助那些想要在IT基础设施监控之上获得更高层面监控需求的人设计。在许多情况下,我们不关心底层设施监控细节,比如磁盘空间不足,CPU高负载等等。我们关心的是IT部门提供的服务整体的可用性。我们还关心在整体IT基础设施中最薄弱的环节,以及各种IT服务的SLA指标,现有IT基础设施架构的结构,以及更高层面的监控信息。

Zabbix 服务监控就是针对上述问题提出的解决方案。

服务监控是一种监控数据的分层表现。

下面我们来看一个非常简单的服务结构:

  1. 服务
  2. |
  3. |-工作站
  4. | |
  5. | |-工作站1
  6. | |
  7. | |-工作站2
  8. |
  9. |-服务器

在结构上每个节点都具有监控属性状态。根据所选择的算法,这个状态会被计算并关联到上层状态,服务监控功能最底层是关联的触发器。每个节点状态都是受其触发器状态影响。

触发器的严重等级 如:不分类信息是不影响SLA指标计算的。

配置

配置服务监控,请点击:配置 → 服务

在这个界面上,您可以构建被监视的基础结构的层次结构。最高级的父服务是“root”。您可以向下构建层次结构,方法是添加低级的父服务,然后向它们添加单个节点。

8. 服务监控 - 图1

点击 添加子节点 增加服务监控。 点击名称可编辑一个已创建的服务监控,您可以通过弹出的界面编辑该服务监控属性。

配置一个服务监控

服务监控 选项卡包含通用的服务监控属性

8. 服务监控 - 图2

所有必填字段都标有红色星号。

参数说明
名称服务监控名称。
父服务监控服务监控所属的父服务监控。
状态计算算法服务监控状态计算方法:
不计算 - 不计算服务监控状态。
异常,至少一个子服务出现问题 -只要一个子服务有异常,状态为异常。
异常,所有的子服务都有问题 - 当所有子服务都异常时,状态为异常。
计算SLA启用SLA计算并显示。
可接受的SLA(%)此服务监控可接受的SLA百分比,用于报告。
触发器选择关联的触发器:
- 没有关联的触发器
触发器名称 - 选择关联触发器,因此取决于触发器状态。
最底层服务监控必须关联触发器状态。(否则服务监控状态将无法准确的表示。)
当触发器被关联后,其触发器先前的状态告警不计入。
排序显示排序的顺序,按升序排列。

依赖关系 选项卡可以看到该服务监控所有子节点。单击 添加 增加一个之前配置过的服务监控节点。

8. 服务监控 - 图3

硬依赖和软依赖

服务的可用性指标,可能取决于其他多个服务,而不仅仅是一个。第一个选项是将所有这些直接添加为子服务监控。

然而,如果有一些服务监控在其他节点已增加过,则不能简单的将其移动到该子节点。那该如何创建服务节点依赖?这个问题的答案是“软链接”。添加服务监控并勾选软连接选项。通过这种方式,服务可以保留节点之前原始位置,也可以绑定依赖到其他服务上。这种“软连接”的服务节点在服务树上显示是灰色的。另外,如果一个服务只有一个“软连接” 节点,就可以删除此服务,而不用删除软连接的子节点。

时间 选项卡,用于设置服务监控的工作时间。

8. 服务监控 - 图4

参数说明
服务监控时间默认,所有服务监控都是预设24x7x365统计时间,如有特殊需要,请增加新的服务监控时间。
新的服务监控时间服务监控时间 :
在线时间 - 服务监控正常运行时间。
故障停机时间 - 故障停机时间周期内不会纳入SLA服务时间统计。
单次停机 - 单次停机时间,在该时间阶段内不会纳入SLA服务时间统计。
增加相应的时间段。
注意: 服务监控时间仅影响其配置的服务监控。因此,父服务监控不会考虑子服务监控上配置的服务监控时间(除非在父服务监控上也配置相应的服务监控时间)。
在前端页面计算服务监控状态和SLA时,会考虑这个服务监控时间。然而,无论服务监控时间如何配置计算,关于服务的可用性信息仍会连续不断写入到数据库中。

展示

前往监控服务,请点击 监控 -> 服务