监控体系总览

在业界应用的监控已经是很常见的了,特别是分布式系统中,监控已经是不可获取的一部分,而 Metrics 作为监控的一大标准,已经出现在各个地方,最近在微服务领域也有 Metrics 的身影,通过它,我们可以可以了解系统的运行状况,健康状况,性能状况等等,通过对历史数据的分析,也可以帮助我们发现系统缺陷和避免系统不稳定的发生。

Pandora.js 提供了一套简单的监控机制,包含但不限于 Metrics,让用户可以在应用中采集自己的数据,并且通过一定的机制可以让外部系统收集和计算。

Pandora.js 的整个监控体系分为两个大部分,数据采集机制和数据透出机制,我们将一一来描述。

数据采集机制

Pandora.js 的数据采集分为几块内容,简单来说,分为 服务端客户端 ,基本上是一对多的关系,一个服务端接受多个客户端的返回数据,并且汇总,储存在内存中。

数据的采集是通过 EndPointIndicator 来完成的。

EndPoint 采集机制

EndPoint 可以看做服务端,用来接收客户端返回的数据。

而客户端,我们叫做 indicator,用来真正执行逻辑,将数据上报给服务端。

而服务端和客户端通过 IPC 进行通信,这样对应的模型就变成了以下的样子。

img

我们有一些比较常用的 EndPoint ,比如健康检查,运行时数据访问等,只要是希望通过客户端披露的,都可以通过 EndPoint 机制来完成。

Metrics 采集机制

标准的 metrics ,支持几种标准类型

  • Gauge 瞬时值
  • Counter 计数器
  • Meter 吞吐率度量器
  • Histogram 直方分布度量器
  • Timer 吞吐率和响应时间分布度量器

Pandora.js 对这几种类型都做了一定程度的支持,但是 Gauge 和 Counter 类型最为常用。

这些类型有一些基础类,也有一些实现类,在使用的时候可以自行选择。

数据透出

每个 EndPoint ,采集了各种各样的数据,但是还不能被用户或者外部采集器获取,所以我们定义了两种不同的方式来进行对外暴露,Resource 和 Reporter 机制就是其中的两种策略。

Resource 机制

在应用运行中,虽然有 EndPoint 在服务端汇总客户端的数据,但是用户依旧无法获取或者接触到这部分的数据,我们设计了一套 Resource 机制,将 EndPoint 的结果通过 HTTP 协议暴露出来,这样用户就能直观的拿到这些结果。

比如健康检查,我们提供了 /health 路由,这样用户可以通过该路由直接拿到每个客户端的状态,如果这些客户端埋入到了中间件中,就能直接获取中间件的状态。

Reporter 机制

这是另一种对外暴露数据的方式,我们往往采集了数据还不够,还需要进行数据存储,分析,再加工,而 Pandora 不做这些事情,而需要外部的 APM 平台来做,比如 oneApm 或者 open-falcon 等,这个时候 Reporter 就有用了。

Reporter 定义了一系列数据输出方式,默认的有一些:

  • ConsoleReporter 通过命令行输出 MetricsEndPoint 的内容
  • FileMetricsManagerReporter 通过 metrics.log 文本来输出 MetricsEndPint 的内容

注意,MetricsEndPoint 是一个特殊的存在,大多数 APM 只需要采集这个 EndPoint,如果框架或者用户想采集其他的 EndPoint,可以通过 Resource 暴露的 HTTP API 或者自定义 Reporter 的方式。

当然你也可以自定义 Reporter,把数据发送到不同的地方,我们也提供了一些外部 APM 的 Reporter,请通过 这里 查看。