告警规则与处理方法

告警规则

本节介绍了监控告警配置中配置的告警项,具体告警规则详见监控告警配置,这里只介绍规则描述和处理方法。

CPU占用百分比

  • 规则描述:当 aslan、user、cron、dind、plutus-vendor、hub-server 中的任一服务,在 5 分钟内的 CPU 占用百分比超过 80% 时,则告警。
  • 处理方法:提高对应服务的 CPU limit 。

内存占用百分比

  • 规则描述:当 aslan、user、cron、dind、plutus-vendor、hub-server 中的任一服务,在 5 分钟内的内存占用百分比超过 80% 时,则告警。
  • 处理方法:提高对应服务的内存 limit 。

服务健康状态

  • 规则描述:当 aslan、user、dind、plutus-vendor、hub-server、zadig-portal 中的任一服务,状态为不健康时,则告警。
  • 处理方法:查看对应服务的 pod 的日志、事件等,排查问题。

状态码 5xx 告警

  • 规则描述:当 5 分钟内平均超过 10 次 5xx 状态码时,则告警。
  • 处理方法:查看 aslan 服务的 pod 的日志、事件等,排查问题。

请求返回时间 P95

  • 规则描述:当 5 分钟内请求的平均响应时间的 P95 超过 2 秒时,则告警。
  • 处理方法:查看 aslan 服务的 pod 的日志、资源占用情况等,排查问题。