告警规则与处理方法
告警规则
本节介绍了监控告警配置中配置的告警项,具体告警规则详见监控告警配置,这里只介绍规则描述和处理方法。
CPU占用百分比
- 规则描述:当 aslan、user、cron、dind、plutus-vendor、hub-server 中的任一服务,在 5 分钟内的 CPU 占用百分比超过 80% 时,则告警。
- 处理方法:提高对应服务的 CPU limit 。
内存占用百分比
- 规则描述:当 aslan、user、cron、dind、plutus-vendor、hub-server 中的任一服务,在 5 分钟内的内存占用百分比超过 80% 时,则告警。
- 处理方法:提高对应服务的内存 limit 。
服务健康状态
- 规则描述:当 aslan、user、dind、plutus-vendor、hub-server、zadig-portal 中的任一服务,状态为不健康时,则告警。
- 处理方法:查看对应服务的 pod 的日志、事件等,排查问题。
状态码 5xx 告警
- 规则描述:当 5 分钟内平均超过 10 次 5xx 状态码时,则告警。
- 处理方法:查看 aslan 服务的 pod 的日志、事件等,排查问题。
请求返回时间 P95
- 规则描述:当 5 分钟内请求的平均响应时间的 P95 超过 2 秒时,则告警。
- 处理方法:查看 aslan 服务的 pod 的日志、资源占用情况等,排查问题。