服务稳定性和性能告警配置
服务的不稳定可能表现在以下方面:
- 服务突然异常卡顿。
- 服务无法访问。
- 页面一直转圈。
归根结底,这些表象可归为两类问题:
- 资源瓶颈
- 性能瓶颈
针对这两类问题,您可以借助 Erda 的告警功能防患于未然,并借助其监控功能进行问题排查。
资源瓶颈
您可以配置容器资源使用的告警策略。一旦资源水位达到阈值即可触发告警,方便及时处理。
目前内置的资源告警配置包含以下选项:
- 应用实例 CPU 使用异常
- 默认:当 CPU 使用率在持续一分钟内平均值大于等于 90% 时触发告警。
- 建议:可将触发阈值修改为 70~80%,为处理人员预留缓冲时间。
- 应用实例内存使用率异常
- 默认:当内存使用率在持续一分钟内平均值大于等于 90% 时触发告警。
- 建议:可将触发阈值修改为 70~80%,为处理人员预留缓冲时间。
- 应用实例 OOM
- 默认:当出现 OOM 时,将触发 OOMKilled,此时触发告警。
- 应用 JVM GC 次数
- 默认:三分钟内触发 GC 次数大于 5 时触发告警。
- 应用 JVM GC 耗时
- 默认:GC 耗时的最大值大于等于 400ms,或 GC 总和大于等于 1s 时触发告警。
- 应用 JVM 堆内存
- 默认:当 JVM 堆内存使用率在持续一分钟内平均值大于等于 75% 时触发告警。
- 应用 NodeJS 堆内存使用率
- 默认:当 NodeJS 堆内存使用率在持续一分钟内平均值大于等于 75% 时触发告警。
性能瓶颈
如出现性能问题,某种程度上这是种积极的表现,至少说明用户量有所增加。而此时要做的便是让服务可以承受更多用户的并发访问,具体请参见 性能压测大盘,排查各类慢请求、慢 SQL,从而解决性能问题。