服务稳定性和性能告警配置

服务的不稳定可能表现在以下方面：

归根结底，这些表象可归为两类问题：

针对这两类问题，您可以借助 Erda 的告警功能防患于未然，并借助其监控功能进行问题排查。

资源瓶颈

您可以配置容器资源使用的告警策略。一旦资源水位达到阈值即可触发告警，方便及时处理。目前内置的资源告警配置包含以下选项：

应用实例 CPU 使用异常
- 默认：当 CPU 使用率在持续一分钟内平均值大于等于 90% 时触发告警。
- 建议：可将触发阈值修改为 70~80%，为处理人员预留缓冲时间。
应用实例内存使用率异常
- 默认：当内存使用率在持续一分钟内平均值大于等于 90% 时触发告警。
- 建议：可将触发阈值修改为 70~80%，为处理人员预留缓冲时间。
应用实例 OOM
- 默认：当出现 OOM 时，将触发 OOMKilled，此时触发告警。
应用 JVM GC 次数
- 默认：三分钟内触发 GC 次数大于 5 时触发告警。
应用 JVM GC 耗时
- 默认：GC 耗时的最大值大于等于 400ms，或 GC 总和大于等于 1s 时触发告警。
应用 JVM 堆内存
- 默认：当 JVM 堆内存使用率在持续一分钟内平均值大于等于 75% 时触发告警。
应用 NodeJS 堆内存使用率
- 默认：当 NodeJS 堆内存使用率在持续一分钟内平均值大于等于 75% 时触发告警。

如出现性能问题，某种程度上这是种积极的表现，至少说明用户量有所增加。而此时要做的便是让服务可以承受更多用户的并发访问，具体请参见性能压测大盘，排查各类慢请求、慢 SQL，从而解决性能问题。