备份恢复的监控和告警都是以巡检的方式来实现的,巡检在 OCP 里面简单来说就是定时任务来做一些业务上的特定检查,巡检框架会定时调度。

目前巡检包括:

  • backup_inspect :会每隔 1 分钟定时确认备份恢复组件的进程状态,如果进程异常停止会发出告警。
  • backup_alarm:会每隔 2 分钟定时确认基线备份的任务状态,如果失败或者异常会发出告警。
  • backup_inc_alarm:会每隔 2 分钟定时确认增量备份是否超过设定的延迟阈值,若超过,则发出告警。
  • backup_clean_log:会每隔十分钟定时清理备份恢复产生的日志,防止磁盘空间不够。
  • backup_clean_data:会每天定时清理备份的数据,保留天数可以设置。

操作步骤

  1. 登录 OCP。
  2. 单击左导航栏 运维 > 巡检任务,查看任务详情。

运维巡检.jpg