备份恢复的监控和告警都是以巡检的方式来实现的,巡检在 OCP 里面简单来说就是定时任务来做一些业务上的特定检查,巡检框架会定时调度。
目前巡检包括:
- backup_inspect :会每隔 1 分钟定时确认备份恢复组件的进程状态,如果进程异常停止会发出告警。
- backup_alarm:会每隔 2 分钟定时确认基线备份的任务状态,如果失败或者异常会发出告警。
- backup_inc_alarm:会每隔 2 分钟定时确认增量备份是否超过设定的延迟阈值,若超过,则发出告警。
- backup_clean_log:会每隔十分钟定时清理备份恢复产生的日志,防止磁盘空间不够。
- backup_clean_data:会每天定时清理备份的数据,保留天数可以设置。
操作步骤
- 登录 OCP。
- 单击左导航栏 运维 > 巡检任务,查看任务详情。