自监控
本节讲解如何做好监控系统的自监控
要做好监控系统的自监控,我们从三个方面入手,预防问题发生、及时发现问题、快速定位止损。
预防问题发生
通过建立巡检大盘,定期观察核心监控指标变化趋势,可以提前发现潜在的问题,Nightingale的各个模块都会主动上报一些自身的业务监控数据,通过这些数据我们可以建立监控大盘,定期巡检。涉及到的监控指标在变更检查中都有所提及
及时发现问题
配置完善的告警策略,是及时发现问题的主要手段,策略配置页面支持导入,我们已经整理了一些自监控的告警策略,可以一键导入,然后批量修改一下报警接收人就可以用起来了 :-)
但当监控系统的数据转发、告警、通知组件不可用时,会导致自身告警能力不可用,所以还需要一个第三方的服务,来负责监控系统的模块存活监控,这样当监控系统告警能力失效时,我们依然可以收到告警通知。第三方监控要足够简单,这里推荐open-falcon使用的自监控服务 anteye ,部署好之后,再给anteye添加一个进程存活监控告警,这样两套监控系统互相监控对方,任何一方出现问题,我们都可以及时感知
快速定位问题
当收到系统自身告警之后,如果从告警通知中能一眼就定位问题,则可以直接进行止损操作。 如果不能立即定位问题,则建议首先观察提前创建的巡检大盘,了解服务整体状态,再观察问题模块的系统和业务指标,来逐渐收敛问题,快速定位止损。
最后修改 2020-04-08: add zh (be08163)