控制台和仪表盘
在仪表盘上显示尽可能多的数据可能很诱人,尤其是当像 Prometheus 这样的系统提供了对应用程序进行如此丰富的检测的能力时。由于信息太多,这可能会导致控制台无法理解,即使系统专家也很难从中提取其含义。
对于操作控制台,不要尝试表现您拥有的所有数据,而要考虑最可能的故障模式是什么,以及如何使用控制台来区分它们。利用您的服务结构。例如,如果在线服务系统中的服务树很大,那么较低服务中的延迟就是一个典型的问题。与其在单个大型仪表板上显示每个服务的信息,不如为每个服务构建单独的仪表板,其中包括与之通信的每个服务的延迟和错误。然后,您可以从顶部开始,然后逐步处理出现问题的服务。
我们发现以下准则非常有效:
- 控制台上的图形不能超过5个。
- 每个图形上的绘图(线)不得超过5个。如果它是堆积/面积图,您可以绘制更多
- 使用提供的控制台模板示例时,请避免在右侧表中输入超过 20-30 个条目
如果您发现自己超出了这些限制,则可以降低不太重要的信息的可视性,并可能将某些子系统拆分为一个新的控制台。例如,您可以对汇总的数据(而不是细分的数据)进行图形化处理,将其移至右侧表,甚至在很少有用的情况下甚至完全删除数据 - 您始终可以在表达式浏览器中查看它!
最后,一组控制台很难服务多个主机。调用时您想知道的内容(发生了什么故障?)与开发功能时想要的内容(多少人碰到了极端案例X?)有很大的不同。在这种情况下,两组独立的控制台会很有用。