Extended Stats Aggregation 字段的其他属性,包括最大最小,方差等等

一种多值度量标准聚合,用于计算从聚合文档中提取的数值的统计信息。可以从文档中的特定数字字段提取这些值,也可以通过提供的脚本生成这些值。

extended_stats聚合是统计信息聚合的扩展版本,其中添加了其他度量,例如sum_of_squares,variance,std_deviation和std_deviation_bounds。

假设数据由代表考试成绩(0到100)的学生组成

  1. GET /exams/_search
  2. {
  3. "size": 0,
  4. "aggs" : {
  5. "grades_stats" : { "extended_stats" : { "field" : "grade" } }
  6. }
  7. }

上述聚合计算所有文档的成绩统计。聚合类型是extended_stats,字段设置定义将在其上计算统计数据的文档的数字字段。以上将返回以下内容:

  1. {
  2. ...
  3. "aggregations": {
  4. "grades_stats": {
  5. "count": 2,
  6. "min": 50.0,
  7. "max": 100.0,
  8. "avg": 75.0,
  9. "sum": 150.0,
  10. "sum_of_squares": 12500.0,
  11. "variance": 625.0,
  12. "std_deviation": 25.0,
  13. "std_deviation_bounds": {
  14. "upper": 125.0,
  15. "lower": 25.0
  16. }
  17. }
  18. }
  19. }

聚合的名称(上面的grades_stats)也可以作为从返回的响应中检索聚合结果的密钥。

Standard Deviation Bounds 标准偏差界限

默认情况下,extended_stats指标将返回一个名为std_deviation_bounds的对象,该对象提供与均值相差两个标准偏差的间隔。这可以是一种可视化数据方差的有用方法。如果您需要不同的边界,例如三个标准差,则可以在请求中设置sigma:

  1. GET /exams/_search
  2. {
  3. "size": 0,
  4. "aggs" : {
  5. "grades_stats" : {
  6. "extended_stats" : {
  7. "field" : "grade",
  8. "sigma" : 3 @1
  9. }
  10. }
  11. }
  12. }

@1: sigma 控制应显示平均值+/-的数量

sigma可以是任何非负双精度,这意味着您可以请求非整数值,例如1.5。值0有效,但只返回上限和下限的平均值。

NOTE 标准偏差和界限需要正常性

默认情况下会显示标准偏差及其边界,但它们并不总是适用于所有数据集。您的数据必须正常分发才能使指标有意义。标准偏差背后的统计数据假设是正态分布的数据,因此如果您的数据严重偏向左或右,则返回的值将会产生误导。

Script

根据脚本计算成绩统计:

  1. GET /exams/_search
  2. {
  3. "size": 0,
  4. "aggs" : {
  5. "grades_stats" : {
  6. "extended_stats" : {
  7. "script" : {
  8. "source" : "doc['grade'].value",
  9. "lang" : "painless"
  10. }
  11. }
  12. }
  13. }
  14. }

这将使用 painless 脚本语言并且没有脚本参数将脚本参数解释为内联脚本。要使用存储的脚本,请使用以下语法:

  1. GET /exams/_search
  2. {
  3. "size": 0,
  4. "aggs" : {
  5. "grades_stats" : {
  6. "extended_stats" : {
  7. "script" : {
  8. "id": "my_script",
  9. "params": {
  10. "field": "grade"
  11. }
  12. }
  13. }
  14. }
  15. }
  16. }

Value Script

事实证明,考试高于学生的水平,需要进行等级校正。我们可以使用值脚本来获取新的统计信息:

  1. GET /exams/_search
  2. {
  3. "size": 0,
  4. "aggs" : {
  5. "grades_stats" : {
  6. "extended_stats" : {
  7. "field" : "grade",
  8. "script" : {
  9. "lang" : "painless",
  10. "source": "_value * params.correction",
  11. "params" : {
  12. "correction" : 1.2
  13. }
  14. }
  15. }
  16. }
  17. }
  18. }

Missing value

缺少的参数定义了应该如何处理缺少值的文档。默认情况下,它们将被忽略,但也可以将它们视为具有值。

  1. GET /exams/_search
  2. {
  3. "size": 0,
  4. "aggs" : {
  5. "grades_stats" : {
  6. "extended_stats" : {
  7. "field" : "grade",
  8. "missing": 0 @1
  9. }
  10. }
  11. }
  12. }

@1: 在成绩字段中没有值的文档将与值为0的文档属于同一个存储桶。