Extended Stats Aggregation 字段的其他属性,包括最大最小,方差等等
一种多值度量标准聚合,用于计算从聚合文档中提取的数值的统计信息。可以从文档中的特定数字字段提取这些值,也可以通过提供的脚本生成这些值。
extended_stats聚合是统计信息聚合的扩展版本,其中添加了其他度量,例如sum_of_squares,variance,std_deviation和std_deviation_bounds。
假设数据由代表考试成绩(0到100)的学生组成
GET /exams/_search
{
"size": 0,
"aggs" : {
"grades_stats" : { "extended_stats" : { "field" : "grade" } }
}
}
上述聚合计算所有文档的成绩统计。聚合类型是extended_stats,字段设置定义将在其上计算统计数据的文档的数字字段。以上将返回以下内容:
{
...
"aggregations": {
"grades_stats": {
"count": 2,
"min": 50.0,
"max": 100.0,
"avg": 75.0,
"sum": 150.0,
"sum_of_squares": 12500.0,
"variance": 625.0,
"std_deviation": 25.0,
"std_deviation_bounds": {
"upper": 125.0,
"lower": 25.0
}
}
}
}
聚合的名称(上面的grades_stats)也可以作为从返回的响应中检索聚合结果的密钥。
Standard Deviation Bounds 标准偏差界限
默认情况下,extended_stats指标将返回一个名为std_deviation_bounds的对象,该对象提供与均值相差两个标准偏差的间隔。这可以是一种可视化数据方差的有用方法。如果您需要不同的边界,例如三个标准差,则可以在请求中设置sigma:
GET /exams/_search
{
"size": 0,
"aggs" : {
"grades_stats" : {
"extended_stats" : {
"field" : "grade",
"sigma" : 3 @1
}
}
}
}
@1: sigma 控制应显示平均值+/-的数量
sigma可以是任何非负双精度,这意味着您可以请求非整数值,例如1.5。值0有效,但只返回上限和下限的平均值。
NOTE 标准偏差和界限需要正常性
默认情况下会显示标准偏差及其边界,但它们并不总是适用于所有数据集。您的数据必须正常分发才能使指标有意义。标准偏差背后的统计数据假设是正态分布的数据,因此如果您的数据严重偏向左或右,则返回的值将会产生误导。
Script
根据脚本计算成绩统计:
GET /exams/_search
{
"size": 0,
"aggs" : {
"grades_stats" : {
"extended_stats" : {
"script" : {
"source" : "doc['grade'].value",
"lang" : "painless"
}
}
}
}
}
这将使用 painless 脚本语言并且没有脚本参数将脚本参数解释为内联脚本。要使用存储的脚本,请使用以下语法:
GET /exams/_search
{
"size": 0,
"aggs" : {
"grades_stats" : {
"extended_stats" : {
"script" : {
"id": "my_script",
"params": {
"field": "grade"
}
}
}
}
}
}
Value Script
事实证明,考试高于学生的水平,需要进行等级校正。我们可以使用值脚本来获取新的统计信息:
GET /exams/_search
{
"size": 0,
"aggs" : {
"grades_stats" : {
"extended_stats" : {
"field" : "grade",
"script" : {
"lang" : "painless",
"source": "_value * params.correction",
"params" : {
"correction" : 1.2
}
}
}
}
}
}
Missing value
缺少的参数定义了应该如何处理缺少值的文档。默认情况下,它们将被忽略,但也可以将它们视为具有值。
GET /exams/_search
{
"size": 0,
"aggs" : {
"grades_stats" : {
"extended_stats" : {
"field" : "grade",
"missing": 0 @1
}
}
}
}
@1: 在成绩字段中没有值的文档将与值为0的文档属于同一个存储桶。