1. 时间序列

1.1. 提取时间序列的各项统计特征([2.0] TsFeatureExtract)

算法说明

时序特征抽取是一个转换器,能对包含时间序列的数据进行特征抽取,产生一系列新的特征。该转换器支持的特征包括:最大值、最小值、均值、方差、标准差、偏度、峰度、中位数、极差、序列各项的平方和、序列相邻两项之差的均值等等。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

1.2. 自相关系数([2.0] ACF)

算法说明

自相关系数衡量y(t)y(t-k)之间相关性。对于一个平稳时间序列,自相关系数(ACF)会快速的下降到接近 0 的水平,然而非平稳时间序列的自相关系数会下降的比较缓慢。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 时间列:时间数据所在的列。
  • 时间序列数据列:时间序列数据所在的列。
  • 最大延迟:即lag值,即算法说明中的k值。

1.3. 偏自相关系数([2.0] PACF)

算法说明

偏自相关性是指去除y(t-1)y(t-2)y(t-k+1)的影响之后,衡量y(t)y(t-k)之间相关性。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 时间列:时间数据所在的列。
  • 时间序列数据列:时间序列数据所在的列。
  • 最大延迟:即lag值,即算法说明中的k值。
  • 是否包含截距:包含或者不包含。

1.4. 差分([2.0] Differentiated)

算法说明

对于非平稳序列,我们可以通过差分法,将其转换为平稳序列。计算相邻观测值之间的差值,这种方法被称为差分法。差分可以通过去除时间序列中的一些变化特征来平稳化它的均值,并因此消除(或减小)时间序列的趋势和季节性。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 时间列:时间数据所在的列。
  • 时间序列数据列:时间序列数据所在的列。
  • 差分阶数:即d值。

1.5. KPSS检验([2.0] KPSS Test)

算法说明

单位根检验是一种更客观的判定是否需要差分的方法。这个针对平稳性的统计假设检验被用于判断是否需要差分方法来让数据更平稳。KPSS检验原假设为数据是平稳的,我们要寻找能够证明原假设是错误的证据。因此,很小的P值(例如小于0.05)说明需要进行差分。具体原理请参考原始论文

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 时间列:时间数据所在的列。
  • 时间序列数据列:时间序列数据所在的列。
  • 常数和趋势选择:c或ct。当选择为c时,回归的形式是ts_i = alpha + error_i,当选择为ct时,回归的形式是ts_i = alpha + beta * i + error_i

1.6. 迪基福勒检验([2.0] ADF Test)

算法说明

单位根检验是一种更客观的判定是否需要差分的方法。这个针对平稳性的统计假设检验被用于判断是否需要差分方法来让数据更平稳。迪基-福勒检验(Dickey-Fuller test)也是单位根检验方法,它可以测试一个自回归模型是否存在单位根(unit root)。具体原理请参考原始论文

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 时间列:时间数据所在的列。
  • 时间序列数据列:时间序列数据所在的列。
  • 常数和趋势选择:可选择c、ct、ctt、nc,分别表示添加常数、添加常数和趋势、添加常数和线性以及二次趋势、不添加常数和趋势。

1.7. 差分整合移动平均自回归模型([2.0] ARIMA)

算法说明

许多非平稳序列差分后会显示出平稳序列的性质,这个非平稳序列为差分平稳序列。差分平稳序列使用差分整合移动平均自回归模型(ARIMA)进行拟合。ARIMA 包含3个部分:ARIMA

  • AR表示auto regression,即自回归模型。
  • I表示integration,即单整阶数,时间序列模型必须是平稳性序列才能建立计量模型,ARIMA模型作为时间序列模型也不例外,因此首先要对时间序列进行单位根检验,如果是非平稳序列,就要通过差分来转化为平稳序列,经过几次差分转化为平稳序列,就称为几阶单整。
  • MA表示moving average,即移动平均模型。 可见,ARIMA模型实际上是AR模型和MA模型的组合。p为自回归模型滞后阶数,d为时间序列单整阶数,q为移动平均模型滞后阶数。当pd 为0时,ARIMA模型退化为MA模型,当 qd 为0时,ARIMA模型退化为AR 模型。仅当d为0时,ARIMA 模型退化为ARMA模型。

训练节点

  • 输入
    • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。
    • 自回归项数:p 值,默认为1。
    • 差分次数:d值,默认为0。
    • 滑动平均项数:q值,默认为1。
    • 优化器评价次数:默认为100。
    • 迭代次数:默认为100。
    • intercept:是否带截距,默认为 true。

预测节点

  • 输入

    • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet
  • 输出

    • 输出数据路径:输出文件所在路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。

1.8. 自动差分整合移动平均自回归模型([2.0] AutoARIMA)

算法说明

自动差分整合移动平均自回归模型给定maxPmaxDmaxQ,它通过搜索获取合适的pdq值,来建立一个差分整合移动平均自回归模型。

训练节点

  • 输入
    • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。
    • 最大自回归项数:maxP 值,默认为2。
    • 最大差分次数:maxD值,默认为2。
    • 最大滑动平均项数:maxQ值,默认为2。
    • 优化器评价次数:默认为100。
    • 迭代次数:默认为100。
    • intercept:是否带截距,默认为 true。

预测节点

  • 输入

    • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet
  • 输出

    • 输出数据路径:输出文件所在路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。

1.9. 指数加权移动平均法([2.0] EWMA)

算法说明

指数加权移动平均法(Exponentially Weighted Moving Average,EWMA)是一种常用的序列数据处理方式。在t时刻,根据实际的观测值可以求取EWMA(t):EWMA(t) = aY(t) + (1-a)EWMA(t-1),t = 1,2,…..,n;其中,EWMA(t) 表示t时刻的估计值;Y(t)表示t时刻的测量值;n 表示所观察的总的时间;a(0 < a <1)表示对于历史测量值权重系数。之所以称之为指数加权,是因为加权系数a是以指数式递减的,即各指数随着时间而指数式递减。用n 表示为a = 2/( n + 1)

训练节点

  • 输入
    • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。
    • 初始值:默认为0.0。
    • 优化器评价次数:默认为100。
    • 迭代次数:默认为100。

预测节点

  • 输入
    • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:输出文件所在路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
      • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。

1.10. 广义自回归条件异方差模型([2.0] GARCH)

算法说明

自回归条件异方差模型(ARCH)模型的实质是使用残差平方序列的q阶移动平移拟合当期异方差函数值,由于移动平均模型具有自相关系数q阶截尾性,所以ARCH模型实际上只适用于异方差函数短期自相关系数。但是在实践中,有些残差序列的异方差函数是具有长期自关性,这时使用ARCH模型拟合异方差函数,将会产生很高的移动平均阶数,增加参数估计的难度并最终影响ARCH模型的拟合精度。为了修正个问题,提出了广义自回归条件异方差模型(GARCH), 该模型简记为 GARCH(p,q)GARCH模型实际上是在ARCH的基础上,增加考虑异方差函数的p阶自回归性而形成,它可以有效的拟合具有长期记忆性的异方差函数。ARCH模型是GARCH模型的一个特例,p = 0GARCH(p,q)模型。本平台支持p = 1、q = 1的广义自回归条件异方差模型。

训练节点

  • 输入
    • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。
    • 优化器评价次数:默认为100。
    • 迭代次数:默认为100。

预测节点

  • 输入
    • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
        • 输出数据路径:输出文件所在路径。
        • 输出数据格式:格式包括以下三种:
        • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
        • text:文本文件
        • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。

1.11. 三次指数平滑模型([2.0] HoltWinters )

算法说明

移动平均模型在解决时间序列问题上简单有效,但它们的计算比较难,因为不能通过之前的计算结果推算出加权移动平均值。此外,移动平均法不能很好的处理数据集边缘的数据变化,也不能应用于现有数据集的范围之外。因此,移动平均法的预测效果相对较差。指数平滑法(exponential smoothing)是一种简单的计算方案,可以有效的避免上述问题。按照模型参数的不同,指数平滑的形式可以分为一次指数平滑法、二次指数平滑法、三次指数平滑法。其中一次指数平滑法针对没有趋势和季节性的序列,二次指数平滑法针对有趋势但是没有季节特性的时间序列,三次指数平滑法则可以预测具有趋势和季节性的时间序列。术语Holt-Winter指的就是三次指数平滑。三次指数平滑模型(HoltWinters)按照季节性分量的计算方式不同,可以分为累加式季节性分量和累乘式季节性分量。

训练节点

  • 输入
    • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。
    • period:数据季节性区间。
    • 优化器评价次数:默认为100。
    • 迭代次数:默认为100。
    • 季节性分量计算方式:有累加式和累乘式两种,默认是累加式。

预测节点

  • 输入
    • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:输出文件所在路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 参数
    • 时间列:时间数据所在的列。
    • 时间序列数据列:时间序列数据所在的列。