1. 图算法

1.1. [2.0] LPA

LPA（Label Propagation Algorithm）是最简单的社区发现算法，通过标签扩散发掘网络的社区关系。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：输出文件所在路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

算法结果保存路径，共两列，其中第一列为节点 ID，第二列为节点对应的社区 ID。社区 ID 相同表示属于同一个社区。

参数说明

src：源节点列。
dst：目标节点列。
numPartition：分区数。

1.2. [2.0] PageRank

PageRank是著名的节点排序算法，由Google发表。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：输出文件所在路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

算法结果保存路径，共两列，其中第一列为节点 ID，第二列为节点对应的 pr 值，pr 值越大表示节点越重要。

参数说明

src：源节点列。
dst：目标节点列。
numPartition：分区数。
maxIter：最大迭代次数。
tol：最小容忍误差，当误差小于该值时，算法迭代提早结束。

1.3. [2.0] EffectiveSize

EffectiveSize是由结构空洞理论得到的网络度量指标，是 ego-network 中节点的重要衡量指标。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：输出文件所在路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

算法结果保存路径，共三列，其中第一列为节点 ID，第二列为 effectiveSize 值，第三列为 redundancyCol 值。

参数说明

src：源节点列。
dst：目标节点列。
numPartition：分区数。

1.4. [2.0] CommonFriends

CommonFriends用于计算网络中每条连边对应的两个节点的共同好友数。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：输出文件所在路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

算法结果保存路径，共三列，其中第一列为 src 节点 ID，第二列为 dst 节点 ID，第三列为共同好友数。

参数说明

src：源节点列。
dst：目标节点列。
numPartition：分区数。

1.5. [2.0] HyperAnf

HyperAnf 用于计算网络平均直径的估计算法，主要通过 HyperLogLog 数据结构实现，详细说明请参考 HyperAnf 论文。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：输出文件所在路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

算法结果保存路径，共两列，其中第一列为 index，第二列为 anf 值。index 为-1的值即为网络的直径估计值。

参数说明

src：源节点列。
dst：目标节点列。
numPartition：分区数。
maxIter：最大迭代次数。

4.4. 图算法

1. 图算法

1.1. [2.0] LPA

输入

输出

参数说明

1.2. [2.0] PageRank

输入

输出

参数说明

1.3. [2.0] EffectiveSize

输入

输出

参数说明

1.4. [2.0] CommonFriends

输入

输出

参数说明

1.5. [2.0] HyperAnf

输入

输出

参数说明