1. 图算法
1.1. [2.0] LPA
LPA(Label Propagation Algorithm)
是最简单的社区发现算法,通过标签扩散发掘网络的社区关系。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
算法结果保存路径,共两列,其中第一列为节点 ID,第二列为节点对应的社区 ID。社区 ID 相同表示属于同一个社区。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
1.2. [2.0] PageRank
PageRank
是著名的节点排序算法,由Google
发表。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
算法结果保存路径,共两列,其中第一列为节点 ID,第二列为节点对应的 pr 值,pr 值越大表示节点越重要。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
- maxIter:最大迭代次数。
- tol:最小容忍误差,当误差小于该值时,算法迭代提早结束。
1.3. [2.0] EffectiveSize
EffectiveSize
是由结构空洞理论得到的网络度量指标,是 ego-network
中节点的重要衡量指标。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
算法结果保存路径,共三列,其中第一列为节点 ID,第二列为 effectiveSize 值,第三列为 redundancyCol 值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
1.4. [2.0] CommonFriends
CommonFriends
用于计算网络中每条连边对应的两个节点的共同好友数。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
算法结果保存路径,共三列,其中第一列为 src 节点 ID,第二列为 dst 节点 ID,第三列为共同好友数。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
1.5. [2.0] HyperAnf
HyperAnf
用于计算网络平均直径的估计算法,主要通过 HyperLogLog
数据结构实现,详细说明请参考 HyperAnf 论文。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
算法结果保存路径,共两列,其中第一列为 index,第二列为 anf 值。index 为-1的值即为网络的直径估计值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
- maxIter:最大迭代次数。