一、性能度量

  1. 聚类的性能度量也称作聚类的有效性指标validity index

  2. 直观上看,希望同一簇的样本尽可能彼此相似,不同簇的样本之间尽可能不同。即:簇内相似度intra-cluster similarity高,且簇间相似度inter-cluster similarity低。

  3. 聚类的性能度量分两类:

    • 聚类结果与某个参考模型reference model进行比较,称作外部指标external index
    • 直接考察聚类结果而不利用任何参考模型,称作内部指标internal index

1.1 外部指标

  1. 对于数据集 一、性能度量 - 图1 ,假定通过聚类给出的簇划分为 一、性能度量 - 图2。参考模型给出的簇划分为 一、性能度量 - 图3 ,其中 一、性能度量 - 图4一、性能度量 - 图5 不一定相等 。

    一、性能度量 - 图6 分别表示 一、性能度量 - 图7 的簇标记向量。定义:

    一、性能度量 - 图8

    其中 一、性能度量 - 图9 表示集合的元素的个数。各集合的意义为:

    • 一、性能度量 - 图10:包含了同时隶属于 一、性能度量 - 图11 的样本对。
    • 一、性能度量 - 图12:包含了隶属于 一、性能度量 - 图13 ,但是不隶属于 一、性能度量 - 图14 的样本对。
    • 一、性能度量 - 图15:包含了不隶属于 一、性能度量 - 图16, 但是隶属于 一、性能度量 - 图17 的样本对。
    • 一、性能度量 - 图18:包含了既不隶属于 一、性能度量 - 图19, 又不隶属于 一、性能度量 - 图20 的样本对。

    由于每个样本对 一、性能度量 - 图21 仅能出现在一个集合中,因此有 一、性能度量 - 图22

  2. 下述性能度量的结果都在 [0,1]之间。这些值越大,说明聚类的性能越好。

1.1.1 Jaccard系数

  1. Jaccard系数Jaccard Coefficient:JC

    一、性能度量 - 图23

    它刻画了:所有的同类的样本对(要么在 一、性能度量 - 图24 中属于同类,要么在 一、性能度量 - 图25 中属于同类)中,同时隶属于 一、性能度量 - 图26 的样本对的比例。

1.1.2 FM指数

  1. FM指数Fowlkes and Mallows Index:FMI

    一、性能度量 - 图27

    它刻画的是:

    • 一、性能度量 - 图28 中同类的样本对中,同时隶属于 一、性能度量 - 图29 的样本对的比例为 一、性能度量 - 图30
    • 一、性能度量 - 图31 中同类的样本对中,同时隶属于 一、性能度量 - 图32 的样本对的比例为 一、性能度量 - 图33
    • FMI就是 一、性能度量 - 图34一、性能度量 - 图35 的几何平均。

1.1.3 Rand指数

  1. Rand指数Rand Index:RI

    一、性能度量 - 图36

    它刻画的是:

    • 同时隶属于 一、性能度量 - 图37 的同类样本对(这种样本对属于同一个簇的概率最大)与既不隶属于 一、性能度量 - 图38、 又不隶属于 一、性能度量 - 图39 的非同类样本对(这种样本对不是同一个簇的概率最大)之和,占所有样本对的比例。
    • 这个比例其实就是聚类的可靠程度的度量。

1.1.4 ARI指数

  1. 使用RI有个问题:对于随机聚类,RI指数不保证接近0(可能还很大)。

    ARI指数就通过利用随机聚类来解决这个问题。

  2. 定义一致性矩阵为:

    一、性能度量 - 图40

    其中:

    • 一、性能度量 - 图41 为属于簇 一、性能度量 - 图42 的样本的数量,一、性能度量 - 图43 为属于簇 一、性能度量 - 图44 的样本的数量。
    • 一、性能度量 - 图45 为同时属于簇 一、性能度量 - 图46 和簇 一、性能度量 - 图47 的样本的数量。

    则根据定义有: 一、性能度量 - 图48 ,其中 一、性能度量 - 图49 表示组合数。数字2 是因为需要提取两个样本组成样本对。

  3. 定义ARI指数Adjusted Rand Index:

    一、性能度量 - 图50

    其中:

    • 一、性能度量 - 图51 :表示同时隶属于 一、性能度量 - 图52 的样本对。

    • 一、性能度量 - 图53 :表示最大的样本对。

      即:无论如何聚类,同时隶属于 一、性能度量 - 图54 的样本对不会超过该数值。

    • 一、性能度量 - 图55 :表示在随机划分的情况下,同时隶属于 一、性能度量 - 图56 的样本对的期望。

      • 随机挑选一对样本,一共有 一、性能度量 - 图57 种情形。
      • 这对样本隶属于 一、性能度量 - 图58 中的同一个簇,一共有 一、性能度量 - 图59 种可能。
      • 这对样本隶属于 一、性能度量 - 图60 中的同一个簇,一共有 一、性能度量 - 图61 种可能。
      • 这对样本隶属于 一、性能度量 - 图62 中的同一个簇、且属于 一、性能度量 - 图63 中的同一个簇,一共有 一、性能度量 - 图64 种可能。
      • 则在随机划分的情况下,同时隶属于 一、性能度量 - 图65 的样本对的期望(平均样本对)为:一、性能度量 - 图66

1.2 内部指标

  1. 对于数据集 一、性能度量 - 图67 ,假定通过聚类给出的簇划分为 一、性能度量 - 图68

    定义:

    一、性能度量 - 图69

    其中:一、性能度量 - 图70 表示两点 一、性能度量 - 图71 之间的距离;一、性能度量 - 图72 表示簇 一、性能度量 - 图73 的中心点, 一、性能度量 - 图74 表示簇 一、性能度量 - 图75 的中心点,一、性能度量 - 图76 表示簇 一、性能度量 - 图77 的中心点之间的距离。

    上述定义的意义为:

    • 一、性能度量 - 图78 : 簇 一、性能度量 - 图79 中每对样本之间的平均距离。
    • 一、性能度量 - 图80 :簇 一、性能度量 - 图81 中距离最远的两个点的距离。
    • 一、性能度量 - 图82 :簇 一、性能度量 - 图83 之间最近的距离。
    • 一、性能度量 - 图84 :簇 一、性能度量 - 图85 中心点之间的距离。

1.2.1 DB指数

  1. DB指数Davies-Bouldin Index:DBI

    一、性能度量 - 图86

    其物理意义为:

    • 给定两个簇,每个簇样本距离均值之和比上两个簇的中心点之间的距离作为度量。

      该度量越小越好。

    • 给定一个簇 一、性能度量 - 图87 ,遍历其它的簇,寻找该度量的最大值。

    • 对所有的簇,取其最大度量的均值。

  2. 显然 一、性能度量 - 图88 越小越好。

    • 如果每个簇样本距离均值越小(即簇内样本距离都很近),则 一、性能度量 - 图89 越小。
    • 如果簇间中心点的距离越大(即簇间样本距离相互都很远),则 一、性能度量 - 图90 越小。

1.2.2 Dunn指数

  1. Dunn指数Dunn Index:DI

    一、性能度量 - 图91

    其物理意义为:任意两个簇之间最近的距离的最小值,除以任意一个簇内距离最远的两个点的距离的最大值。

  2. 显然 一、性能度量 - 图92 越大越好。

    • 如果任意两个簇之间最近的距离的最小值越大(即簇间样本距离相互都很远),则 一、性能度量 - 图93 越大。
    • 如果任意一个簇内距离最远的两个点的距离的最大值越小(即簇内样本距离都很近),则 一、性能度量 - 图94 越大。

1.3 距离度量

  1. 距离函数 一、性能度量 - 图95 常用的有以下距离:

    • 闵可夫斯基距离Minkowski distance

      给定样本 一、性能度量 - 图96,则闵可夫斯基距离定义为:

      一、性能度量 - 图97

      • 一、性能度量 - 图98 时,闵可夫斯基距离就是欧式距离Euclidean distance

        一、性能度量 - 图99

      • 一、性能度量 - 图100 时,闵可夫斯基距离就是曼哈顿距离Manhattan distance

        一、性能度量 - 图101

    • VDM距离Value Difference Metric

      考虑非数值类属性(如属性取值为:中国,印度,美国,英国),令 一、性能度量 - 图102 表示 一、性能度量 - 图103 的样本数; 一、性能度量 - 图104 表示 一、性能度量 - 图105 且位于簇 一、性能度量 - 图106 中的样本的数量。则在属性 一、性能度量 - 图107 上的两个取值 一、性能度量 - 图108 之间的 VDM距离为:

      一、性能度量 - 图109

      该距离刻画的是:属性取值在各簇上的频率分布之间的差异。

  2. 当样本的属性为数值属性与非数值属性混合时,可以将闵可夫斯基距离与 VDM 距离混合使用。

    假设属性 一、性能度量 - 图110 为数值属性, 属性 一、性能度量 - 图111 为非数值属性。则:

    一、性能度量 - 图112

  3. 当样本空间中不同属性的重要性不同时,可以采用加权距离。

    以加权闵可夫斯基距离为例:

    一、性能度量 - 图113

  4. 这里的距离函数都是事先定义好的。在有些实际任务中,有必要基于数据样本来确定合适的距离函数。这可以通过距离度量学习distance metric learning来实现。

  5. 这里的距离度量满足三角不等式: 一、性能度量 - 图114

    在某些任务中,根据数据的特点可能需要放松这一性质。如:美人鱼距离很近,美人鱼距离很近,但是的距离很远。这样的距离称作非度量距离non-metric distance