第八章:聚类

原文:http://guidetodatamining.com/chapter8/

内容:

  • 层次聚类法
  • 编写层次聚类算法
  • k-means聚类算法
  • 安然事件

前几章我们学习了如何构建分类系统,使用的是已经标记好类别的数据集进行训练:

聚类 - 图1

训练完成后我们就可以用来预测了:这个人看起来像是篮球运动员,那个人可能是练体操的;这个人三年内不会患有糖尿病。

可以看到,分类器在训练阶段就已经知道各个类别的名称了。那如果我们不知道呢?如何构建一个能够自动对数据进行分组的系统?比如有1000人,每人有20个特征,我想把这些人分为若干个组。

聚类 - 图2

这个过程叫做聚类:通过物品特征来计算距离,并自动分类到不同的群集或组中。有两种聚类算法比较常用:

k-means聚类算法

我们会事先告诉这个算法要将数据分成几个组,比如“请把这1000个人分成5个组”,“将这些网页分成15个组”。这种方法就叫k-means,我们会在后面的章节讨论。