10.5 层次聚类
层次聚类是一种基于树形结构的聚类方法,常用的是自底向上的结合策略(AGNES算法)。假设有N个待聚类的样本,其基本步骤是:
1.初始化—>把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度;2.寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个);3.重新计算新生成的这个类与各个旧类之间的相似度;4.重复2和3直到所有样本点都归为一类,结束。
可以看出其中最关键的一步就是计算两个类簇的相似度,这里有多种度量方法:
* 单链接(single-linkage):取类间最小距离。
* 全链接(complete-linkage):取类间最大距离
* 均链接(average-linkage):取类间两两的平均距离
很容易看出:单链接的包容性极强,稍微有点暧昧就当做是自己人了,全链接则是坚持到底,只要存在缺点就坚决不合并,均连接则是从全局出发顾全大局。层次聚类法的算法流程如下所示:
在此聚类算法就介绍完毕,分类/聚类都是机器学习中最常见的任务,我实验室的大Boss也是靠着聚类起家,从此走上人生事业钱途…之巅峰,在书最后的阅读材料还看见Boss的名字,所以这章也是必读不可了…