10.2 性能度量

来源:Vay-keen 浏览 1677 扫码分享 2019-11-07 23:06:41

10.2 性能度量
- 10.2.1 外部指标
- 10.2.2 内部指标

10.2 性能度量

由于聚类算法不依赖于样本的真实类标，就不能像监督学习的分类那般，通过计算分对分错（即精确度或错误率）来评价学习器的好坏或作为学习过程中的优化目标。一般聚类有两类性能度量指标：外部指标和内部指标。

10.2.1 外部指标

即将聚类结果与某个参考模型的结果进行比较，以参考模型的输出作为标准，来评价聚类好坏。假设聚类给出的结果为λ，参考模型给出的结果是λ*，则我们将样本进行两两配对，定义：

显然a和b代表着聚类结果好坏的正能量，b和c则表示参考结果和聚类结果相矛盾，基于这四个值可以导出以下常用的外部评价指标：

10.2.2 内部指标

内部指标即不依赖任何外部模型，直接对聚类的结果进行评估，聚类的目的是想将那些相似的样本尽可能聚在一起，不相似的样本尽可能分开，直观来说：簇内高内聚紧紧抱团，簇间低耦合老死不相往来。定义：

基于上面的四个距离，可以导出下面这些常用的内部评价指标：

当前内容版权归 Vay-keen 或其关联方所有，如需对内容或内容相关联开源项目进行关注与资助，请访问 Vay-keen .

本文档使用 BookStack 构建

展开/收起文章目录