k-means聚类、k-medoids聚类、模糊c聚类

作品简介

一、K-means聚类算法

运用K-means算法进行聚类分析时，不需对样本进行标记与训练学习，属于无监督分类算法。K-means聚类算法基于以下两个假设：1）每个簇的中心是该簇内所有点的平均值；2）每个点都属于距离其最近的中心所在的簇。基于这两个假设，K-means算法通过迭代寻找最佳中心来实现聚类。其物理机理为以距离来衡量数据样本间相似程度，负荷曲线样本间的距离越小，负荷曲线越相似，在同一簇类的可能性越大。计算数据样本间距离的方法有很多种，K-means算法通常采用欧氏距离来计算数据样本之间的距离。

算法流程如图1所示。

图1 K-means 算法流程

二、K-medoids 聚类算法

传统 K-edoids聚类算法使用一个代价函数来评估聚类质量的好坏，以重复迭代的方式寻找到最好的聚簇划分及聚簇中心点。这里使用基于欧式距离的聚类误差平方E来评估聚类结果质量，定义如下:

K-means聚类和K-medoids聚类的主要区别为：

K-means聚类：簇中心是由簇中所有样本点的平均值（即均值）计算得出的。这意味着在每次迭代中，簇中心的位置会根据簇内所有点的位置进行更新。

K-medoids聚类：簇中心（也称为medoid）是簇中实际存在的一个样本点，而不是由样本点的平均值计算得出的。具体来说，medoid是簇中所有其他点到它的距离之和最小的点。因此，在K-medoids聚类中，簇中心始终是一个实际的数据点。

三、FCM 聚类算法

图 2 FCM算法流程图

创作时间：