k-means聚类、k-medoids聚类、模糊c聚类

作品简介

一、K-means聚类算法

运用K-means算法进行聚类分析时,不需对样本进行标记与训练学习,属于无监督分类算法。K-means聚类算法基于以下两个假设:1)每个簇的中心是该簇内所有点的平均值;2)每个点都属于距离其最近的中心所在的簇。基于这两个假设,K-means算法通过迭代寻找最佳中心来实现聚类。其物理机理为以距离来衡量数据样本间相似程度,负荷曲线样本间的距离越小,负荷曲线越相似,在同一簇类的可能性越大。计算数据样本间距离的方法有很多种,K-means算法通常采用欧氏距离来计算数据样本之间的距离。

算法流程如图1所示。

图1 K-means 算法流程

二、K-medoids 聚类算法

传统 K-edoids聚类算法使用一个代价函数来评估聚类质量的好坏,以重复迭代的方式寻找到最好的聚簇划分及聚簇中心点。这里使用基于欧式距离的聚类误差平方E来评估聚类结果质量,定义如下:

K-means聚类和K-medoids聚类的主要区别为:

K-means聚类:簇中心是由簇中所有样本点的平均值(即均值)计算得出的。这意味着在每次迭代中,簇中心的位置会根据簇内所有点的位置进行更新。

K-medoids聚类:簇中心(也称为medoid)是簇中实际存在的一个样本点,而不是由样本点的平均值计算得出的。具体来说,medoid是簇中所有其他点到它的距离之和最小的点。因此,在K-medoids聚类中,簇中心始终是一个实际的数据点。

三、FCM 聚类算法

图 2 FCM算法流程图


创作时间: