随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小，当k小于最优聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达最优聚类数后，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的最优聚类数。
K=4时，斜率开始趋于平缓，那么k值可以选择4

轮廓系数

轮廓系数的计算方法如下：

计算 a(i) = average(i向量到所有它属于的簇中其它点的距离)，称为簇内不相似度

计算 b(i) = min (i向量到与它相邻最近的一簇内的所有点的平均距离)，称为簇间不相似度

那么i向量轮廓系数就为：所有点的轮廓系数的平均值，即聚类结果的总的轮廓系数。
轮廓系数的取值在[-1,1]之间，越趋近于1代表内聚度和分离度都相对较优，即聚类效果越好。（当簇内只有一点时，我们定义轮廓系数s(i)为0）

K=4取到最大值，那么可以选择4为聚类个数

CH指标

CH指标是数据集的分离度与紧密度的比值，以各类中心点与数据集的中心点的距离平方和来度量数据集的分离度，以类内各点与其类中心的距离平方和来度量数据的紧密度。聚类效果越好，类间差距应该越大，类内差距越小，即类自身越紧密，类间越分散，CH指标值越大聚类效果越好。

sklearn提供的方法

以下是3个指标的使用方法

#SSE
from sklearn.cluster import Kmeans
km=KMeans(n_clusters=i)
km.fit(x)
y1=km.predict(x)
SSE=km.inertia_

from sklearn import metrics
km=KMeans(n_clusters=i)
km.fit(x)
y1=km.predict(x)
#SC
sc=metrics.silhouette_score(x,y1)
#CH
ch=metrics.calinski_harabaz_score(x,y1)

以上方法任选其一即可