代码收藏家技术教程 2025-06-02

Python聚类算法详解及实现教程

1.聚类的定义

在数据分析和机器学习领域，聚类是一种常见的无监督学习方法，用于将数据点划分为不同的组（簇），使得同一簇内的数据点相似度较高，而不同簇之间的数据点相似度较低。本文将详细介绍三种经典的聚类算法：K-Means、DBSCAN 和层次聚类，并通过 Python 实现和可视化来展示它们的特点和应用场景。

2. K-Means 算法

2.1 算法简介

K-Means 是一种基于原型的聚类算法，目标是将数据划分为 \( k \) 个簇，使得簇内距离的平方和最小。它的核心步骤包括：
1. 随机初始化 \( k \) 个聚类中心。
2. 将每个数据点分配到最近的聚类中心。
3. 更新聚类中心为每个簇内所有点的均值。
4. 重复上述步骤，直到聚类中心不再变化或达到最大迭代次数。

2.2 Python 实现

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# 生成数据
def generate_data(n_samples=300, centers=4, cluster_std=0.6):
    X, _ = make_blobs(n_samples=n_samples, centers=centers, cluster_std=cluster_std, random_state=42)
    return X

# 可视化聚类结果
def plot_clusters(X, labels, centroids=None, title="Clustering Result"):
    plt.figure(figsize=(8, 6))
    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', marker='o', s=50)
    if centroids is not None:
        plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='x', s=200)
    plt.title(title)
    plt.xlabel("Feature 1")
    plt.ylabel("Feature 2")
    plt.show()

# 主函数
if __name__ == "__main__":
    # 生成数据
    X = generate_data(n_samples=300, centers=4, cluster_std=0.6)
    
    # 应用 K-Means
    kmeans = KMeans(n_clusters=4, random_state=42)
    labels = kmeans.fit_predict(X)
    centroids = kmeans.cluster_centers_
    
    # 可视化结果
    plot_clusters(X, labels, centroids=centroids, title="K-Means Clustering")
```

结果图展示

2.3 优点与缺点

– **优点**：
– 简单高效，适合处理大规模数据集。
– 结果可解释性强，每个簇的中心点直观地表示了簇的特征。
– **缺点**：
– 需要预先指定簇的数量 \( k \)。
– 对初始值敏感，可能会陷入局部最优解。
– 只能处理凸形状的簇，对噪声和异常值敏感。

3. DBSCAN 算法

3.1 算法简介

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的聚类算法，能够发现任意形状的簇，并且可以识别噪声点。它的核心概念包括：
– **核心点**：在半径 \( \epsilon \) 内包含至少 \( \text{min_samples} \) 个点。
– **边界点**：在半径 \( \epsilon \) 内的点数少于 \( \text{min_samples} \)，但位于某个核心点的邻域内。
– **噪声点**：既不是核心点也不是边界点的点。

3.2 Python 实现

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons

# 生成数据
def generate_data(n_samples=300, noise=0.05):
    X, _ = make_moons(n_samples=n_samples, noise=noise, random_state=42)
    return X

# 可视化聚类结果
def plot_clusters(X, labels, title="Clustering Result"):
    plt.figure(figsize=(8, 6))
    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', marker='o', s=50)
    plt.title(title)
    plt.xlabel("Feature 1")
    plt.ylabel("Feature 2")
    plt.show()

# 主函数
if __name__ == "__main__":
    # 生成数据
    X = generate_data(n_samples=300, noise=0.05)
    
    # 应用 DBSCAN
    dbscan = DBSCAN(eps=0.2, min_samples=5)
    labels = dbscan.fit_predict(X)
    
    # 可视化结果
    plot_clusters(X, labels, title="DBSCAN Clustering")
```

结果图展示

3.3 优点与缺点

– **优点**：
– 能够发现任意形状的簇。
– 能够识别噪声点，适用于包含噪声的数据集。
– 不需要预先指定簇的数量。
– **缺点**：
– 参数选择困难，需要手动调整 \( \epsilon \) 和 \( \text{min_samples} \)。
– 对高维数据效果不佳。
– 计算复杂度较高，不适合大规模数据集。

4. 层次聚类算法

4.1 算法简介

层次聚类是一种基于树状结构的聚类方法，分为自底向上（Agglomerative）和自顶向下（Divisive）两种。自底向上方法从每个数据点作为单独的簇开始，逐步合并最近的簇，直到达到指定的簇数量或满足某个条件。它的核心步骤包括：
1. 计算每个点之间的距离。
2. 逐步合并最近的簇。
3. 通过树状图（Dendrogram）可视化层次结构。

4.2 Python 实现

```python
import numpy as np
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.datasets import make_blobs

# 生成数据
def generate_data(n_samples=300, centers=4, cluster_std=0.6):
    X, _ = make_blobs(n_samples=n_samples, centers=centers, cluster_std=cluster_std, random_state=42)
    return X

# 可视化层次聚类结果
def plot_dendrogram(Z, labels, title="Hierarchical Clustering Dendrogram"):
    plt.figure(figsize=(10, 5))
    dendrogram(Z, labels=labels)
    plt.title(title)
    plt.xlabel("Sample Index")
    plt.ylabel("Distance")
    plt.show()

# 主函数
if __name__ == "__main__":
    # 生成数据
    X = generate_data(n_samples=300, centers=4, cluster_std=0.6)
    
    # 应用层次聚类
    Z = linkage(X, method='ward')
    
    # 可视化结果
    plot_dendrogram(Z, labels=[f"Sample {i+1}" for i in range(X.shape[0])], title="Hierarchical Clustering Dendrogram")
```

结果图展示