【机器学习】【KMeans聚类分析实战】用户分群聚类详解——SSE、CH 指数、SC全解析,实战电信客户分群案例

news/2025/2/24 16:47:44

1.引言

在实际数据分析中,聚类算法常用于客户分群、图像分割等场景。如何确定聚类数 k 是聚类分析中的关键问题之一。本文将以“用户分群”为例,展示如何通过 KMeans 聚类,利用 SSE(误差平方和,也称 Inertia)、Calinski-Harabasz 指数(CH Score)和 Silhouette Score(轮廓系数)来判断最佳的聚类数。你将看到三幅图表,每个图表都揭示了不同的聚类评价指标,帮助你综合判断哪一个 k 值最合理。


2. 聚类概念


3. 聚类指标介绍

SSE (Inertia):反映了所有样本与其所属簇中心距离平方和。随着聚类数 k 增加,SSE 会下降;但在某个 k 值之后,SSE 的下降速度会明显减缓,这就是所谓的“肘部”,通常这个拐点附近的 k 值较为合理。

Calinski-Harabasz Score (CH Score):衡量类间离散度和类内紧凑度之比,数值越大表示聚类结果越好。通常在最佳 k 附近,CH Score 会达到峰值。

Silhouette Score (轮廓系数):取值范围为 -1 到 1,值越高说明聚类结构越明显,即同一簇内部相似度高,而不同簇之间相似度低。最佳 k 往往对应于轮廓系数较高的值。



4. 代码详解

以下代码分为两个函数:

dm01_聚类分析用户群:遍历 k=2~10,记录并绘制 SSE、CH Score 和 Silhouette Score 曲线。

dm02_聚类分析用户群:固定 k=5 进行聚类,并将聚类结果可视化。

python">import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, calinski_harabasz_score
from sklearn.model_selection import train_test_split

def dm01_聚类分析用户群():
    """
    函数功能:
    1. 读取 data/customers.csv,取第 3 列和第 4 列作为特征 (Annual Income, Spending Score)。
    2. 通过循环 k in [2, 10]:
       - 训练 KMeans(k)
       - 记录 SSE (inertia_)
       - 记录 Silhouette Score
       - (可选) 记录 Calinski-Harabasz Score
    3. 绘制 SSE 曲线(肘部法)和 Silhouette Score 曲线,以辅助确定最优聚类数。
    """

    # 1. 读取数据
    dataset = pd.read_csv('data/Clustering_Methods/customers.csv')
    dataset.info()  # 查看数据的列、类型、缺失值等
    print('【前 5 行数据】:\n', dataset.head(5))

    # 2. 取特征列:假设第 3, 4 列分别为 Annual Income, Spending Score
    X = dataset.iloc[:, [3, 4]]
    print('【X 特征前 5 行】:\n', X.head(5))

    # 3. 通过循环不同的聚类数 k,记录 SSE 和 Silhouette Score (可选 CH)
    sse_list = []        # 存储 SSE
    sil_list = []        # 存储 Silhouette Score
    ch_list = []         # (可选)存储 Calinski-Harabasz Score

    k_values = range(2, 11)  # k 从 2 到 10

    for k in k_values:
        # 实例化 KMeans
        my_kmeans = KMeans(n_clusters=k, max_iter=300, random_state=0)
        my_kmeans.fit(X)  # 训练
        
        # SSE (Inertia) - 簇内误差平方和
        sse_list.append(my_kmeans.inertia_)
        
        # 预测标签
        labels = my_kmeans.predict(X)
        
        # Silhouette Score (轮廓系数)
        sil_value = silhouette_score(X, labels)
        sil_list.append(sil_value)
        
        # (可选) Calinski-Harabasz 指数
        ch_value = calinski_harabasz_score(X, labels)
        ch_list.append(ch_value)

    # 4. 绘制 SSE 曲线(肘部法)
    plt.figure(figsize=(15, 4))

    plt.subplot(1, 3, 1)
    plt.plot(k_values, sse_list, marker='o', color='red')
    plt.title('Elbow Method (SSE vs k)')
    plt.xlabel('Number of Clusters (k)')
    plt.ylabel('SSE (Inertia)')
    plt.grid(True)

    # 5. 绘制 Silhouette Score 曲线
    plt.subplot(1, 3, 2)
    plt.plot(k_values, sil_list, marker='o', color='blue')
    plt.title('Silhouette Score vs k')
    plt.xlabel('Number of Clusters (k)')
    plt.ylabel('Silhouette Score')
    plt.grid(True)

    # (可选) 绘制 Calinski-Harabasz Score 曲线
    plt.subplot(1, 3, 3)
    plt.plot(k_values, ch_list, marker='o', color='green')
    plt.title('Calinski-Harabasz Score vs k')
    plt.xlabel('Number of Clusters (k)')
    plt.ylabel('CH Score')
    plt.grid(True)

    plt.tight_layout()
    plt.show()

    print("\n【提示】可综合观察 SSE 肘部位置、Silhouette Score 高点以及 CH Score 峰值,来判断最优 k。")


def dm02_聚类分析用户群():
    """
    函数功能:
    1. 读取 data/customers.csv,取第 3 列和第 4 列作为特征 (Annual Income, Spending Score)。
    2. 使用 KMeans(k=5) 进行聚类 (可根据 dm01_函数观察后选择最优 k)。
    3. 可视化聚类结果,每个簇用不同颜色散点表示,并标注聚类中心。
    """

    # 1. 读取数据
    dataset = pd.read_csv('data/Clustering_Methods/customers.csv')
    # 假设第 3, 4 列分别为 Annual Income, Spending Score
    X = dataset.iloc[:, [3, 4]]

    # 2. 实例化 KMeans,指定 n_clusters=5
    kmeans = KMeans(n_clusters=5, max_iter=300, random_state=0)
    kmeans.fit(X)

    # 3. 预测标签
    y_kmeans = kmeans.predict(X)

    # 4. 可视化
    # 每个簇用不同颜色散点
    plt.figure(figsize=(8, 5))

    plt.scatter(X.values[y_kmeans == 0, 0], X.values[y_kmeans == 0, 1],
                s=100, c='red', label='Cluster 0')
    plt.scatter(X.values[y_kmeans == 1, 0], X.values[y_kmeans == 1, 1],
                s=100, c='blue', label='Cluster 1')
    plt.scatter(X.values[y_kmeans == 2, 0], X.values[y_kmeans == 2, 1],
                s=100, c='green', label='Cluster 2')
    plt.scatter(X.values[y_kmeans == 3, 0], X.values[y_kmeans == 3, 1],
                s=100, c='cyan', label='Cluster 3')
    plt.scatter(X.values[y_kmeans == 4, 0], X.values[y_kmeans == 4, 1],
                s=100, c='magenta', label='Cluster 4')

    # 画出聚类中心(黑色大点)
    plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1],
                s=300, c='black', marker='X', label='Centroids')

    plt.title('Customer Clusters')
    plt.xlabel('Annual Income (k$)')
    plt.ylabel('Spending Score (1-100)')
    plt.legend()
    plt.show()

    # 可选:查看聚类后的指标,如 SSE, Silhouette 等
    sse = kmeans.inertia_
    labels = kmeans.labels_
    sil_value = silhouette_score(X, labels)
    print(f"SSE: {sse:.2f}")
    print(f"Silhouette Score: {sil_value:.2f}")


if __name__ == "__main__":
    print("=== 第一步: 评估不同 k 的聚类效果 ===")
    dm01_聚类分析用户群()

    print("\n=== 第二步: 以 k=5 聚类并可视化 ===")
    dm02_聚类分析用户群()

代码输出:
 

 


代码解释

1. dm01_聚类分析用户群 函数

数据读取与预览

读取 data/Clustering_Methods/customers.csv 文件,并用 info() 和 head() 查看数据基本情况。

特征选择

假设第 3 列和第 4 列分别为“年收入”和“消费得分”,并打印前5行数据。

遍历不同聚类数 k

在 k 从 2 到 10 的范围内,依次训练 KMeans 模型,并记录 SSE(inertia_)、Silhouette Score 和 Calinski-Harabasz 指数。

绘制图表

使用 3 个子图分别展示 SSE 曲线、轮廓系数曲线、CH 指数曲线,帮助你直观观察:

SSE 曲线:观察“肘部”位置,即 SSE 降低变缓的 k 值;

轮廓系数曲线:观察 k 值下哪个聚类结果的轮廓系数最高;

CH 指数曲线:查看哪个 k 值下类间分离度最佳。

综合这三个指标,你可以判断哪个 k 值可能是最优的。如果三个指标都在某个 k 值附近表现较好,则该 k 值值得选择。

2. dm02_聚类分析用户群 函数

使用 k=5 进行聚类

假设根据前一步的指标,k=5 是较优选择,直接训练 KMeans 模型。

结果可视化

对不同簇(Cluster 0 到 Cluster 4)用不同颜色绘制散点图,并用黑色大“X”标注聚类中心。图表标题、坐标轴均使用中文,便于理解。

输出指标

打印 SSE 和 Silhouette Score,帮助你验证模型效果。

结论

通过以上两个步骤,你可以:

先评估:利用多个聚类指标确定最佳聚类数 k(通过肘部法和峰值对比);

后可视化:固定 k 值进行聚类,并直观展示聚类结果及聚类中心。

如果你对聚类结果满意,模型就可以应用到后续的用户分群、个性化营销或其他业务场景中。 


5.总结

本文通过一个用户分群的案例详细介绍了如何使用 KMeans 聚类算法确定最佳聚类数 k,并结合 SSE、Silhouette Score 和 Calinski-Harabasz 指数辅助决策。希望这篇文章能帮助你理解聚类算法的关键指标以及如何通过图形直观地选择最佳 k 值。如果你觉得文章对你有帮助,请点赞、收藏、转发,并关注我的博客,分享更多数据科学的精彩内容!


参考文献:

1. Jain, A. K. (2010). Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 31(8), 651-666.

2. Kaufman, L., & Rousseeuw, P. J. (2009). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley-Interscience.

3. scikit-learn 官方文档 – Clustering: https://scikit-learn.org/stable/modules/clustering.html

这篇文章通过代码示例和详细注释,帮助读者学会如何利用多种聚类评价指标判断最佳聚类数,并进行结果可视化。希望你喜欢这篇文章,欢迎大佬们点赞,关注,收藏,转发,也欢迎各位读者在评论区讨论和交流!


http://www.niftyadmin.cn/n/5864607.html

相关文章

自学网络安全(黑客技术)2025年 —100天学习计划,网络安全零基础入门到精通教程建议收藏!

前言 什么是网络安全 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 如何成为一名黑客 很多朋友在学习安全方面都会半路转行&#xff0c…

5. Go 方法(结构体的方法成员)

Go语言没有传统的 class ,为了让函数和结构体能够关联,Go引入了“方法”的概念。 当普通函数添加了接收者(receiver)后,就变成了方法。 一、函数和方法示例 // 普通函数 func Check(s string) string {return s }//…

【JavaEE】-- 多线程(初阶)2

文章目录 3.线程的状态3.1观察线程的所有状态3.2线程状态和状态转移的意义 4.多线程带来的的风险-线程安全 (重点)4.1观察线程不安全4.2 线程不安全的原因4.2.1 线程调度是随机的4.2.2 修改共享数据4.2.3 原子性4.2.4 内存可见性4.2.5 指令重排序 4.3解决之前的线程不安全问题 …

【3.6JavaScript】JavaScript数组对象

文章目录 1.数组创建2.获取数组长度3.截取数组某部分4.为数组添加元素4.1 在数组开头添加元素:unshift()4.2 在数组结尾添加元素: push() 5.删除元素5.1 删除数组中的第一个元素: shift()5.2 删除数组中最后一个元素&a…

【网络】CIDR (Classless Inter-Domain Routing) / 无类域间路由?

CIDR (Classless Inter-Domain Routing) / 无类域间路由:解释 CIDR(无类域间路由)是一种更灵活的IP地址分配方法,它打破了传统的A类、B类、C类划分的限制,允许更精确地控制IP地址的分配和路由。CIDR 的目标是提高IP地…

jenkins docker容器中安装python3.9环境

在运维过程中,不过避免的需要使用到python,在jenkins 的docker容器中,是没有python环境的,需要我们自己手动安装一下。 查看是否有工具apt-get 直接输入apt-get 然后回车,出现以下内容,表示支持apt-get命令…

Kafka中commitAsync的使用与实例解析

在使用Apache Kafka进行消息处理时,正确管理偏移量(offset)是确保数据一致性和可靠性的重要环节。Kafka提供了多种方式来提交偏移量,其中commitAsync()方法是一种高效且灵活的选择。本文将通过一个完整的实例,详细介绍…

Lua | 每日一练 (3)

💢欢迎来到张胤尘的技术站 💥技术如江河,汇聚众志成。代码似星辰,照亮行征程。开源精神长,传承永不忘。携手共前行,未来更辉煌💥 文章目录 Lua | 每日一练 (3)题目参考答案减少查找次数预分配表…