机器学习 | 基于wine数据集的KMeans聚类和PCA降维案例

2024-08-24 07:04

本文主要是介绍机器学习 | 基于wine数据集的KMeans聚类和PCA降维案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

KMeans聚类:K均值聚类是一种无监督的学习算法,它试图根据数据的相似性对数据进行聚类。无监督学习意味着不需要预测结果,算法只是试图在数据中找到模式。在k均值聚类中,我们指定希望将数据分组到的聚类数。该算法将每个观察随机分配到一个集合,并找到每个集合的质心。然后,该算法通过两个步骤进行迭代:将数据点重新分配到质心最近的聚类。计算每个簇的新质心。重复这两个步骤,直到集群内的变化不能进一步减少。聚类内偏差计算为数据点与其各自聚类质心之间的欧几里得距离之和。

在本文中,我们将对葡萄酒数据集进行聚类,并在使用PCA进行降维后对其进行可视化。

导入所需库

我们将首先导入一些有用的Python库,如Pandas,Seaborn,Matplotlib和SKlearn,以执行复杂的计算任务。

import pandas as pd
import seaborn as sns 
import matplotlib.pyplot as plt 
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_wine
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

导入数据集

这些数据是对生长在意大利同一地区但来自三个不同品种的葡萄酒进行化学分析的结果。分析确定了三种葡萄酒中每种葡萄酒中13种成分的含量。

df = load_wine(as_frame=True)
df = df.frame
df.head()

输出

在这里插入图片描述

因为我们在这里做的是无监督学习。因此,我们从数据集中删除目标Customer_Segment列。

df.drop('target', axis =1, inplace=True)# Check the data informations
df.info()

输出

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 13 columns):#   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  0   alcohol                       178 non-null    float641   malic_acid                    178 non-null    float642   ash                           178 non-null    float643   alcalinity_of_ash             178 non-null    float644   magnesium                     178 non-null    float645   total_phenols                 178 non-null    float646   flavanoids                    178 non-null    float647   nonflavanoid_phenols          178 non-null    float648   proanthocyanins               178 non-null    float649   color_intensity               178 non-null    float6410  hue                           178 non-null    float6411  od280/od315_of_diluted_wines  178 non-null    float6412  proline                       178 non-null    float64
dtypes: float64(13)
memory usage: 18.2 KB

数据标准化

scaler =StandardScaler()features =scaler.fit(df)
features =features.transform(df)# Convert to pandas Dataframe
scaled_df =pd.DataFrame(features,columns=df.columns)
# Print the scaled data
scaled_df.head(2)

输出

在这里插入图片描述
一般来说,K-Means需要未标记的数据才能运行。
因此,使用没有标签的数据来执行K-means聚类。

X=scaled_df.values

肘部方法用于确定聚类的数量

wcss = {} 
for i in range(1, 11): kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)kmeans.fit(X) wcss[i] = kmeans.inertia_plt.plot(wcss.keys(), wcss.values(), 'gs-')
plt.xlabel("Values of 'k'")
plt.ylabel('WCSS')
plt.show()

在这里插入图片描述
从上图中我们可以看到,在k=3时,它像一个肘部一样转动。因此,我们可以说给定数据集的正确聚类数是3。

KMeans聚类

让我们对n_clusters=3执行KMeans聚类。

kmeans=KMeans(n_clusters=3)
kmeans.fit(X)

各个聚类中心坐标:

kmeans.cluster_centers_

输出

array([[ 0.16490746,  0.87154706,  0.18689833,  0.52436746, -0.07547277,-0.97933029, -1.21524764,  0.72606354, -0.77970639,  0.94153874,-1.16478865, -1.29241163, -0.40708796],[-0.92607185, -0.39404154, -0.49451676,  0.17060184, -0.49171185,-0.07598265,  0.02081257, -0.03353357,  0.0582655 , -0.90191402,0.46180361,  0.27076419, -0.75384618],[ 0.83523208, -0.30380968,  0.36470604, -0.61019129,  0.5775868 ,0.88523736,  0.97781956, -0.56208965,  0.58028658,  0.17106348,0.47398365,  0.77924711,  1.12518529]])

labels_每个样本所属的聚类的索引。

kmeans.labels_

输出

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 0, 1, 1, 1, 1,1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1,1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0,0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0])

应用PCA降维

主成分分析是一种将高维数据转换为低维数据,同时保留尽可能多的信息的技术。

  • 它用于解释和可视化数据。
  • 变量的数量减少,这简化了进一步的分析。

然后,我们可以查看PCA分量,即特征空间中的主轴,它们表示数据集中最大方差的方向。这些分量按explained_variance_排序。
使用主成分分析(PCA)将数据集从15个特征最小化为2个特征。

pca=PCA(n_components=2)reduced_X=pd.DataFrame(data=pca.fit_transform(X),columns=['PCA1','PCA2'])#Reduced Features
reduced_X.head()

输出

在这里插入图片描述
使用PCA减少聚类中心

centers=pca.transform(kmeans.cluster_centers_)# reduced centers
centers

输出

array([[-2.72003575, -1.12565126],[-0.03695661,  1.77223945],[ 2.2761936 , -0.93205403]])

绘制基于PCA 1和PCA 2的聚类图


plt.figure(figsize=(7,5))# Scatter plot
plt.scatter(reduced_X['PCA1'],reduced_X['PCA2'],c=kmeans.labels_)
plt.scatter(centers[:,0],centers[:,1],marker='x',s=100,c='red')
plt.xlabel('PCA1')
plt.ylabel('PCA2')
plt.title('Wine Cluster')
plt.tight_layout()

在这里插入图片描述

PCA 1和PCA 2对聚类的影响

如果我们真的想减少数据集的大小,主成分的最佳数量要比原始数据集中的变量数量少得多。

pca.components_

输出

array([[ 0.1443294 , -0.24518758, -0.00205106, -0.23932041,  0.14199204,0.39466085,  0.4229343 , -0.2985331 ,  0.31342949, -0.0886167 ,0.29671456,  0.37616741,  0.28675223],[-0.48365155, -0.22493093, -0.31606881,  0.0105905 , -0.299634  ,-0.06503951,  0.00335981, -0.02877949, -0.03930172, -0.52999567,0.27923515,  0.16449619, -0.36490283]])

基于PCA1-2特征的热力图

component_df=pd.DataFrame(pca.components_,index=['PCA1',"PCA2"],columns=df.columns)
# Heat map
sns.heatmap(component_df)
plt.show()

在这里插入图片描述

这篇关于机器学习 | 基于wine数据集的KMeans聚类和PCA降维案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1101787

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06