SPSS之聚类分析

2024-05-07 06:36
文章标签 聚类分析 spss

本文主要是介绍SPSS之聚类分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

SPSS中系统聚类分析功能在【分析】—【分类】—【系统聚类】中完成。系统聚类有两种类型,一种是对样本进行聚类,称为Q型聚类;一种是对变量进行聚类,称为R型聚类。在【系统聚类分析】—【聚类】框下选择【个案】——Q型聚类,或是【变量】——R型聚类。

如果参与聚类分析的变量存在数量级上的差异,应在SPSS中,通过【系统聚类分析】—方法(M)—【系统聚类分析:方法】—【转换值】—【标准化】选项中选择消除数量级差的方法。并指定处理是针对变量还是针对样本的。

SPSS中提供多种系统聚类方法,常用的是组间平均链接和组内平均链接。通过【系统聚类分析】—方法(M)—【系统聚类分析:方法】—【聚类方法】选项中选择。SPSS提供多种个体距离的计算方式,常用的是Euclidean距离,平方Euclidean距离,Pearson相关性。通过【系统聚类分析】—方法(M)—【系统聚类分析:方法】—【测量】—【区间】选项中选择。

分类数的确定。

        (1)系统聚类中每次合并的类与类之间的距离可以作为确定类数的一个辅助工具。首先把离得近的类合并,在并类过程中聚合系数呈增加趋势,聚合系数小,表示合并的两类的相似程度较大,两个差异很大的类合到一起,会使该系数很大。

如果以y轴为聚合系数,x轴表示分类数(n-1,n-2,…,3,2,1),画出聚合系数随分类数的变化曲线,会得到类似于因子分析中的碎石图,可以在曲线开始变得平缓的点选择合适的分类数。SPSS中通过【图形】—【旧对话框】—【散点/点状】实现。

        (2)从实用的角度出发,选择合适的分类数。  

如果确定分类数,可一开始就在SPSS中指定类数。通过【系统聚类分析】—统计量(S)—【系统聚类分析:统计】—【聚类成员】选项中选择【单一方案】—输入方案数目,或选择【方案范围】。在【系统聚类分析】—保存(A)—【系统聚类分析:保存】—【聚类成员】选项下作同样选择。此时聚类分析的结果将以变量名为clun_m(如clu2_1)的新变量存入SPSS数据编辑窗口中。

SPSS中快速聚类法(K-均值聚类法)在【分析】--【分类】--【K-平均值聚类】中完成。首先应指定聚类数目K,在【K-平均值聚类分析】—【聚类数】框中输入聚类数目,该数应小于样本数。然后SPSS确定k个类的初始类中心点。SPSS会根据样本数据的实际情况,选择k个有代表性的样本数据作为初始类中心。初始类中心也可以由用户自行指定,需要指定K组样本数据作为初始类中心点。

最优方案原则。一般我们希望得到的聚类大小大致相等,这样把每个样品都分配到离它最近的聚类中心(即均值点)就是比较正确的分配方案。

聚类的目的是使类间差异尽量大,而类内差异尽量小,K-均值聚类分析中的方差分析提供这种检验功能。SPSS中通过在【K-平均值聚类分析】— 选项(O) —【统计量】选项中勾选【ANOVA表】来完成方差分析。

SPSS中通过在【K-平均值聚类分析】— 保存(S) 菜单下,勾选【聚类成员】,则聚类分析的结果将以变量名为QCL_m(如QCL_1)的新变量存入SPSS数据编辑窗口中。


接下来我们进行SPSS实战训练!

地区三大产业产值.sav,给出了31个省、直辖市、自治区的三大产业的生产产值数据,即样品数n=31,变量数p=3对这31个地区的三大产业发展水平进行系统聚类分析,其中个体距离采用平方欧式距离,类间距离采用平均组间链接距离。

(1)系统聚类分析实现步骤:

未确定类数前:[Analyze]→[Classify]→[Hierarchical Cluster Analysis]对话框。将‘第一产业’、‘第二产业’、‘第三产业’添加进Variables中,将‘Region’添加进Label Cases by中。

  1. 1.在[Statistics]对话框中选择‘Range of solutions’,并将Minimum number of clusters输入‘4’,Maximum number of clusters输入‘5’;
  2. 2.在[Plots]对话框中勾选中‘Dendrogram’;
  3. 3.在[Method]对话框中选择‘Between-groups linkage’的Cluster Method;
  4. 4.在[Save]对话框中的‘Range of solutions’,并将Minimum number of clusters输入‘4’,Maximum number of clusters输入‘5’,将输出结果保存到数据集中。
  5. 系统聚类分析结果分析:

系统聚类分析凝聚状态表:

A.个体距离(指 平方欧式距离

B.个体与小类的距离(指  组内平局链锁距离

C.小类与小类的距离(指 组间平均链锁距离

  • 第1步:   29 样本和 30 样本聚成一小类,它们的个体距离(欧式距离的平方)是  109.714 ,这个小类将在下面第 4 步用到。
  • 第7步: 7样本 和 22样本 聚成一小类,它们的距离是 19828.887,形成的小类将在下面第13步中用到。
  • 第9步:5 样本和 24 样本聚成一小类,它们的个体距离(欧式距离的平方)是  33688.611 ,这个小类将在下面第 20 步用到。

冰柱图:

如果分为五类,分类情况是:

第一类为:北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆

第二类为:河北、辽宁、黑龙江、安徽、福建、河南、湖北、湖南、四川

第三类为:上海

第四类为:江苏、山东、广东

第五类为:浙江

树状图:

结论:如果分为四类,分类情况是:

  1. 第一类为: 北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆;
  2. 第二类为:河北、辽宁、黑龙江、上海、安徽、福建、河南、湖北、湖南、四川;
  3. 第三类为:江苏、山东、广东;
  4. 第四类为:浙江;

聚合系数(y轴)与分类数(x轴)的碎石图:

结论:4 类以后,变化的趋势开始趋于平稳,所以,考虑分为 4 类。

确定类数后:(将聚类结果确定为4类)

[Analyze]→[Classify]→[Hierarchical Cluster Analysis]对话框。将‘第一产业’、‘第二产业’、‘第三产业’添加进Variables中,将‘Region’添加进Label Cases by中。

  1. 1.在[Statistics]对话框中选择‘Single of solutions’,并输入‘4’;
  2. 2.在[Save]对话框中的‘Single of solutions’,并输入‘4’,将输出结果保存到数据集中。

分类结果:

  1. 分为 4 类。
  2. 第一类:{北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆}
  3. 第二类:{河北、辽宁、黑龙江、上海、安徽、福建、河南、湖北、湖南、四川}
  4. 第三类:{江苏、山东、广东}
  5. 第四类:{浙江}

文件:地区三大产业产值.sav,给出了31个省、直辖市、自治区的三大产业的生产产值数据,即样品数n=31,变量数p=3。对这31个地区的三大产业发展水平进行K-均值聚类分析,要求分成3类,初始类中心点由SPSS自行指定。

“K-平均值聚类分析”对话框:[Analyze]→[Classify]→[K-Means Cluster Analysis],将“第一产业”、“第二产业”、“第三产业”添加到【Variables】中,将“Region”添加进【Label Cases by】中,并将Number of Clusters更改为3。

在[Save New Variable]对话框中勾选“Cluster membership”和“Distance from cluster center”,将聚类成员和与聚类中心的距离保存到数据集中。

在[Options]选项对话框中选择“Initial cluster centers”和“ANOVA table”两个结果。

结果分析:

起始聚集中心:每个类的起始类中心的数据(三维坐标)

  • 第一类:(1004.92,3991.97,2922.23);
  • 第二类:(31.31,20.24,39.63);
  • 第三类:(790.60,2084.33,1381.08)。

迭代历程:第1次迭代后,3个类的中心点分别偏移了407.484、647.918、369.044,第1类中心点偏移较大;第2次迭代后,2个类的中心点偏移均小于指定的判定标准(SPSS默认为0.02),聚类分析结束。

最终聚集中心:每个类的最终类中心的数据(坐标)

  • 第一类:(1079.00,3696.37,2651.72);
  • 第二类:(246.94,483.05,438.52);
  • 第三类:(675.80,1753.43,1264.80);
  • 第二类为最优。

 方差分析表:因为各个因子对应的p值=0.000,p值  < α=0.05,所以各因子的均值在类中的差异显著。

 K-均值聚类分析类成员情况:第一类包含3个地区;第二类包含17个地区;第三类包含11个地区。

K-均值聚类分析分类结果:

  • 结论:分为 3 类。
  • 第一类:{江苏、山东、广东}
  • 第二类:{北京、天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆}
  • 第三类:{河北、辽宁、黑龙江、上海、浙江、安徽、福建、河南、湖北、湖南、四川}

这篇关于SPSS之聚类分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/966595

相关文章

MATLAB层次聚类分析法

转自:http://blog.163.com/lxg_1123@126/blog/static/74841406201022774051963/ 层次聚类是基于距离的聚类方法,MATLAB中通过pdist、linkage、dendrogram、cluster等函数来完成。层次聚类的过程可以分这么几步: (1) 确定对象(实际上就是数据集中的每个数据点)之间的相似性,实际上就是定义一个表征

数学建模--K-Means聚类分析

目录 1.聚类分析步骤 1.1简单介绍 1.2两个概念 1.3几种距离 1.4更新质心 1.5终止条件 2.归一化处理 3.肘部法则 4.搭建K-Means分析模型 5.选择最佳K值 6.绘制3D图形 1.聚类分析步骤 1.1简单介绍 K-Means聚类分析是属于聚类分析的一种,这个数据机器学习的算法; 对数据进行自动分组,使得同一组内的数据样本尽可能相似

浅谈amos与spss的联系与区别,新手容易产生的误区

如大家所了解的,SPSS和AMOS都是统计分析软件,但它们的功能和应用领域有所不同。 SPSS主要用于数据管理、数据清洗、基础统计分析等任务,而AMOS则更专注于结构方程模型的分析和路径分析。 对于初学者来说,因为不了解二者的关系和区别,常常在使用过程中不知道如何选择,下面与大家一起来对比分析,便于更好的了解和掌握。 先来看看SPSS软件: SPSS是一款非常流行的统计分析软件,它提供

SPSS和MATLAB实现【典型相关分析】

典型相关分析(Canonical Correlation analysis ),是用于研究 两组 变量(每组变量中都可能有多个指标) 之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。         我们之前总结的相关性分析,也就是上图中的简单相关分析,用于分析一组变量——也即两两之间的相关性,计算方式就是本科阶段概率论学过的斯皮尔曼相关系数。

基于数据挖掘的消费者商品交易数据分析可视化与聚类分析

文章目录 ==有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主==项目介绍项目实现实现流程实现过程数据预处理EDA探索性数据分析聚类分析每文一语 有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主 项目介绍 基于python的消费者商品交易数据分析与可视化主要包含以下内容: 首先探讨如何从各种渠道获取消费者商品交易数据,例如电子商务网站的API、

SPSS_20

4B6MINO86Z4LZV9AA7GHEC89P5TRNTOHAA3XKX5YW7GM2SWHCCTAFYBL3B3IKPMM7I9N3MSTBXOO8VPKXZHSEXGST8

解决SPSS Modeler sql data type out of range-25报错

解决方法  step 1 下载 SDAPWin32_6.0.3 step 2 对其进行配置 选择 Spss Inc OEM 6.0 Oracle ok

打破数据分析壁垒:SPSS复习必备(六)

一、数据的报表呈现 1.报表概述 (1).SPSS中的报表功能 1)Base 模块 2)Custom Tables 模块 3)  Original Tables 模块 (2).报表的基本绘制步骤 步骤一:确定基本结构 步骤二:使用对话框绘制表格的基本结构 步骤三:完善细节 步骤四:添加其余变量和统计量 步骤五:对表格中的文本进行修饰 步骤六:审核 步骤七:保存

综合评价 | 基于因子分析和聚类分析的节点重要度综合评价(Matlab)

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 综合评价 | 基于因子分析和聚类分析的节点重要度综合评价(Matlab) 程序设计 完整程序和数据获取方式:私信博主回复基于因子分析和聚类分析的节点重要度综合评价(Matlab)。 参考资料 [1] http://t.csdn.cn/pCWSp [2] https://download.

SPSS+MATLAB

http://www.ddooo.com/softdown/10039.htm http://www.cncrk.com/downinfo/36192.html