您好,欢迎访问三七文档
统计分析与SPSS实用教程张俊丽聚类分析快速聚类系统聚类判别分析聚类分析聚类分析也称群分析,它是根据事物本身的特性对被研究对象进行分类,使同一类中个体有较大的相似性,不同类中的个体有较大的差异性。在分类过程中,人们不必事前给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析主要解决的问题:所研究的对象事前不知道应该分为几类,更不知道分类情况,需要建立一种分类方法来确定合理的分类数目,并按相似程度,相近程度对所有对象进行具体分类。基本思路:在样本之间定义距离,在指标之间定义相关系数,按距离的远近,相似系数的大小对样本或指标进行归类。SPSS实现:“分析/分类”命令。常用的有快速(K-均值)聚类分析、系统聚类分析。1、快速聚类快速聚类也称为逐步聚类,它先对数据进行初始分类,然后系统采用标准迭代算法进行运算,逐步调整,把所有的个案归并在不同的类中,得到最终分类。它适用于大容量样本的情形。快速聚类的分析计算过程如下:(1)用户确定聚类的类别数,如k类。(2)SPSS系统确定k个类的初始中心点。SPSS会根据样本数据的实际情况,选择k个有代表性的样本数据作为初始中心。初始类中心也可以由用户自行指定,需要指定k组样本数据作为初始类中心点。(3)计算所有样本数据点到k个类中心点的欧式距离,SPSS按照距K个类中心点的聚类最短原则,把所有样本分派到中心点所在的类中,形成一个新的k类,完成一次迭代过程。(4)SPSS重新确定k个类的中心点。SPSS计算每个类中各个变量的变量值均值,并以均值点作为新的类中心点。(5)重复上面(3)(4)两步计算过程,直到达到指定的迭代次数或者终止迭代的判别要求为止。例1:利用快速聚类分析对20家上市公司进行分类。SPSS实现(1)打开文件:上市公司.sav。(2)点击“分析/分类/K-均值聚类”。(3)选择变量、个案标记依据、分类类别数。(如图对话框中2表示把所有个案分为两类)下面对“迭代”“保存”“选项”说明(4)“迭代”按钮显示迭代的最大次数,系统默认值为10.“保存”按钮打开后,“聚类成员”表示用于储存聚类产生的每个个案所隶属的类别;“与聚类中心的距离”表示要求输出样本的分类信息以及它们到本类中心的聚类。“选项”按钮下的统计量选项分别表示输出初始分类的凝聚点;针对最终分类中的每个变量作为单因素方差分析,并输出方差分析表;要求输出样本的分类信息以及它们到本类中心的距离。(5)点击“确定”。结果分析:给出了两个凝聚点的具体指标值给出了每次迭代后,每类中心间的距离变化情况,从表中可以看出,第三次迭代后类的中心已无改变,整个快速聚类只进行了三次就已完成。给出了每个样本的归类以及它们到本类中心的距离给出了三次迭代后,最终形成的各个类的中心点的位置以矩阵形式给出了各类中心间的距离,这里显示两类中心点的距离为6.652单因素方差分析表,是以最终形成的类为水平,针对各指标的单因素方差分析结果。这里F统计量对应的尾概率Sig.都小于0.05,可以认为将样本分为两类是合理的。2、系统聚类分析系统聚类分析师根据个案或者变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式把所有个案分类,逐步合并直到最后合并成为一类。根据聚类过程的不同可分为凝聚法和分解法。凝聚法是指一开始把每个个案都视为不同的类,然后通过距离的比较逐步合并直到把参与聚类的个案合并成事先规定的类别数为止。分解法是一开始把所有个案都视为同一个类,然后通过距离的比较逐层分解,直到把参与聚类的个案区分成事先规定的类别数为止。无论哪种聚类方法其原则都是相近的聚为一类,实际上上述两种方法是方向相反的两种聚类过程。例2:利用系统聚类分析对20家上市公司进行分类(Q型聚类)。(1)打开文件:上市公司.sav。(2)点击“分析/系统聚类”。(3)选择变量、个案标记依据、设置分类类型、设置输出结果。下面对“统计量”“绘制”“方法”“保存”“选项”说明设置聚类分析的统计量设置输出图形提供了7种计算类间距离的方法。区间:适合于连续型变量,提供了8种计算样品距离的方法计数:适用于顺序或名义变量二分类:适用于二值变量设置聚类分析需要保存的结果。对话框中的2表示京样本分为两类时,各个样本的归类情况。凝聚状态表第一列表示聚类分析的步骤号,共进行了19次。第2列和第3列表示在聚类分析时那两个样品或类进行了合并,合并后的类用第2列的样品号或类别标志。第4列式聚类时两个样品或类间距离,可以看出最近的先聚类。第5列和第6列表示某步聚类时,是样本还是类参与合并。第7列表示本步的聚类结果在下面聚类的第几步用到。结果分析:垂直冰柱图树状图是将实际的距离按比例调整到0-25的范围内,用逐级连线的方式连线距离相近的样品和新类,直至成为一大类。判别分析判别分析也是一种常用比较常用的分类分析方法,它先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中。判别分析的假设为(1)预测变量服从正态分布;(2)预测变量之间没有显著的相关;(3)预测变量的平均值和方差不相关;(4)预测变量应是连续变量,因变量(类别或组别)是间断变量;(5)两个预测变量之间的相关性在不同类中是一样的。在判别分析的各个阶段应把握以下原则:(1)事前组别(类)的分类标准(作出判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果;(2)所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目标;(3)初始分析的数目不能太少。判别分析的分类:按类别的组数来分有两组判别分析和多组判别分析;按区分不同总体所用的数学模型来分有线性判别和非线性判别;按判别对所处理的变量方法不同有逐步判别、序贯判别等。判别分析可以从不同的角度提出问题,因此有不同的判别准则,如费舍尔和贝叶斯准则。如果已知若干对象(个案)的特征指标和分类情况,就可由这些已知的信息用判别分析的方法来建立判别函数。对建立的判别函数的要求是用它来判别新观察对象的归类时,错判率要减到最小。判别函数的一般形式为其中,Y为判别分数(判别值);为反映研究对象特征的变量;为各变量的系数,称判别系数。根据已知的个案值分类和表明个案值特征的变量值推到出判别函数。在进行判别时,把各个案的值代入到判别函数中,得出判别分数,从而确定该个案属于哪一类。或者计算出各类的概率,从而判断个案属于哪一类。1122...nnYaxaxax12,,...,nxxx12,,...,naaa例2:通过对若干名教师的认知策略进行测量,结果如下,其中“1”类表示水平一般,“2”类表示比较好,“3”类表示水平最好。另有3名教师经过同样指标的测量,试通过判别分析,将其进行归类。SPSS实现:(1)打开文件教师评价(2)点击“分析/分类/判别分析”。(3)选择分组变量、自变量、并在分组变量下定义分组变量有效类别的取值范围,给定最大值和最小值。(4)“保存”按钮下选择“预测组成员”(5)点击“确定”。主要结果分析反映了分析过程被处理的个案的摘要信息。C5的容忍度水平为0.000,不符合进入分析的条件,别剔除。显示两个典型判别函数卡方检验的差异都不显著,表明各组各变量的均数不存在显著差异。123461234610.3221.5341.3190.1500.23012.1694.1432.3250.2400.654ycccccyccccc原数据表格中多了1列,此列表示系统给出的判别分类结果。作业:
本文标题:聚类分析和判别分析
链接地址:https://www.777doc.com/doc-7675091 .html