spss操作
所有的操作最基本的一步打开spss软件,调整成中文界面,后面不再赘述!
一般:数字的类别为数值,汉字的类别为字符串,一个汉字为两个字符,要想显示前导为0的小数,例如0.1, 需要选择该列的类别为受限字符。
合并变量时要注意先对需要合并的各个数据表按照相同的方式进行升序排序
在多个项目中选择几个作为分析基础时,先要进行双变量的分析,选择相关性强的进行分析
一般来说系统聚类 是一个1到n的叠加或者n到1的递减过程的聚类,k均值聚类则是将样本分为几个类别在进行分析,看到出现n个数据要求分成几类就选择k均值分类,而出现n个样本直接分析就选择系统聚类
系统聚类
Q型聚类:对样本进行聚类,使具有相似特征的样本聚集在- -起,差异性大的样本分离开
R型聚类:对变量进行聚类,使具有相似性的变量聚集在一起, 差异性大的变量分离开来,凝聚方式聚类:其过程是,首先,每个个体自成- -类; 然后,按照某种方法度量所有个体间的亲疏程度,并将其中最“亲密”的个体聚成一小类, 形成n-1个类;接下来,再次度量剩余个体和小类间的亲疏程度,并将当前最亲密的个体或小类再聚到一类;重复上述过程,直到所有个体聚成一一个大类为止。可见,这种聚类方式对n个个体通过n-1步可凝聚成一大类。
分解方式聚类:其过程是,首先,所有个体都属一大类; 然后,按照某种方法度量所有个体间的亲疏程度,将大类中彼此间最“疏远”的个体分离出去,形成两类;接下来,再次度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离出去;重复上述过程,不断进行类分解,直到所有个体自成- -类为止。 可见,这种聚类方式对包含n个个体的大类通过n-1步可分解成n个个体。
KMeans聚类也称快速聚类,仍将数据看成k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率,其核心步骤是:
第一,指定聚类数目K
第二,确定K个初始类中心SPSS中初始类中心的指定方式有两种:一是用户指定方式;二是系统指定方式。
第三,根据距离最近原则进行分类依次计算每个样本数据点到K个类中心点的欧式距离,并按距K个类中心点距离最短的原则将所有样本分成K类。
第四,重新确定K个类中心中心点的确定原则是,依次计算各类中k个变量的均值,并以均值点作为K个类的中心点。