分组分析
一种客体(问卷、特征、实现)分类方法,它与其它分类方法的不同点在于不具有关于资料分组的预先数据。分类法,判断没有教师的方式,树形分类都是分组分析的其它名称。 分组分析可以把资料总体分为同质组,使得一个组客体之间的差别大大小于各种组客体之间的差别。差别或相似的标准通常是指各种联系尺度(拟似)、拟关尺度和距离尺度。 社会学中广泛采用的分组分析方法的重要属性表现在,分组分析不依赖于原始资料分布的正常性假设,而可能利用按任意规律分布的特征。分组分析与特征打交道,这种特征可以数量级(区间级、比率级)测量出来,也能以等级,质量级(名义级、二分法级、秩序级)测出。这种情况在分析既包括数量情报,又包括质量情报的混合资料时尤为重要。 通常采用叶夫克里多夫距离来测量最适于数量指标的差别,在这种情况下,意思是特征空间所有的轴彼此相同。对于各种范围的轴,或者对于通过线性变换可以变为相等的轴来说要适当利用杰卡尔特距离。对于具有随机误差或对于具有与真正值无关的离散值的特征来说采用离散测量。 P—距离、或按彼此间有许多联系的特征组分类较可靠的LP—标准都是叶夫克里多夫距离的概括。在社会学中对于等级或范畴指标来说采用最简单的P—距离形式,即赫米克距离,或者利用表示各种客体特征差绝对值的总和的Lj—标准。 对于质量指标,特别是对于在两分法等级中测出的质量指标最常使用联系测量,或相似测量。这就是卡方判据和与其相似的测量,各列联系数(例如,尤拉系数)和其它测量。 相关测量主要用于变数的组内分析中,尽管这种测量在客体分类过程中可导致成功。对于数量情报采用通常的相关系数和协变系数,对于质量情报采用斯皮尔曼和肯达尔等级相关系数。而对于有多种联系的变数自然要采用所谓的偏相关,因为它能对其它变数的双方相互联系产生间接影响。 分组分析是一种多变级分析,它能同时对许多特征进行分类。此外,还可以利用分组分析将资料(可行资料)的矩阵行和矩阵列(变数、特征)并入组(分组)。在后一种情况下,分组分析与因素分析相似。有时还采用区组分析,按列按行同时并入客体。这种方法可用来分析具有许多分级的两个特征的列联表,亦可用来回答非同一涵义答案的问卷调查。 原始资料预先规范化(标准化)对分组分析的某些方法具有相当重要的意义,即每一具体特征值与平均值的离差表现为乘方偏差的平均值上。这样做是为了把各种不同的测量序列变数或将各种可变性变数归入一个范围。 由于加入分组分析特征的多变性,由于计算的复杂性,以及由于有必要采取大量的方案,分组分析都要通过电子计算机进行运算。这样在进行分组分析时就需要大量的和整套的程序。 分组分析有三种基本类型。它们是等级计算法,分类计算法,因素方法(Q一技术)。 等级分组分析尽管权威性不大,但目前使用广泛。它分为直接分组过程(也叫联合过程)和反馈分组过程(也叫区分过程)。在分组联合过程中,首先得把两个最近的客体联合到一个组内,然后接近程度联合下面的客体和分组。这个过程一直持续到所有客体并入一个分组内为止,但是,如果分组数目已经达到这一过程,也可在任意阶段结束。在区分计算中,分组过程一开始要将总体资料分成两个分组,在分组数达到客体数时结束这一过程。 分类计算法分为两种基本类型。首先是质量标准的最优计算。分组目的在于获得一个K分组,这样指客体之间的距离平方和(例如,克拉伯算法),相对于平均值(K一平均值方法)分组内的距离,或其它标准都应达到最低限度。选择随机客体(点)作为原始K分组中心。接着要经常检查中心位置。包括在分类法内的寻求客体凝聚点的算法是根据寻求掩盖客体凝聚域 (如弗列尔算法)的多变范围进行的。 因素方法是指用最近乎于情理的主要组成部分和主要因素方法来完成Q一技术的因素分析。凯撒和其它因素的观察和计算在这里不能作为变数联合,而只作为客体组。根据最大因素(进行普通因素分析时获得的)编号进行的客体分类法就属于这种算法。Q一因素分组法的主要优点是能够把客体的概率计算一起归入几个分组,这在分析交叉组时是很重要的。 等级算法主要是使用客体并入分组内的三个规则:1)近邻法,是指客体联合时,它们之间的距离最小,或者说联系测量值最大。2)远邻法,或叫最低联系法,两者必择其一法。3)中位联系方法是指当两分组合并为一组,分组内一对可能的客体之间存在着最低平均距离。 大量资料的分组分析一般要花费很多时间,计算量也大,因此,在完成分组分析之前最好利用缩小特征空间范围方法(首先是利用因素分析)。分组分析在统计学和形象认识方面的许多现代应用大纲中已经应用,而且使用起来非常方便。 在利用等级方法,分类算法中的相近行或链,以及Q因素分析中的因子存入和因子负荷图表时,分组图结果应表示成树状形式(见词条“资料图示表示法”)。