统计分析技术
因子分析

因子分析(Factor Analysis)

作者:数海时代  发布时间:2012-11-13 1:21:35  点击数:15689

   因子分析(Factor Analysis)是一种高级统计方法,用于分析一组多个变量之间的相互关系,并从中抽取其共同的、潜在的因子来解释这些变量。其目的是要找到一种方式,使得包含在众多原始变量之中的信息,能够浓缩成用一组少量的变量(因子)来表示,并使其信息的损失最小。因此因子分析也被称为是一种“数据浓缩”的技术。
   因子分析的主要目的是要定义存在于数据矩阵中的潜在的结构。这种矩阵一般是由许多变量相互间的两两相关系数构成的,矩阵的潜在维度叫做因子。研究中所涉及的诸多变量中的某些变量可能密切相关,从而可能代表某种更广泛的概念;反过来,研究者也可以通过事先的设计,有意识地考察所研究问题的各个方面即结构。在因子分析中,研究中所涉及的变量都是平等对待的,每一个变量和其他所有变量的关联性都是同时考虑的。原始变量的线性组合(因子)是用于最大限度地解释整个变量集,而不是用来预测某个或某些因变量。因子分析一般按以下说明的7个步骤进行。
步骤一:确定因子分析研究的问题
   与任何其它统计技术一样,因子分析的开始步骤也是确定研究目的和研究问题。因子分析的一般目的是要找到一种“浓缩”信息的方式,使得包含在许多原始变量内的信息,能浓缩到用一组新的、数量少得多的维度或变量(因子)来表示,并使信息损失达到最小。也就是说,要寻找并定义原始变量中假想的基本结构或维度。具体来说,因子分析主要能满足两个目的:1)识别数据的结构;2)简化数据。此外,还可以用于其它多元分析以及用于进行变量的选择。
   1)识别数据的结构
   因子分析可以通过考察变量之间的相关或个案之间的相关,来识别变量之间或是个案之间联系的结构。例如,假定数据是关于600位被访者在10个消费特征或问题(变量)上的答案。如果研究的主要目的是对这些特征进行概括或归纳,那么就应对变量的相关矩阵施用因子分析法。这是因子分析最常用的类型,也就是所谓的R型因子分析,用于识别一组变量的不易直接观测到的潜在的维度。
   2)简化数据
   因子分析用于简化数据有两层含义。第一层含义是从大量的原始变量中挑选出少量有代表性的重要变量,用于后继的多元分析。第二层含义是创造出全新的一组变量,虽然其数量少得多,但是可以部分地或几乎全部地代替原始变量,用于后续的分析。这两种用途的目的都是在保持原始变量的性质和特征的前提下,减少变量的数目以简化后续的多元分析。
步骤二:设计因子分析
   因子分析的设计主要包括以下三个方面的内容:
   1)变量(或个体)间的相关
   设计一个因子分析,首先要计算相关矩阵。R型因子分析使用变量间的相关系数矩阵,用于寻求原始变量间的结构或简化数据。
   2)变量的选择和度量问题
   此处要回答两个问题:变量应如何度量?应包括多少个变量?因子分析中的变量一般都假定是数值型的或测量型的(metric measurement),例如定比和定距变量;不过对一些非数值型的或非测量型的(non-metric measurement)变量,例如定类变量,则可以利用哑变量(dummy variable)即0-1变量先将其转化为数值型的,然后再进行分析。
   虽然研究者应该尽可能地限制纳入分析的变量的个数,但是仍应保留合理的变量,使得每一个因子都有若干个变量与之对应。例如研究者为了考察“金融信贷消费观念”量表的结构是否包含了三个维度(因子):“信贷意识”、“消费意愿”和“风险意识”,那么在设计量表时,就要保证针对每一个因子都应该有几个(一般有5个或5个以上)变量与之对应,即所设计的5级量表中要编制大约15种或更多的“说法”(statement),供被访者选择回答“非常同意”、“有些同意”、“说不准”、“不太同意”、或“非常不同意”。如果某个假设的因子仅对应于单个变量,那么这样的变量分组模式是没有什么作用的。
   3)样本量
   样本量太小的情况是不适于采用因子分析的。一般来说,样本量应该至少超过100。一般的规则是,样本量至少应是所分析变量个数的5倍,最好是10倍或以上。否则如果样本量较小、或个案数与变量数的比值比较低的情况,在解释结果时应该特别谨慎。
步骤三:因子分析的假定或前提条件
   因子分析所隐含的假定中其概念性多于统计上的考虑。从统计上说,常常要求数据具有正态性、等方差性和线性关系,希望数据是有多元共线性(multicollinearity)的。同时要求数据矩阵有足够的相关性,如果相关系数矩阵中看起来没有什么大的元素(例如,大于0.30),那么肯定不宜采用因子分析。
   此外一种确定因子分析适当性的方式是考察整个相关矩阵,检验变量间是否有相关存在。巴土力特球体检验(Bartlett test of sphericity)就是一种统计上的检验法,检验总体的相关矩阵和单位矩阵(对角线元素为1,其他元素均为0的矩阵)之间的差异,来总得知体中原始变量间相关的显著性。如果检验的结果是无法拒绝零假设的话,那么因子分析的使用就可能是不适当的,应该重新考虑。
步骤四:抽取因子
   一旦确定了变量,而且准备好了相关矩阵,那么就可以着手实行因子分析,以识别相互关系的潜在结构。为此首先需要做的是:1)确定抽取因子的方法;2)确定抽取因子的个数。因子抽取方法的选择主要取决于研究者的研究目的。如果主要的目的是为了用最小数目的因子来预报最多的原始信息(方差),那么就可采用主成份因子分析;如果主要的目的是识别原始变量所共同分享的潜在因子或维度,那么就可采用主因子分析。不管是采用哪种方法,都要确定能代表原始变量组的因子个数。
   1)主因子分析和主成份因子分析
   主因子分析法和主成份分析法是两种寻求因子分析解的最基本的模型。在因子分析中,总方差(相关矩阵中对角线上的值)可以分解成三种类型:共同方差、特殊方差和误差方差。共同方差指的是某个变量的方差中可以与所有其他变量所共享的部分;特殊方差指的是只与某个特定变量有关的方差;误差方差是由于数据收集过程中的不可靠性、测量误差、或所测量现象中的随机成分所形成的方差。为简化问题的叙述,常常将特殊方差和误差方差都统称为特殊方差。而共同方差占总方差的比例叫做共同度。
   主成份因子分析与主因子分析的主要差别在于,前者是将原始变量的全部方差都带进因子矩阵中,共同度的初始值是1;而主因子分析中仅将共同方差部分带进因子矩阵,即供分析的相关矩阵的对角线元素用共同度的估计值来代替,一般将共同度的初始值设为小于1 的值。
   2)抽取因子个数的确定准则
   确定应该抽取的因子的个数,常用的准则有以下几种:
   特征根准则  特征根准则是最常用的一种准则。由于每一个原始变量对特征值的贡献都是1,因此可以认为:只有特征根或特征值大于1的因子才是有显著意义的;对于那些特征根小于1 的不显著的因子就应该去除。
   论确定准则 在一定的情况下,根据理论事先确定准则是既简单的也合理的。在进行因子分析之前,研究者已经知道要抽取因子的个数。因此一旦抽取出了想要的因子数目,研究者就可以让计算机停止分析。
   差比例准则 方差比例准则根据的是:连续抽取到的因子的累计方差要达到总方差的一定比例,这样才能保证所抽出的因子能解释一定数量的方差,使得因子分析具有实际的意义。这个准则还包括要抽取足够的因子,以使每一个变量都能达到事先规定的共同度。
   石检验准则 碎石检验用于识别抽取因子的最佳数目。按照因子被抽出的顺序,做出因子个数和特征根的散点图叫做碎石图。从碎石图中可以直观地确定截止点的位置。曲线最初开始变平的点就指示出了所应抽取的最大因子个数,这个点就叫做截止点。后面的散点就像是山脚下的碎石,扔掉这些碎石不会损失很多信息。
   在实际的应用中,研究者是很少只用一种准则来确定因子个数的。一般都是考察比较几个因子分析的解以后才作最后的决定。应当注意的是,用太多的因子或太少的因子来表示数据,都会有负面的结果。研究者应该努力寻求尽可能最有代表性的同时又是最节省的因子集。
步骤五:解释因子的意义
   解释因子的意义以及选择最终的因子分析解,一般需要有三个步骤。首先,通过初始未经旋转的因子矩阵,初步得到应抽出的因子个数,同时得到每一个变量在每个因子上的负荷。第二步就是要进行因子旋转,以获得更简单的而且理论上更有意义的因子解。在大多数情况下,通过因子旋转都可以减少初始解中常有的那种含糊性,可以使因子负荷的结构更简单,从而更有利于因子的解释。在第三步中,研究者需要进一步考虑几个问题:是否要删除一些变量;是否要采用不同的旋转方法;是否需要抽取不同数量的因子;是否需要改变抽取因子的方法;进而决定是否需要回到前面的抽取因子的步骤,重新抽取并解释因子。
   1)因子的旋转
   因子旋转顾名思义就是将因子参考轴围绕原点转动,通过改变坐标轴的位置,使因子结构更简单,更容易解释。
   正交旋转的主要方法  所有旋转方法的目的都是简化因子矩阵的行和列使之易于解释。如用的正交旋转法有三种(在SPSS和SAS中均有):四次方最大法(QUARTIMAN)、方差最大法(VARIMAX)和等量最大法(EQUIMAX)。
   交旋转的主要方法 斜交旋转与正交旋转类似,所不同的是允许因子之间有相关。SPSS中只有OBLIMIN法、SAS中也仅有PROMAX和ORTHOBLIQUE法可供选择。
   2)因子负荷的显著性
   为了解释因子分析结果的意义,首先要判断因子负荷的显著性。判断的准则包括实用上的显著性、统计上的显著性和因子个数的多少等三个方面。
   实用上的显著性  在做出数学上的判断之前,应该从实用上的显著性来初步考察一下因子矩阵的意义。绝对值越大,在解释因子矩阵时就起到越重要的作用。例如负荷的绝对值为0.50时,说明该因子可以解释对应变量的大约25%的方差(0.502=25%)。
   统计上的显著性  由于因子负荷表示对应变量和因子之间的相关,因此检验其统计上的显著性可以采用类似检验相关系数显著性的方法进行。
   根据变量个数的调整  变量的个数在判定哪些负荷为显著负荷时也很重要,因为变量个数增加时,考虑一个显著负荷的可接受水平是下降的。因此,从抽出第一个因子到后面的因子,根据变量的个数进行适当的调整是十分重要的。
   综上所述,判断因子负荷显著性的准则有以下三条:样本量越大,判定为显著的负荷的值就越小;变量的个数越多,判定为显著的负荷的值就越小;因子的个数越多,后面因子上被判定为显著的负荷的值就越大。
   3)因子命名  
   假定按上述要求重新求得了因子分析的解,其中每一个变量都在某个因子上有一个显著的负荷,较高的绝对负荷值对应着更重要的变量,这些变量在给因子命名时就有更大的影响。因此通过考察有着较高绝对负荷值的变量,考虑这些变量的含义,结合所研究领域的专业知识,从而得到为因子命名的一些启示。
步骤六:因子分析的有效性  
   在探索性的研究中,评价因子分析的有效性主要包括以下三个方面:所抽取的公共因子的累积贡献率和所有变量的共同度是否足够;分析结果是否具有一般性或可推广性;分析结果是否受到某些特殊观测值的影响。
步骤七:因子分析结果的进一步应用  
   如果研究的目的是要识别适当的变量以进一步地用于其他统计分析,例如用于多元回归分析、判别分析或聚类分析等,那么就要考虑采用某种数据简化技术。可供选择的方法主要有以下几种:使用替代变量(surrogate variable);使用能综合若干重要变量的由累加量表(summated scale)得到的变量;使用由因子得分(factor scores)产生的全新的变量。


 

 
分享到: