天天看点

《多元统计分析》学习笔记之因子分析

鄙人学习笔记

文章目录

  • ​​因子分析​​
  • ​​基本理论​​
  • ​​因子载荷的求解​​
  • ​​因子旋转​​
  • ​​因子得分​​
  • ​​主成分分析与因子分析的区别​​
  • ​​因子分析的步骤与逻辑框图​​
  • ​​步骤​​
  • ​​逻辑框图​​

因子分析

因子分析( factor analysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法

相比主成分分析,因子分析更倾向于描述原始变量之间的相关关系,因此,因子分析的出发点是原始变量的相关矩阵。

基本理论

  • 因子分析的基本思想

因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。

对于所研究的某一具体问题,原始变量可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。

因子分析还可用于对变量或样品的分类处理,我们在得出因子的表达式之后,可以把原始变量的数据代入表达式得出因子得分值,根据因子得分在因子所构成的空间中把变量或样品点画出来,形象直观地达到分类的目的。

因子分析不仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常将前者称为 R型因子分析,后者称为 Q型因子分析。

  • 一般因子分析模型

设有 n个样品,每个样品观测 p个指标,这 p个指标之间有较强的相关性(要求 p个指标相关性较强的理由是很明确的,只有相关性较强才能从原始变量中提取出“公共”因子)

为了消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。

为方便,把原始变量及标准化后的变量向量均用X 表示,用F1,F2,…,Fm(m <p)表示标准化的公共因子。

如果:

(1)X =(X1,X2,…,Xp)′是可观测随机向量,且均值向量E(X)=0,协方差矩阵cov(X)=∑,且协方差矩阵∑ 与相关阵R 相等;

(2)F =(F1,F2,…,Fm)′(m <p)是不可观测的变量,其均值向量E(F)=0,协方差矩阵cov(F)=I,即向量F 的各分量是相互独立的;

(3)ε =(ε1,ε2,…,εp)′与F 相互独立,且E(ε)=0,ε 的协方差阵∑ ε 是对角方阵

《多元统计分析》学习笔记之因子分析

即ε 的各分量之间也是相互独立的.

则模型:

《多元统计分析》学习笔记之因子分析

称为因子模型。

《多元统计分析》学习笔记之因子分析

其中:

《多元统计分析》学习笔记之因子分析

公共因子F1,F2,…,Fm 相互独立且不可测,是在原始变量的表达式中都出现的因子。公共因子的含义,必须结合实际问题的具体意义确定。

ε1,ε2,…,εp 叫做特殊因子,是向量X的分量Xi(i =1,2,…,p)所特有的因子。各特殊因子之间以及特殊因子与所有公共因子之间也都是相互独立的。

矩阵A 中的元素aij 称为因子载荷,aij 的绝对值越大(∣ aij ∣ ≤ 1),表明Xi 与Fj 的相依程度越大,或称公共因子Fj 对于Xi 的载荷量越大,进行因子分析的目的之一就是要求出各个因子载荷的值。

经过后面的分析会看到,因子载荷的概念与上一章主成分分析中的因子负荷量相对等,实际上,由于因子分析与主成分分析非常类似,在上面的因子模型中,若把εi 看做ai(m+1)F(m+1) +ai(m+2)F(m+2) +…+aipFp 的综合作用,则除了此处的因子为不可测变量这一区别,因子载荷与主成分分析中的因子负荷量是一致的。很多人对这两个概念并不加以区分而都称作因子载荷。矩阵A 称为因子载荷矩阵。

为了更好地理解因子分析方法,有必要讨论一下载荷矩阵A的统计意义以及公共因子与原始变量之间的关系。

(1)因子载荷aij 的统计意义:

《多元统计分析》学习笔记之因子分析

即aij 是Xi 与Fj 的协方差,而注意到,Xi 与Fj(i =1,2,…,p;j =1,2,…,m)都是均值为0,方差为1 的变量,因此,aij 同时也是Xi 与Fj 的相关系数。

(2)变量共同度与剩余方差:

称ai12+ai22+ … +aim2为变量Xi 的共同度,记为hi2(i =1,2,…,p)

由因子分析模型的假设前提,易得:

《多元统计分析》学习笔记之因子分析

易得记var(ε i)=σi2,则:

《多元统计分析》学习笔记之因子分析

上式表明共同度hi2与剩余方差σi2有互补的关系,越大表明Xi 对公共因子的依赖程度越大,公共因子能解释Xi 方差的比例越大,因子分析的效果也就越好。

(3)考虑某一个公共因子Fj 与所有原始变量X1,X2,…,Xp 的关系。记:

《多元统计分析》学习笔记之因子分析

则gj2表示的是公共因子Fj 对于X 的每一分量Xi(i =1,2,…,p)所提供的方差的总和,称为公共因子Fj 对原始变量向量X 的方差贡献,它是衡量公共因子相对重要性的指标。gj2越大,表明公共因子Fj 对X 的贡献越大,或者说对X 的影响和作用就越大。

如果将因子载荷矩阵A 的所有gj2(j =1,2,…,m)都计算出来,并按其大小排序,就可以依此提炼出最有影响的公共因子。

因子载荷的求解

有很多方法可以完成求解因子载荷这项工作,如主成分法、主轴因子法、最小二乘法、极大似然法、 α因子提取法等。

  • 主成分法

用主成分法确定因子载荷是在进行因子分析之前先对数据进行一次主成分分析,然后把前几个主成分作为未旋转的公共因子。

但是,由于用这种方法所得的特殊因子 ε1, ε2,…, εp之间并不相互独立,因此,用主成分法确定因子载荷不完全符合因子模型的假设前提,也就是说所得的因子载荷并不完全正确。

当共同度较大时,特殊因子所起的作用较小,特殊因子之间的相关性所带来的影响几乎可以忽略。

事实上,很多有经验的分析人员在进行因子分析时,总是先用主成分法进行分析,然后再尝试其他的方法

  • 主轴因子法

主轴因子法也比较简单,且在实际应用中比较普遍。用主轴因子法求解因子载荷矩阵的方法,其思路与主成分法有类似的地方,两者均是从分析矩阵的结构入手,不同的地方在于,主成分法是在所有的p个主成分都能解释标准化原始变量所有方差的基础之上进行分析的,而主轴因子法中,假定 m个公共因子只能解释原始变量的部分方差,利用公共因子方差(或共同度)来代替相关矩阵主对角线上的元素 1,并以新得到的这个矩阵(称为调整相关矩阵)为出发点,对其分别求解特征根与特征向量,从而得到因子解。

  • 极大似然法

如果假定公共因子F和特殊因子ε服从正态分布,则能够得到因子载荷和特殊因子方差的极大似然估计。

因子旋转

不管用何种方法确定初始因子载荷矩阵A,它们都不是唯一的。设F1,F2,…,Fm 是初始公共因子,则可以建立它们的如下线性组合得到新的一组公共因子F1′,F2′,…,Fm′,使得F1′,F2′,…,Fm′彼此相互独立,同时也能很好地解释原始变量之间的相关关系。

《多元统计分析》学习笔记之因子分析

这样的线性组合可以找到无数组,由此便引出了因子分析的第二个步骤——因子旋转。

建立因子分析模型的目的不仅在于找到公共因子,更重要的是知道每一个公共因子的意义,以便对实际问题进行分析。然而,我们得到的初始因子解各主因子的典型代表变量不是很突出,容易使因子的意义含糊不清,不便于对实际问题进行分析。出于这种考虑,可以对初始公共因子进行线性组合,即进行因子旋转,以期找到意义更为明确、实际意义更明显的公共因子。

经过旋转后,公共因子对Xi 的贡献hi2并不改变,但由于载荷矩阵发生变化,公共因子本身就可能发生很大的变化,每一个公共因子对原始变量的贡献gj2不再与原来相同,经过适当的旋转,我们就可以得到比较令人满意的公共因子。

  • 正交旋转和斜交旋转

因子旋转分为正交旋转与斜交旋转。正交旋转由初始载荷矩阵A 右乘一正交阵而得到。经过正交旋转而得到的新的公共因子仍然保持彼此独立的性质。而斜交旋转则放弃了因子之间彼此独立这个限制,因而可能达到更为简洁的形式,其实际意义也更容易解释。但不论是正交旋转还是斜交旋转,都应当使新的因子载荷系数要么尽可能地接近于零,要么尽可能地远离零。

对于一个具体问题要做因子旋转,有时需要进行多次才能得到满意效果。每一次旋转后,矩阵各列平方的相对方差之和总会比上一次有所增加。如此继续下去,当总方差的改变不大时,就可以停止旋转,这样就得到了新的一组公共因子及相应的因子载荷矩阵,使得其各列元素平方的相对方差之和最大。

因子得分

顾名思义,因子得分就是公共因子F1,F2,…,Fm在每一个样品点上的得分。

这需要我们给出公共因子用原始变量表示的线性表达式,这样的表达式一旦能够得到,就可以很方便地把原始变量的取值代入表达式中,求出各因子的得分值。在此处,公共因子用原始变量线性表示的关系式并不易得到。

在此处,公共因子用原始变量线性表示的关系式并不易得到。在主成分分析中,主成分是原始变量的线性组合,当取p 个主成分时,主成分与原始变量之间的变换关系是可逆的,只要知道了原始变量用主成分线性表示的表达式,就可以方便地得到用原始变量表示主成分的表达式;

在因子模型中,公共因子的个数少于原始变量的个数,且公共因子是不可观测的隐变量,载荷矩阵A不可逆,因而不能直接求得公共因子用原始变量表示的精确线性组合。

解决该问题的一种方法是用回归的思想求出线性组合系数的估计值,即建立如下以公共因子为因变量、原始变量为自变量的回归方程:

《多元统计分析》学习笔记之因子分析

此处因为原始变量与公共因子变量均为标准化变量,因此回归模型中不存在常数项。在最小二乘意义下,可以得到F的估计值:

《多元统计分析》学习笔记之因子分析

A 为因子载荷矩阵;R 为原始变量的相关阵;X 为原始变量

主成分分析与因子分析的区别

(1)因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子组合系数。主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量绝大部分变异的几组彼此不相关的主成分。

(2)因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各变量的线性组合。

(3)主成分分析中不需要有一些专门假设,因子分析则需要一些假设。因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

(4)提取主因子的方法不仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同。而主成分只能用主成分法提取。

(5)主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中,因子不是固定的,可以旋转得到不同的因子。

(6)在因子分析中,因子个数需要分析者指定,随指定的因子数量不同而结果不同。在主成分分析中,主成分的数量是一定的,一般有几个变量就有几个主成分。

(7)和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。

因子分析的步骤与逻辑框图

步骤

逻辑框图

继续阅读