多元统计研究分析之因子研究分析.doc
《多元统计研究分析之因子研究分析.doc》由会员分享,可在线阅读,更多相关《多元统计研究分析之因子研究分析.doc(15页珍藏版)》请在咨信网上搜索。
1、第八章 因子分析8.1 什么是因子分析及基本思想1904年Charles Spearman发表一篇著名论文对智力测验得分进行统计分析视为因子分析的起点。因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。1 什么是因子分析因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变
2、量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。例如,某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中因素,因为前者是比较抽象的一种概念,而后者有着极为明确的实际意义,如人口密度、工业总产值、产量等。假设100人测试的分数可以用上述六个因子表示成线性函数:其中表示六个因子,它对所
3、有Xi是共有的因子,通常称为公共因子,它们的系数称为因子载荷,它表示第i个应试人员在六个因子方面的能力。是第i个应试人的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定,仔细观察这个模型与回归模型在形式上有些相似,实质很不同。这里的的值未知的,并且有关参数的统计意义更不一样。因子分析的任务,首先是估计出和方差,然后将这些抽象因子赋予有实际背景和因子之间的相互关系,以达到降维和对原始变量进行分类的目的。因子分析的内容十分丰富,本章仅介绍因子分析常用的两种类型:R型因子分析(对变量作因子分析)和Q型因子分析(对样品作因子分析)。2 基本思想因子分析的基本思想是通过变量(或样品)的相关系
4、数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。从全部计算过程来看作R型因子分析与作Q型因子分析都是一样的,只不过出发点不同,R型从相关系数矩阵出发,Q型从相似系数阵出发都是对同一批观测数据,可以根据其所要求的目的决定哪一类型的因子分析。8.2 因子分析的数学模型1 数学模型(正交因子模型)R型因子分析数
5、学模型用矩阵表示:简记为且满足:1)ii) 即F和是不相关的;iii)即F1Fm不相关且方差皆为1。即不相关,且方差不同。其中是可实测的p个指标所构成p维随机向量,是不可观测的向量,F称为X的公共因子或潜因子,即前面所说的综合变量,可以把它们理解为在高维空间中的互相垂直的m个坐标轴;aij称为因子载荷是第i个变量在第j个公共因子上的负荷,如果把变量Xi看成m维因子空间中的一个向量,则表示Xi在坐标轴Fj上的投影,矩阵A称为因子载荷矩阵;称为X的特殊因子,通常理论上要求的协方差阵是对角阵,中包括了随机误差。由上述模型满足的条件可知:是不相关的。若相关时,则D(F)就不是对角阵,这时的模型称为斜交
6、因子模型,本章将不讨论这种模型。类似地,Q型因子分析数学模型为:此时X1, X2, , Xn表示n个样品。因子分析的目的就是通过模型代替X,由于,从而达到简化变量维数的愿望。因子分析和主成分分析有很多相似之处,在求解过程中二者都是从一个协方差阵(或相似系数阵)出发,但这两种模型是有区别的,主成分分析的数学模型实质上是一种变换,而因子分析模型是描述原指标X协方差阵结构的一种模型,当时,若不能考虑,此时因子分析也对应于一种变量变换,但在实际应用中,m都小于p,且为经济起见总是越小越好。另外在主成分分析中每个主成分相应的系数是唯一确定的,即因子戴荷阵不是唯一的,若为任一个阶正交阵,则因子模型可写成:
7、,仍满足约束条件,即,所以也是公共因子,也是因子载荷阵。因子载荷这个不唯一性,从表面上看是不利的,但后面将会看到当因子载荷阵A的结构不够简化时,可对A实行变换以达到简化目的,使新的因子更具有鲜明的实际意义。从因子分析的数学模型上看,它与多变量回归分析也有类似之处,但本质的区别是因子分析模型作为“自变量”的F是不可观测的。2 因子模型中公共因子、因子载荷和变量共同度的统计意义为了便于对因子分析计算结果做解释,将因子分析数学模型中各个量的统计意义加以说明是十分必要的。假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均值为0,方差为1)的变量。(1) 因子(2) 载荷的统计意义已知模型
8、:两端后乘Fj得:于是由于在标准化下有:因此所以上式可写成:(因为各因子不相关,所以相关系数为0)故因子载荷的统计意义就是第i个变量与第j个公共因子的相关系数即表示Xi依赖Fj的份量(比重)。因此用统计学的术语应该叫作权,但由于历史的原因,心理学家将它叫做载荷,即表示第i个变量在第j个公共因子上的负荷,它反映了第i个变量在第j个公共因子上的相对重要性。(2)变量共同度的统计意义所谓变量Xi的共同度定义为因子载荷阵A中第i行元素的平方和,即为了说明它的统计意义,将下式两边求方差,即V由于Xi已标准化了,所以有此式说明变量Xi的方差由两部分组成:第一部分为共同度,它刻划全部公共因子对变量Xi的总方
9、差所作的贡献,越接近1,说明该变量的几乎全部原始信息都被所选取的公共因子说明了,如则说明Xi的97%的信息被m个公共因子说明了,也就是说由原始变量空间转为因子空间转化的性质越好,保留原来信息量多,因此是Xi方差的重要组成部分。当时,说明公共因子对Xi影响很小,主要由特殊因子来描述。第二部分是特定变量所产生的方差,称为特殊因子方差仅与变量Xi本身的变化有关,它是使Xi的方差为1的补充值。(3)公共因子Fj的方差贡献的统计意义将因子载荷矩阵中各列元素的平方和记为称Sj为公共因子Fj对X的贡献,即Sj表示同一公共因子Fj对诸变量所提供的方差贡献之总和,它是衡量公共因子相对重要性指标。8.3 因子载荷
10、阵的估计方法要建立某实际问题的因子模型,关键是要根据样本数据矩阵估计因子载荷矩阵A。对A的估计方法有很多,这里仅介绍使用较为普遍的主成分法。设随机向量的协差阵为为的特征根,为对应的标准正交化特征向量(只要特征根不等,对应的单位特征向量一定是正交的),则根据线性代数知识可分解为:上面的分解式恰是公共因子与变量个数一样多且特殊因子的方差为0时,因子模型中协差阵的结构。因为这时因子模型为:其中所以即,对照的分解式,则因子载荷阵A的j列应该是,也就是说除常数外,第j列因子载荷恰是第j个主成分的系数ej,故称为主成分法。上边给出的表达式是精确的,但实际应用时总是希望公共因子个数小于变量的个数即mp,当最
11、后p-m个特征根较小时,通常是略去最后p-m项对的贡献,于是得到上式是假定了因子模型中的特殊因子是不重要的,因而从的分解中忽略掉特殊因子的方差。如果考虑了特殊因子以后,协差阵为:当未知,可用样本协差阵S去代替,要经过标准化处理,则S与相关阵R相同,仍然可作上面类似的表示。一般设为样本相关阵R的特征根,相应的标准正交化特征向量为,设,则因子载荷阵的估计即8.4 因子旋转建立因子分析数学模型的目的不仅要找出公共因子以及对变量进行分组,更重要的是要知道每个公共因子的意义,以便对实际问题作出科学的分析,如果每个公共因子的涵义不清,不便于进行实际背景的解释,这时根据因子载荷阵的不唯一性,可知因子载荷实际
12、旋转即用一个正交阵右乘A(由线性代数知道一个正交变换,对应坐标系的一次旋转)使旋转后的因子载荷阵结构简化,便于对公共因子进行解释。所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小,至多是中等大小。这种变换因子载荷阵的方法称为因子轴的旋转,而旋转的方法有多种,如正交旋转,斜交旋轴等,本节只介绍常用的方差最大正交旋转法。首先考虑m=2的情形。设因子载荷阵对A按行计算共同度。考虑到各个变量Xi的共同度之间的差异所造成的不平衡,需对A中的元素进行规格化处理,即每行的元素用每行的共同度除之。然后对规格化后的矩阵,为书写方便仍记为A,施行方差最大正交旋转。设正交阵记
13、B=AT这样做的目的是使因子载荷阵A的结构简化,换句话说,使载荷阵的每一列元素的平方值向0或1两极分化或者说公共因子的贡献越分散越好,这实际上希望将变量分成两部分,一部分主要与第一公共因子有关,另一部分与第二公共因子有关,因此,要求两组数据的方差V1和V2要尽可能地大。为此,正交旋的角度必须满足使旋转后所得到因子载荷阵的总方差达到最大值,即达到最大值(这里V的表达式形式类似一元统计中样本方差,可写成形式)根据求极值原理,先求V对的导数。令经过计算,其旋转角度可按下面公式求得:记则根据的分式的分子和分母取值的正负号来确定角的取值范围如下表:分子取值符号分母取值符号取值范围取值范围+00+- +-
14、如果公共因子有m个,则需逐次对每两个公共因子进行上述旋转,也就是说对每两个因子所决定的因子面正交旋转一个角度,每次的转角,必须满足使旋转后所得到的因子载荷阵的总方差达到最大值,即使达到最大,其中为如下的正交阵:没有标明的元素均为0。A经过Tkj旋转(变换)后,矩阵,其元素为其中旋转角度仍按下面公式求得:m个因子,每次取两个全部配对进行旋转,共需旋转次,算做一个循环完毕,如果循环完毕得出的因子载荷阵还没有达到目的,则可以继续进行第二轮次配对旋转,具体地说如果第一轮旋转完毕的因子载荷阵记为,则可写成:即对A施行正交变换C1而得B(1),并计算载荷阵B(1)的方差记为V(1),在第一轮循环完毕的基础
15、上,从B(1)出发进行第二轮旋转循环,旋转完毕得B(2),则B(2)可写:从B(2)算出V(2)。显然(从算出。如此不断重复旋转循环可得V值的一个非降序列:因为因子载荷的绝对值不大于1,故这个序列是有上界的,于是有极限记为,即为V的最大值。因此只要循环次数k充分大,就有为所要求的精度。在实际应用中,经过若干次旋转之后,若相对方差改变不大,则停止旋转,最后得即为旋转后的因子载荷矩阵。8.5 因子得分因子分析的数学模型是将变量(或样品)表示为公共因子的线性组合:由于公共因子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更有利于描述研究对象的特征,因而往往需要反过来将公共因子表示为变量(或
16、样品)的线性组合,即称上式为因子得分的函数。用它来计算每个样品的公共因子得分。比如,则将每个样品的p个变量值代入上式即可算出每个样品的因子得分和,这样就可以在二维平面上作出因子得分的散点图,进而对样品进行分类或作为下一步分析原始数据时对问题做更深入的研究。由于因子得分函数中方程的个数m小于变量的个数p,因此不能精确计算出因子得分,只能对因子得分进行估计。估计因子得分有很多方法如加权最小二乘法、回归法等。下面仅介绍回归法,它是1939年由Thomson提出来的,所以又称为汤姆森回归法。Thomson假设公共因子可以对p个变量作回归,对变量的回归方程为由于假设变量及公共因子都已经标准化了,所以。下
17、面先求这些回归系数,然后给出因子得分的计算公式。由于因子得分的值是待估的,我们仅知道利用样本值可得因子载荷阵。由因子载荷的意义知:即其中因此 记则于是其中这就是估计因子得分的计算公式。8.6 计算步骤及实例设原始数据资料如下表: 变量样品X1X2Xp1x11x12x1p2x21x22x2pnxn1xn2xnp第一步 将原始数据标准化,为书写方便仍记为。第二步 建立变量的相关系数阵其中 若作Q型因子分析,则建立样品的相似系数阵。其中以下步骤类似,只是将相关阵R改变成相似阵Q即可。第三步 求R的特征根及相应的单位特征向量,分别记为和记根据累计贡献率的要求比如,取前m个特征根及相应的特征向量写出因子
18、载荷阵:第四步 对A进行方差最大正交旋转。第五步 计算因子得分。例1 将上一章例子对全国30个省市自治区的经济发展八项指标作因子分析。首先对原始数据标准化,以消除量纲的影响;第二步 建立指标间的相关系数阵R。X1X2X3X4X5X6X7X8X11.0000.2670.9510.1910.617-0.274-0.2640.874X20.2671.0000.4260.718-0.151-0.234-0.5930.363X30.9510.4261.0000.4000.431-0.282-0.3590.792X40.1910.7180.4001.000-0.356-0.134-0.5390.104X5
19、0.617-0.1510.431-0.3561.000-0.2550.0220.659X6-0.274-0.234-0.282-0.134-0.2551.0000.760-0.126X7-0.264-0.593-0.359-0.5390.0220.7601.000-0.192X80.8740.3630.7920.1040.659-0.126-0.1921.000第三步 求R的特征值和特征向量。序号特征值方差贡献率%累积贡献率%13.75546.94346.94322.19527.44374.38631.21415.17889.56440.4035.03394.59650.2132.66097.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计 研究 分析 因子
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。