数学建模-聚类分析因子分析实例.doc
《数学建模-聚类分析因子分析实例.doc》由会员分享,可在线阅读,更多相关《数学建模-聚类分析因子分析实例.doc(20页珍藏版)》请在咨信网上搜索。
1、多元统计分析中的降维方法在四川省社会福利中的应用由于计算机的发展和日益广泛的使用,多元分析方法也很快地应用到社会学、农业、医学、经济学、地质、气象等各个领域。在国外,从自然科学到社会科学的许多方面,都已证实了多元分析方法是一种很有用的数据处理方法;在我国,多元分析对于农业、气象、国家标准和误差分析等许多方面的研究工作都取得了很大的成绩,引起了广泛的注意。在许多领域的研究中,为了全面系统地分析问题,对研究对象进行综合评价,我们常常需要考虑衡量问题的多个指标(即变量),由于变量之间可能存在着相关性,如果采用一元统计方法,把多个变量分开,一次分析一个变量,就会丢失大量的信息,研究结果也会偏差很大。因
2、此需要采用多元统计分析的方法,同时对所有变量的观测数据进行分析。多元统计分析就是一种同时研究多个变量之间的相互关系,经过对变量的综合处理,充分提取变量之间的信息,进行综合分析和评价的统计方法。多元统计分析法主要包括降维、分类、回归及其他统计思想.一 多元统计分析方法中降维的方法1.概述多元统计分析方法是同时对多个变量的观察数据做综合处理和分析。在不损失有价值信息的情况下,简化观测数据或数据结构,尽可能简单地将被研究对象描述出来,使得对复杂现象的解释变得更容易些.同时,采用多元统计分析中的聚类分析或判别分析可以对变量或样品进行分类与分组。根据所测量的特征和分类规则将一些“类似的”对象或变量分组。
3、多元统计分析也可以研究变量间依赖性。即对变量间关系的本质进行研究。是否所有的变量都相互独立?还是一个变量或多个变量依赖于其他变量?它们又是怎样依赖的?通过观测变量数据的散点图,我们可以建立多元回归统计模型,确定出变量之间具体的依赖关系,进而可以根据某些变量的观测值预测另一个或另一些变量的值对事物现象的发展作预测。最后我们需要构造假设,并对所建立的以多元总体参数形式陈述的多种特殊统计假设进行检验。在多元统计分析方法中数据简化或结构简化,实质上就是数学中的降维方法。多元统计分析中的降维方法主要包括聚类分析、判别分析、主成分分析、因子分析、对应分析和典型相关分析等几种方法。其中主成分分析和因子分析是
4、在作综合评价方面应用最广泛、较为有效的方法。本文主要介绍这两种多元统计分析方法的应用。2 主成分分析2。1主成分分析的基本思想在大部分实际问题中,需要考察的变量多,变量之间是有一定的相关性的,主成分分析就是以损失很少部分信息为代价,保留绝大部分信息的前提下,将原来众多具有一定线性相关性的个指标压缩成少数几个互不相关的综合指标(主成分),并通过原来变量的少数几个的线性组合来给出各个主成分的具有实际背景和意义的解释.由于主成分分析浓缩了众多指标的信息,降低了指标的维度,从而简化指标的结构,深刻反映问题的内在规律.2。2 主成分分析的数学模型设对某一事物的研究涉及指标(变量):,,这项指标构成维的随
5、机向量,其均值和协方差矩阵分别是,。对进行线性变换,原来的变量的线性组合可以形成新的综合变量,用表示,满足: 矩阵表示为:,其中,由于不同的线性变换得到的综合变量的统计特性不同,为了达到较好的效果,我们希望的方差尽可能大且新的综合变量之间相互独立。由以下原则来确定新的综合变量:(1) ;(2)与相互独立,即无重复信息 ;(3)是的一切线性组合(系数满足上述方程组)中方差最大的,是与不相关的的一切线性组合中方差最大的,与都不相关的的一切线性组合中方差最大的.在实际应用时,通常挑选前几个方差比较大的主成分,虽然这样做会丢失一部分信息,但它使我们抓住了主要矛盾进行深入分析,并从原始数据中进一步提出了
6、某些新的信息,因而在某些实际问题的研究中得益比较大,这种既减少了变量的个数又抓住了主要矛盾的做法有利于问题的分析和处理.2。3 总体主成分的导出及性质在实际求解主成分时,常常是从原始变量的协方差矩阵或相关矩阵的结构出发,而从两个出发点求解出的主成分不同。2。3.1 从协方差矩阵出发求解主成分性质1:设矩阵,将的特征值依大小顺序排列,不妨设,为矩阵各特征值对应的标准正交特征向量,则对任意向量有,性质2:设随机向量的协方差矩阵为,为的特征值,为矩阵各特征值对应的标准正交向量,则第个主成分为: ,此时,。由以上性质,我们把原始变量的协方差矩阵的非零特征值对应的标准化特征向量分别作为系数向量,即,,分
7、别为的第一主成分、第二主成分,,第主成分的充要条件是:(1),,即为阶正交阵;(2)的分量之间相互独立;(3)的个分量方差依次递减.于是随机向量与随机向量之间存在关系式:由于在无论的各特征值是否存在相等的情况,对应的标准化特征向量总是存在,所以总是可以找到对应的各特征值的相互正交的特征向量。故将主成分的求解转换为求解原始变量的协方差阵的特征值和特征向量。性质3:第个主成分的方差贡献率为,反映主成分提取原始变量总信息的百分比.性质4:主成分的累积贡献率为(),反映主成分解释原始变量信息的百分比。性质5:,其中,称为主成分在原始变量上的载荷。它度量了对的重要程度。性质6:第个主成分与原始变量的相关
8、系数称为因子负荷量,表示主成分中包含原始变量信息的百分比,它与载荷成正比。2。3。2 从相关矩阵出发求解主成分为了消除原始变量不同量纲与数量级的影响,对原始变量作标准化变换:令,其中,分别表示变量的期望和方差.令则原始变量进行标准化变换为:显然有设求解出相关阵的特征值与对应的标准正交特征向量,则求解出的主成分与原始变量的关系式为:,2。4 样本主成分的导出在实际研究工作中,总体协方差阵与相关阵通常是未知的,于是需要通过样本数据来估计。设有个样品,每个样品有个指标,这样共得到个数据,原始资料矩阵为:记,,样本协方差矩阵为总体协方差阵的无偏估计,样本相关阵为总体相关阵的估计。若原始资料矩阵是经过标
9、准化处理的,则由矩阵求得的协方差阵就是相关矩阵。所以根据相关阵来求解主成分。根据总体主成分的定义,主成分的协方差是:其中为对角矩阵假定资料矩阵为已经作了标准化处理后的数据矩阵,则可以由相关矩阵代替协方差矩阵,则上式可表示为:即整理为齐次方程组为即即所求的新的综合变量(主成分)的方差是特征方程组的个根,为相关矩阵的特征值,相应的各个是其特征向量的分量。特征值,其相应的特征向量记为,则相对于的方差为。且协方差为:由此可有新的综合变量(主成分)彼此不相关,并且的方差为,则,,,分别为的第一主成分、第二主成分,第主成分。主成分的方差贡献就等于的相应特征值。利用样本数据求解主成分的过程就转化为求解相关阵
10、或协方差阵的特征值和特征向量的过程。2.5 主成分分析的步骤2.5.1 将原始变量进行标准化处理;2.5。2 计算标准化指标的相关系数矩阵2.5.3 求解相关系数矩阵的特征向量和特征值;2。5.4 计算各个主成分的方差贡献率及累积贡献率;2.5。5 确定主成分的个数;通常根据实际问题的需要由累计贡献率的前个成分来代替原来个变量的信息,或选取所有特征值大于1的成分作为主成分,也可根据特征值的变化来确定,即根据SPSS输出的碎石图的转折点来决定选取主成分的个数。2。5.6 对确定出的主成分作出实际意义的解释;2。5.7 利用所确定出的主成分的方差贡献率计算综合评价值,从而对被评价对象进行排名和比较
11、。3 因子分析3。1因子分析的基本思想因子分析是根据相关性大小把原始变量进行分组,使得同组内的变量之间相关性高,而不同组的变量之间的相关性低.每组变量代表一个基本结构(即公共因子),并用一个不可观测的综合变量来表示。对于所研究的某一具体问题,原始变量分解为两部分之和。一部分是少数几个不可观测的公共因子的线性函数,另一部分是与公共因子无关的特殊因子。3.2 因子分析的数学模型设有个指标,则因子分析数学模型为:其中,是已标准化的可观测的评价指标.出现在每个指标的表达式中,称为公共因子,公共因子是不可观测的,其含义要根据具体问题来解释.是各个对应指标所特有的因子,故称为特殊因子,它与公共因子之间彼此
12、独立。是指标在公共因子上的系数,称为因子载荷,因子载荷的统计含义是指标在公共因子上的相关系数,表示与线性相关程度。用矩阵形式表示为:其中,,称为因子载荷矩阵.其统计含义是:中的第行元素说明了指标依赖于各个公共因子的程度。中第列元素说明了公共因子与各个指标的联系程度。故常根据该列绝对值较大的因子载荷所对应的指标来解释这个公共因子的实际意义。中的第行元素的平方和称为指标的共同度。中第列元素的平方和表示公共因子对原始指标所提供的方差贡献的总和,衡量各个公共因子的相对重要性。称为公共因子的方差贡献率,越大,公共因子越重要。3.3 因子分析的步骤3.3。1 将原始变量数据进行标准化处理;3。2.2 计算
13、标准化指标的相关系数矩阵;3。2.3 求解相关系数矩阵的特征向量和特征值;3。2.4 确定公共因子的个数,设为个,即选择特征值1的个数或根据累积方差贡献率85的准则所确定的个数为公共因子个数;3.2.5 求解初始因子载荷矩阵;常用的方法有:主成分法、主轴因子法、极大似然法等.本文用主成分法寻找公因子的方法如下:设从相关矩阵出发求解主成分,设有个变量,则可以找出个主成分,将所得的个主成分由大到小排列,记为,则主成分与原始变量之间有其中是随机变量的相关矩阵的特征值所对应的特征向量的分量,特征向量之间正交,从到的转换关系的可逆得到由到的转换关系只保留前个主成分,而把后面的个主成分用特殊因子代替,即为
14、了把转化为合适的公因子,需要把主成分变为方差为1的变量,故令,则设样本相关系数矩阵的特征值为,其相应的标准正交特征向量为,设,则因子载荷矩阵的一个估计值为:共同度的估计为:.3.2。6 建立因子模型,其中为公共因子,为特殊因子。3.2。7 对公共因子进行重新命名,并解释公共因子的实际含义当初始因子载荷矩阵难以对公共因子的实际意义作出解释时,先要对作方差极大正交旋转,然后再根据旋转后所得的正交因子载荷矩阵作出解释,即根据指标的因子载荷绝对值的大小,值的正负符号来说明公共因子的意义。3。2.8 对初始因子载荷矩阵进行旋转由于因子载荷矩阵不唯一,旋转变换可以是使初始因子载荷矩阵的每列或每行的元素的平
15、方值趋于0或1,从而使得因子载荷矩阵结构简化,关系明确。如果初始因子之间不相关,公共因子的解释能力能够用其因子载荷平方的方差来度量时,则可采用方差极大正交旋转法;如果初始因子之间相关,则需要进行斜交旋转,通过旋转后,得到比较理想的新的因子载荷矩阵.3。2。9 将公共因子变为变量的线性组合,得到因子得分函数,系数,均为标准化的原始变量和公共因子.因子得分函数的估计值为其中为因子载荷矩阵,为原始变量的相关矩阵,为原始变量向量.3.2.10 求综合评价值,即总因子得分估计值为其中时第个公共因子的归一化权重.即:3.2.11 根据总因子得分估计值就可以对每个被评价的对象进行排名,从而进行比较。4主成分
16、分析与因子分析的联系和区别4.1区别4.1。1 侧重点不同;主成分分析是通过变量的线性变换,忽略方差较小的主成分,提取前面几个方差较大的主成分来解释总体大部分的信息;而因子分析是忽略特殊因子,而重视少数不可观测的公共因子所代表的总体信息.4.1.2 数学模型不同;主成分分析中的主成分是原始变量的线性组合:,其中为系数矩阵,即其中是相关矩阵的特征值所对应的特征向量矩阵中的元素,表示原始变量的标准化数据;而因子分析中的共同因子是将原始变量分解成公共因子和特殊因子两部分,,其中为因子载荷矩阵,即: ,是公共因子的个数,是原始变量的个数,是因子分析过程中的初始因子载荷矩阵中的元素,是第个公共因子,是第
17、个原始变量的特殊因子.4。1.3 主成分的各系数是唯一确定的、正交的,不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行旋转的,且该矩阵表明了原变量和公共因子的相关程度。4。1。4 因子旋转;主成分分析,可以通过可观测的原变量直接求得主成分,并具有可逆性;因子分析中的载荷矩阵是不可逆的。只能通过可观测的原变量去估计不可观测的公共因子,即公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。还有,主成分分析不可以像因子分析那样进行因子旋转处理。4.1.5 综合排名;主成分分析一般依据第一主成分的得分排名,若
18、第一主成分不能完全代替原始变量,则需要继续选择第二个主成分、第三个等等,主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到;而因子分析中因子得分是将原始变量的标准化值,代入因子得分函数中计算得到.4。2联系 因子分析是主成分分析的扩展,两种方法的出发点都是变量的相关系数矩阵,都是在损失较少的信息的前提下,把多个存在较强相关性的变量综合成少数几个综合变量,这几个综合变量之间相互独立,能代表总体绝大多数的信息,从而进行深入研究总体的多元统计方法。由于上文提到主成分可表示为原观测变量的线性组合,其系数为原始变量相关矩阵的特征值所对应的特征向量,且这些特征向量正交,因此,从到的转换关系是可逆
19、的,便得到如下的关系:,是因子分析中未进行因子载荷旋转时建立的模型, 故如果不进行因子载荷旋转,许多应用者将容易把此时的因子分析理解成主成分分析,这显然是不正确的。然而此时的主成分的系数阵即特征向量与因子载荷矩阵确实存在如下关系: 。5主成分分析和因子分析的实例分析本文利用SPSS软件对2006年四川省18个主要城市的社会福利发展情况进行主成分分析、因子分析方法及二者分析结果的比较。(除阿坝藏族羌族自治州、甘孜藏族自治州、凉山彝族自治州)针对所研究的问题,根据指标选择的针对性、可操作性、全面性等原则,选取了以下反映各城市社会福利发展水平的15项指标:城市低保资金(万元)、农村低保资金(万元)、
20、最低生活保障家庭数(户)、最低生活保障人数、养老保险征缴率()、失业保险征缴率()、医疗保险征缴率(%)、工伤保险征缴率(%)、生育保险征缴率()、基本养老保险参保人数(人)、基本医疗保险参保人数(人)、失业保险参保人数(人)、社会福利院数(个)、社会福利院床位数(个)、社区服务设施数(个)。分别记为原始指标变量.数据来源于2007年四川省统计年鉴。原始数据见附录表1表5。5.1 原始指标数据处理由于各个指标都是正向指标,无需对指标的符号做处理。为了消除指标量纲和数量级的影响,对原始指标数据做了标准化处理。标准化后的数据见附录表6。5。2 运用SPSS软件进行分析本文从相关矩阵出发,采用主成分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 聚类分析 因子分析 实例
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。