第4章主成份分析【可编辑的PPT文档】.ppt
《第4章主成份分析【可编辑的PPT文档】.ppt》由会员分享,可在线阅读,更多相关《第4章主成份分析【可编辑的PPT文档】.ppt(71页珍藏版)》请在咨信网上搜索。
第四章第四章 主成分分析与主成分回归主成分分析与主成分回归一、主成分的提出一、主成分的提出先看一个数据阵先看一个数据阵1.m维空间中的维空间中的n个点,简称个点,简称n个个m维点维点:2.n维空间中的维空间中的m个点,简称个点,简称m个个n维点维点:数据列子数据列子1.行向量代表某个基因在行向量代表某个基因在m个条件下的表达水平个条件下的表达水平2.列向量代表某一条件下各基因的表达水平列向量代表某一条件下各基因的表达水平1.29 -0.4933 -0.2233 -0.1923-0.9443-0.7523 1.1331.154 -0.2813 0.03168 0.1637-1.007-1.195 1.051.051 -1.257 -0.3692 -0.3342-0.3602-0.6522 0.32880.4052 -0.7338 -0.4338 0.2122-1.22-0.8188 0.76721.085 -0.5226 -0.5046 -0.2726-1.937-1.026 1.2411.208 -0.9575 -0.7145 -0.8485-1.448-1.663 1.6920.07261 -1.14 0.2426 -0.08839-0.8304-1.087 0.80860.6307 -0.7703 0.07768 -0.07532-1.336-1.335 0.71670.5261 -1.41 -0.09491 -0.2559-1.131-1.061 1.2370.5615 -1.45 -0.2535 -0.7475-0.1795-1.125 1.285 对于高维空间如对于高维空间如100维中的点,我们很难直观维中的点,我们很难直观地分析各个数据点之间的关系。地分析各个数据点之间的关系。但如果这些点之间存在较强的相关性,则往但如果这些点之间存在较强的相关性,则往往可在较低维的空间中将它们之间的关系表达出往可在较低维的空间中将它们之间的关系表达出来。来。如何将高维空间中的点转化到较低维空间中的点,如何将高维空间中的点转化到较低维空间中的点,这就是数据分析中的降维技术,而主成分析就是有效这就是数据分析中的降维技术,而主成分析就是有效的降维技术之一的降维技术之一 假设上面假设上面1000个百维点有明显的结构关系,它个百维点有明显的结构关系,它们基本上处在们基本上处在10维子空间中,则所谓的降维技术就维子空间中,则所谓的降维技术就是找出是找出10维空间的维空间的1000个点,它与原始的个点,它与原始的1000个个点最接近。点最接近。主成分分析的适用范围主成分分析的适用范围适用于主成分分析适用于主成分分析不适用于主成分分析不适用于主成分分析已知这些已知这些“”点,如何将这条绿色的线点,如何将这条绿色的线“”找出来找出来OABCD与与 分别代表点分别代表点 与与 到到 的距离的距离对对 中的中的m个点,个点,我们有:我们有:降维技术就是要找出降维技术就是要找出 ,使得:,使得:最小最小根据欧氏空间的商高定理根据欧氏空间的商高定理(勾股定理),我们有:勾股定理),我们有:OAB它等价于:它等价于:最小最小 固定固定 最大最大根据二次型极值有关定理,使根据二次型极值有关定理,使最大的最大的 就是矩阵就是矩阵 最大特征值最大特征值 对应的特征向量对应的特征向量以上是将以上是将m个个n维点投影到一维空间时的最近空间维点投影到一维空间时的最近空间 当要投影到两维空间时,根据高等代数学有关知识,当要投影到两维空间时,根据高等代数学有关知识,我们有:我们有:其中的一维是特征值最大所对应的特征向量其中的一维是特征值最大所对应的特征向量另一维则是其次大特征值对应的特征向量另一维则是其次大特征值对应的特征向量 对于任意对于任意qn,在所有的在所有的q维子空间中,以维子空间中,以 前前q个特个特征向量所张成的子空间,使得征向量所张成的子空间,使得 与它们在与它们在这个子空间的投影有最小平方误差。这个子空间的投影有最小平方误差。于是我们有如下基本概念:于是我们有如下基本概念:1.称称 为为 在在 中第中第 个主轴向量个主轴向量2.称称 为为 的主坐标的主坐标3.称称 个样本的第个样本的第 个主坐标形成的向量个主坐标形成的向量 为为 个变量个变量 的第的第 个主成分,个主成分,4.对一个样本对一个样本 ,称值,称值 为这个样本关于第为这个样本关于第 个主成个主成分的得分,或者说第分的得分,或者说第 个主成分在这个样本上的得分个主成分在这个样本上的得分接下来我们结合图形对上述概念作出一一解释接下来我们结合图形对上述概念作出一一解释(第第1个主轴向量)个主轴向量)(第第2个主轴向量)个主轴向量)主坐标主坐标1.称称 为为 在在 中第中第 个主轴向量个主轴向量2.称称 为为 的主坐标的主坐标构成第一个主成分构成第一个主成分 即即同样的我们有第同样的我们有第2个,个,3个等主成分:个等主成分:综合起来写就有:综合起来写就有:第一个样本在第一条主轴上的得分第一个样本在第一条主轴上的得分第二个样本在第一条主轴上的得分第二个样本在第一条主轴上的得分我们称:我们称:为主成分变换为主成分变换称:称:为恢复数据为恢复数据二、二、主成分的性质及计算步骤主成分的性质及计算步骤1.各主成分相互正交:各主成分相互正交:相互正交相互正交而且它们长度的平方即是对应的特征值而且它们长度的平方即是对应的特征值(一)主成分的主要性质一)主成分的主要性质是是 的特征向量的特征向量2.用前用前p个主成分恢复原始数据阵得到的误差平方和为:个主成分恢复原始数据阵得到的误差平方和为:3.相对误差平方和:相对误差平方和:(二)主成分算法步骤二)主成分算法步骤1.将原始数据阵中心化或标准化将原始数据阵中心化或标准化2.计算矩阵:计算矩阵:3.求出矩阵求出矩阵G的的 全部特征值全部特征值与与特征向量特征向量4.计算计算 的主成分的主成分5.对给定主成分贡献的比例对给定主成分贡献的比例q0,判断实际可取的主成分数,判断实际可取的主成分数6.应用前应用前p个主成分恢复原始数据个主成分恢复原始数据计算实例计算实例原始数据原始数据 -0.4954 0.0735 -0.3178 0.2052-0.4954 0.0735 -0.3178 0.2052 -0.3853 -0.0004 -0.0493 0.0524 -0.3853 -0.0004 -0.0493 0.0524 -0.2752 -0.2203 -0.0047 0.0952 -0.2752 -0.2203 -0.0047 0.0952 -0.1651 0.2935 0.7119 0.1797 -0.1651 0.2935 0.7119 0.1797 -0.0550 -0.2203 -0.1390 0.2225 -0.0550 -0.2203 -0.1390 0.2225 0.0550 0.7333 0.3090 0.0102 0.0550 0.7333 0.3090 0.0102 0.1651 0.0735 -0.0938 0.0952 0.1651 0.0735 -0.0938 0.0952 0.2752 -0.0004 -0.4075 0.0524 0.2752 -0.0004 -0.4075 0.0524 0.3853 -0.3663 -0.2281 0.0102 0.3853 -0.3663 -0.2281 0.0102 0.4954 -0.3663 0.2193 -0.9232 0.4954 -0.3663 0.2193 -0.92321.标准化后的数据:标准化后的数据:2.2.计算矩阵计算矩阵G G 1.0000 -0.2822 -0.0221 -0.61271.0000 -0.2822 -0.0221 -0.6127 -0.2822 1.0000 0.4402 0.3467 -0.2822 1.0000 0.4402 0.3467 -0.0221 0.4402 1.0000 -0.2032 -0.0221 0.4402 1.0000 -0.2032 -0.6127 0.3467 -0.2032 1.0000 -0.6127 0.3467 -0.2032 1.00003.3.计算矩阵计算矩阵G G的全部特征值与特征向量的全部特征值与特征向量全部特征值:全部特征值:全部特征向量:全部特征向量:4 计算计算 的主成分:的主成分:0.4158 -0.3911 -0.1035 -0.23950.4158 -0.3911 -0.1035 -0.2395 0.2561 -0.1374 -0.2210 -0.1427 0.2561 -0.1374 -0.2210 -0.1427 0.1098 -0.1971 -0.2835 0.0455 0.1098 -0.1971 -0.2835 0.0455 0.4521 0.5945 -0.1788 0.2504 0.4521 0.5945 -0.1788 0.2504 0.0363 -0.3023 -0.0520 0.1579 0.0363 -0.3023 -0.0520 0.1579 0.3877 0.5897 0.3415 -0.1473 0.3877 0.5897 0.3415 -0.1473 -0.0169 -0.0394 0.2136 0.0555 -0.0169 -0.0394 0.2136 0.0555 -0.1884 -0.2810 0.3586 -0.0395 -0.1884 -0.2810 0.3586 -0.0395 -0.4422 -0.2722 0.1350 0.2166 -0.4422 -0.2722 0.1350 0.2166 -1.0104 0.4364 -0.2098 -0.1570 -1.0104 0.4364 -0.2098 -0.1570第第1个主成分个主成分 第第2个主成分个主成分 第第3个主成分个主成分 第第4个主成分个主成分5.判断主成分数:判断主成分数:主轴主轴1主轴主轴2原始数据在第原始数据在第1主成分与第主成分与第2主成分中的投影(阈值:主成分中的投影(阈值:)477个基因分成个基因分成7个模式个模式三、补充变量与补充个体三、补充变量与补充个体原始数据原始数据添加变量添加变量添加样本添加样本(添加(添加 样本)样本)(添加添加 个新变量)个新变量)对补充变量,对补充变量,先进行标准化先进行标准化:相应的主成分为:相应的主成分为:对新的样本,其标准化为:对新的样本,其标准化为:相应的主成分为:相应的主成分为:三、主成分回归法三、主成分回归法(一)解方程与方程组的误差传递与扩大问题(一)解方程与方程组的误差传递与扩大问题1、解方程的误差传递与扩大:、解方程的误差传递与扩大:误差误差X解的最终误差解的最终误差误差传递误差传递如果如果:则有:则有:显然误差被扩大显然误差被扩大例:例:这就是解方程时测量误差会被传递且放大这就是解方程时测量误差会被传递且放大对方程组:对方程组:方程组解的误差为:方程组解的误差为:条件数条件数在数学中称之为范数,对向量:在数学中称之为范数,对向量:列范数列范数谱范数谱范数行范数行范数对矩阵对矩阵 ,有:,有:是矩阵是矩阵 的最大特征值的最大特征值对我们前面多元线性回方程的超定方程组:对我们前面多元线性回方程的超定方程组:如果我们选择前如果我们选择前p个主成分,则有个主成分,则有于是,我们有:于是,我们有:这就是主成分回归这就是主成分回归 减少主成分,则会减少条件数,但会减少主成分,则会减少条件数,但会增加测量误差,因此这时选取主成分数需增加测量误差,因此这时选取主成分数需得在二者之间找出一个最优化值得在二者之间找出一个最优化值多元线性回归的例子,不同主成分数的计算结果比较多元线性回归的例子,不同主成分数的计算结果比较- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 可编辑的PPT文档 成份 分析 编辑 PPT 文档
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文