典型相关分析专题培训课件.ppt
《典型相关分析专题培训课件.ppt》由会员分享,可在线阅读,更多相关《典型相关分析专题培训课件.ppt(52页珍藏版)》请在咨信网上搜索。
1、典型相关分析典型相关分析10.1 典型相关分析及基本思想典型相关分析及基本思想 典型相关分析方法典型相关分析方法(canonical correlation analysis-CCA)最早源于荷泰林最早源于荷泰林(H,Hotelling)于于1936年在年在生物统计生物统计期刊上发表的一篇论文期刊上发表的一篇论文两组两组变式之间的关系变式之间的关系。他所提出的方法经过多年的应用。他所提出的方法经过多年的应用及发展,逐渐达到完善,在及发展,逐渐达到完善,在70年代臻于成熟。年代臻于成熟。由于典型相关分析涉及较大量的由于典型相关分析涉及较大量的矩阵矩阵计算,其方计算,其方法的应用在早期曾受到相当的
2、限制。但随着当代计算法的应用在早期曾受到相当的限制。但随着当代计算机技术及其软件的迅速发展,弥补了应用典型相关分机技术及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走向普及化。析中的困难,因此它的应用开始走向普及化。The canonical correlation analysis-CCA 在在解解决决实实际际问问题题中中,这这种种方方法法有有广广泛泛的的应应用用。如,在工厂里常常要研究产品的如,在工厂里常常要研究产品的 q个个质量指标质量指标 和和 p 个个原材料指标原材料指标 的的相关相关关系。关系。当当然然可可以以用用最最原原始始的的方方法法,分分别别计计算算两两
3、组组变变量量之之间间的的全全部部相相关关系系数数,一一共共有有p*qp*q个个简简单单相相关关系系数数,这这样又烦琐又不能抓住问题的本质。样又烦琐又不能抓住问题的本质。如如果果能能够够采采用用类类似似于于主主成成分分的的思思想想,分分别别找找出出两两组组变变量量的的各各自自的的某某个个线线性性组组合合,讨讨论论线线性性组组合合之之间间的的相关关系,则更简捷。相关关系,则更简捷。The canonical correlation analysis-CCAvWith canonical correlation,we are working with two sets of variable(e.g
4、.,we might have one set of variables measuring the personality characteristics of high school students and another set of variables measuring their vocational interests).vIn canonical correlation,we are also trying to re-express and simplify the data.Our goal is to find two linear combinations of th
5、e original variables-one combination from the first set variables and one combination from the second(called canonical variables)-that exhibit the largest possible covariance.vFrom James etcAnalyzing Multivariate DataFrom James.Analyzing Multivariate DatavIn principal components analysis(PCA),we fou
6、nd that a small number of components could account for much of the variance(i.e.,information)in the entire data set.vWith canonical correlation,we will find that a few pairs of canonical variates can account for much of the interdependence between two sets of variables.例:例:家庭特征家庭特征与与家庭消费家庭消费之间的关系之间的
7、关系 为了了解家庭的特征与其消费模式之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了调查了70个家庭的下面两组变量:个家庭的下面两组变量:分析分析两组变量之间两组变量之间的关系。的关系。The canonical correlation analysis-CCAX1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的变量间的相关系数相关系数矩阵矩阵The canonical correlati
8、on analysis-CCAy2y3y1x2x1The canonical correlation analysis-CCA 典型相关分析的典型相关分析的思想思想:首先分别在每组变量中找出首先分别在每组变量中找出第一对第一对线性组合,线性组合,使其具有使其具有最大相关性最大相关性,The canonical correlation analysis-CCA 然后再在每组变量中找出然后再在每组变量中找出第二对第二对线性组合,使其线性组合,使其分别与本组内的第一线性组合分别与本组内的第一线性组合不相关不相关,第二对线性组,第二对线性组合本身具有合本身具有次大次大的相关性。的相关性。既既:u2和和
9、v2与与u1和和v1相互独立相互独立,但,但u2和和v2有有次大次大相相关性关性。如此继续下去,直至进行到。如此继续下去,直至进行到r步,步,两组变量的两组变量的相关性被提取完为止。相关性被提取完为止。r min(p,q),可以得到,可以得到r组组变量。变量。The canonical correlation analysis-CCA10.2 典型相关的数学描述典型相关的数学描述 考虑两组变量的向量考虑两组变量的向量 其其协方差阵协方差阵为为 其中其中 1111是是第一组第一组变量的协方差矩阵;变量的协方差矩阵;2222是是第二第二组组变量的协方差矩阵;变量的协方差矩阵;是是X X和和Y Y的
10、的其其协方差协方差矩矩阵。阵。矩阵的矩阵的分块分块The canonical correlation analysis-CCA 如果我们记两组变量的如果我们记两组变量的第一对第一对线性组合为:线性组合为:其中:其中:所以,典型相关分析就是求所以,典型相关分析就是求a a1 1和和b b1 1,使,使 uvuv达到最大达到最大。想一想想一想如何求如何求?The canonical correlation analysis-CCA10.3 10.3 总体总体的典型的典型相关系数相关系数和典型变量和典型变量 在在约束约束条件条件:下,求下,求a a1 1和和b b1 1,使,使 uvuv达到最大。令
11、达到最大。令The canonical correlation analysis-CCA 根据数学分析中根据数学分析中条件极值条件极值的求法,引入的求法,引入LagrangeLagrange乘数乘数,求,求极值极值问题,则可以转化为求问题,则可以转化为求 的的极大值极大值,其中,其中 和和 是是 LagrangeLagrange乘数。乘数。The canonical correlation analysis-CCA不含不含将上面的将上面的3 3式分别左乘式分别左乘 和和 The canonical correlation analysis-CCA注意注意到到将将 左乘(左乘(3 3)的第二式,
12、得)的第二式,得 并将并将第一式第一式代入,得代入,得 的特征根的特征根是是 ,相应的特征向,相应的特征向量为量为等于等于单位阵单位阵特征根定义特征根定义The canonical correlation analysis-CCA将将 左乘(左乘(3 3)的第一式,并将第二式代入,得)的第一式,并将第二式代入,得 的特征根的特征根是是 ,相应的特征向,相应的特征向量为量为回顾特征根回顾特征根定义定义令令The canonical correlation analysis-CCA 结结论论:既既是是A A又又是是B B的的特特征征根根,和和 是是相相应应于于A A和和B B的特征向量。的特征向量
13、。至此,典型相关分析转化为求至此,典型相关分析转化为求A A和和B B特征根特征根和和特征特征向量向量的问题。的问题。第第一一对对典典型型变变量量提提取取了了原原始始变变量量X X与与Y Y之之间间相相关关的的主主要要部部分分,如如果果这这部部分分还还不不能能足足以以解解释释原原始始变变量量,可可以以在在剩剩余余的的相相关关中中再再求求出出第第二二对对典典型型变变量量和和他他们们的的典典型相关系数。型相关系数。The canonical correlation analysis-CCA 在剩余的相关中再求出在剩余的相关中再求出第二对第二对典型变量和他们典型变量和他们的的典型相关系数典型相关系数
14、。设第二对典型变量为:。设第二对典型变量为:在在约束条件约束条件:求使求使 达到达到最大最大的的 和和 。独立独立性性The canonical correlation analysis-CCA例:家庭特征与家庭消费之间的关系例:家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了调查了70个家庭的下面两组变量:个家庭的下面两组变量:分析分析两组变量两组变量之间的关系。之间的关系。The canonical correlation analysis-CCAX1X2y1y2y3X11.000.800.260.670.34X20.
15、801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵变量间的相关系数矩阵The canonical correlation analysis-CCA典型相关分析典型相关分析典型相典型相关系数关系数调整典型调整典型相关系数相关系数近似方差近似方差典型相关典型相关系数的平系数的平方方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919The canonical correlation
16、analysis-CCAX X组典型变量的系数组典型变量的系数U1U2X1(就餐)就餐)0.7689-1.4787X2(电影)(电影)0.27211.6443Y Y组典型变量的系数组典型变量的系数V1V2Y1(年龄)(年龄)0.04911.0003Y2(收入)(收入)0.8975-0.5837Y3(文化)(文化)0.19000.2956典型变量的典型变量的性质性质1 1、同一组同一组的典型变量之间的典型变量之间互不相关互不相关 X组的典型变量之间是组的典型变量之间是相互独立相互独立的:的:Y组的典型变量之间是组的典型变量之间是相互独立相互独立的:的:因为特征向量之间是因为特征向量之间是正交正交
17、的。故的。故注意正交注意正交与独立的与独立的关系关系The canonical correlation analysis-CCA2 2、不同组的典型变量之间、不同组的典型变量之间相关性相关性 不同组内一对典型变量之间的不同组内一对典型变量之间的相关系数相关系数为:为:同对同对则协方差为则协方差为 i,不同对不同对则为零。则为零。The canonical correlation analysis-CCA小结小结v1、典型相关分析关注并解决原始数据中、典型相关分析关注并解决原始数据中两组变量之两组变量之间间的相关关系问题;的相关关系问题;v2、典型相关分析最终转化为求典型相关分析最终转化为求A和
18、和B的的特征根特征根和和特特征向量征向量问题。问题。v3、第一对第一对典型变量,典型变量,第二对第二对典型变量典型变量;v4、注意构造各、注意构造各”对对”典型变量的典型变量的约束约束条件;条件;v5、注意典型变量的两个、注意典型变量的两个性质。性质。The canonical correlation analysis-CCA2024/6/4 周二26DXL10.4、样本样本典型相关系数和典型变量典型相关系数和典型变量 在实际应用中,总体的协方差矩阵在实际应用中,总体的协方差矩阵 常常是常常是未未知知的,类似于其他的统计分析方法,需要从总体中的,类似于其他的统计分析方法,需要从总体中抽出一个样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 典型 相关 分析 专题 培训 课件
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。