多变量光谱分析-自学教程.doc
《多变量光谱分析-自学教程.doc》由会员分享,可在线阅读,更多相关《多变量光谱分析-自学教程.doc(28页珍藏版)》请在咨信网上搜索。
1、拉曼多元曲线分辨技术Raman Multivariate Curve Resolution(MCR) 拉曼多元曲线分辨技术是通过研究溶质溶解对溶剂结构的影响来研究溶液中分子之间的相互作用。其结果能够揭示溶质溶剂化层的振动光谱的变化,从而从新的角度来研究溶剂化。这种方法在很多关键的方面不同于以往的差别,溶剂化层,和溶剂化层扰动光谱。特别地,就溶剂或者溶质产生光谱的形状,这种方法也不做任何假设。1与传统方法不同的是,这种方法提取出来的结果都为正的光谱,对应于溶质诱导产生的振动光谱。这种光谱的特征峰与孤立溶质(要求溶液为稀溶液)的溶剂化层有关,不等同于在高浓度溶液下的光谱。2更确切地说,溶质诱导光谱
2、不仅包含溶质本身的特征峰而且包含受溶质扰动的溶剂的特征峰。1首先我们测得需要导入的不同浓度溶液(通常为1-5wt%)的拉曼光谱。然后我们利用多元曲线分辨(Multivariate curve resolution, MCR)的方法3来提取溶剂本体以及不同浓度溶液的溶质诱导光谱。在应用MCR的方法来提取测量光谱中的溶质扰动部分时涉及到以下关键的假设:每套光谱都是两种组分的线性组合,并且这两种组分的权重都为非负;这两种组分中的其中一种必须和溶剂本体的光谱相同,而另外一种组分包含溶质扰动的信息。这就要求溶液的浓度要足够稀,以至于可以忽略溶液中溶质与溶质之间的相互作用。应用实例Dor Ben-Amot
3、z1利用MCR技术研究了多种溶质(乙腈,丙酮,吡啶,四氢呋喃和环己烷)对水结构扰动的振动光谱特征。经过MCR处理的光谱能够揭示新的OH伸缩振动峰。这种新峰来自于水分子与极性溶质的相互作用。产生的新峰的振动频率较高,表明与本体溶液中的水分子相比这些水分子收到较弱的氢键作用。在一些情况下,会出现两个清晰的OH伸缩振动峰。这表明有两种不同的水的结构或者两种不同的氢键。另外,Dor Ben-Amotz发现溶质的极性会扰动1,2-二氯乙烷溶剂中溶剂化层的斜式-反式构象平衡。MCR数据处理方法1多元曲线分辨-交替最小二乘法(MCR-Alternating least squares)MCR-ALSMCR-
4、ALS是一种基于双线性的化学计量学方法,对于一个二维光谱数据矩阵D表示如下:D = CSt + E其中D和E分别是光谱矩阵和误差矩阵,C(m*N)是浓度变化矩阵,St(N*n)是纯物种光谱矩阵,m是时间扫描点数,n是波数点数,N是化学组分数。2多元曲线分辨多元曲线分辨对数据的要求是3:实验产生的数据为双线性的数据矩阵,各个数据矩阵所代表的化学成分相同并且矩阵之间相互独立。多元曲线分辨首先将各个数据矩阵堆叠从而建立一个扩展的二维数据矩阵。新产生的二维数据矩阵其中的一维与扩展前相同。具体的扩展方法见图1。然后可以对新生成的扩展矩阵进行多元曲线分辨分析。在利用交替最小二乘法优化解时,可以加入来自于数
5、据结构的限制条件。3图1.将几个二维矩阵扩展成为一个新的二维矩阵的方法。1a列式的扩展矩阵;1b行式的扩展矩阵;1c管式的扩展矩阵多元曲线分辨分析方法是基于展开的扩展的列式数据矩阵。以下是这种方法的简介。多元曲线分析假设实验数据遵循线性模型,如同吸收光谱遵守比尔吸收定律(Lambert-Beers law)一样。按照矩阵的方式,这种模型可以写成D = CSt + E-(1)D为在某一变量(时间,pH,浓度等)为不同值时采得的光谱所组成的数据矩阵。C和S为与浓度和物种光谱有关的数据矩阵。E为实验误差。以上三矩阵的维数分别为D(I*J),C(I*N),S(J*N)和E(I*J)。I为被用来分析的光
6、谱的数量。J为每个光谱的点数。N为样品中物种的种数。曲线分辨的主要目的是通过对D矩阵分析反解出真实的C矩阵和S矩阵。可以从测试纯的物质或者从渐进因子分析中可以获得C矩阵和S矩阵的初始值。进而通过利用交叉最小二乘法迭代地解方程(1)而优化C矩阵和S矩阵。在优化的过程中,每次迭代都会产生一个新的C和S矩阵:C+D*=C+CST=ST and D*(ST)+=C(ST)(ST)+=CD*是PCA产生的数据矩阵,用来选择组分数。C+是C的伪逆矩阵。(ST)+是ST的伪逆矩阵如果能够正确地选择物种的数量,C和ST就分别为满秩列矩阵和满秩行矩阵。在每次迭代循环中都可以加入以下限制条件:(1)非负性;(2)
7、选择性和零浓度窗口;(3)单峰性;(4)封闭性。3主元分析-principal component analysis(PCA) 主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。即在力保数据信息丢失最少的原则下,对多变量的数据进行最佳综合简化。主元分析被广泛地用来处理光谱数据而获得样品中的主要信息。4-7下面以一个简单的模型来介绍主元分析。假设有m个变量来描述n个样本,这样得到的数据就形成了一个mn的矩阵Xmn。假设X有p个特征值以及对应的特征向量为:, ,i=1,2,p (pm)由特征向量组成的载荷矩阵为主元分析就是把一组变量X通过线性变换,转换成一组线性无关的变量Y:写成矩阵的
8、形式为主成分分析的目的就是使得Y的协方差矩阵Cov(Y)为对角阵,即Yi之间不相关。这样就可以以少量的变量来研究数据,使得数据中的变化规律更清晰。Yi为主成分,Y为主成分矩阵。3.1数据的预处理3.1.1数据的缩放(data-scaling)因为PCA一种突出发生最大变化的变量的一种方法,所以在最终的模型中发生大的变化的变量比发生小的变化的变量占有更大的比重。但是一个均值较大而方差较小的变量会掩盖一个均值较小方差较大的变量。所以,需要对数据进行缩放。最常见最客观的数据缩放方式是单位方差缩放(UV)。具体的操作方式是:首先计算每一变量的标准方差(sk);然后计算出标准方差的倒数并以此为数据缩放的
9、比例;最终将每一变量乘以缩放比例,得到的每一变量都具有相同单位的变化。83.1.2数据的中心化数据的中心化即为计算出每个变量的均值,然后将每个变量都减去相应的均值。3.1.3 主元分析假设有一矩阵X拥有K个变量(此处为了做图方便假设K=3)和N个观察值。为此矩阵我们建立一个变量空间(空间的维度等于变量的个数),每个维度的长度都根据UV规则进行缩放。然后将每个观察值(X矩阵的每一行)都对应到此K维空间中,如下图。其中红点的坐标对应于X每个维度的平均值。8上图经过数据中心化处理后,得到下图:最终对处理后的数据进行主元分析(PCA)。下面将以两个主元来示意主元分析的结果图。利用两个主元对以上数据进行
10、分析。用此两个主元定义一个平面就会在K维空间中创建一个窗口。然后将所有的观察值都投影到此低维子空间并画出结果图,我能就能够很清晰的看到数据变化的规律。观察值在此低纬空间的坐标乘坐scores,相应的结果图为score plot。下面以一个示意score plot来讲解score plot的含义。如上图所示,在此score plot中每个欧洲国家(16个国家)都被两个值所表示:一个为第一主元,另一个为第二主元。在score plot中两个距离较近的国家具有相似的性质,而相距较远的国家的性质相差较大。那些北欧国家(Finland,Norway,Denmark和Sweden)都处在右上角,因此代表一
11、组具有相似性质的国家。Belgium和Germany都靠近中心,说明这两个国家比较接近欧洲的平均水平。在多元分析当中,我们想了解在原来的X中哪个变量更具有影响力,以及这些变量如何相关。这些信息会在principal component loading plot中给出,以下面的loading plot为例讲解。8上图同时展示了20个变量之间的相互关系。携带相似信息的在component loading plot会处的位置相近,并且它们是相关的。Crisp bread(Crisp_Br)和frozen fish(Fro_Fish)拥有正相关的关系。当其中的一个变量增加或减小时,另外一个变量也会相应
12、的增加或减小。当两个变量处在相近的位置而且又处在原点的两侧时(例如garlic和sweetener),这两者是负相关的关系,即当一个变量增加或减小时,另外一个变量相应地减小或增加。变量到原点的距离也会承载着一些信息。距离原点越远的变量对此模型的影响越大。用几何语言来讲,principal component loading表达的是这个模型平面在原变量空间中的曲线。主元的方向与这些的cosine值相关。这些值表面了原变量如何组装模型窗口中的主元。84因子分析-Factor Analysis往往会有一些共同的因子支配着几种分析变量,造成这些分析变量之间往往存在相关性。因子分析就是通过对多个变量的相
13、关系数矩阵的研究,找出同时影响或支配所有变量的共性因子。因子分析的应用有:(1)通过对变量相关关系探测,寻找作用于这些有强相关关系的变量的共同因子。用这些较少的几个因子代表原数据的基本结构;(2)用个数较少的几个因子变量代替原变量进行回归分析、聚类分析等。因子分析的基本思想是:(1)假定可用变量间的相关性把它们分组,即假设组内所有的变量之间是高度相关,而不同组变量间是弱相关;(2)假定每一组变量存在一个导致其组内变量高度相关的潜在(不能观察)公共因子;(3)假定因子对观测变量的影响是线性的。这些潜在的公共因子有以下特点:(1)因子变量的个数远远少于原始变量的个数;(2)因子变量并不是原始变量的
14、简单取舍,而是一种新的综合;(3)因子变量之间没有线性关系;(4)因子变量具有明显的解释性,可以最大限度地发挥专业分析作用。4.1数学模型设有p个经过标准化的观测变量x1,x2,xp, 每个变量可由一组因子变量f1,f2,fm的线性组合表示,即:利用矩阵记号:各个指标变量都受到的影响,因此称为公共因子,称为因子载荷矩阵,是单变量所特有的因子,称为的特殊因子(unique factor)。设,分别是均值为0,方差为1的随机变量,即;特殊因子,分别是均值为0,方差为,的随机变量,即;各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即及。aji是第个变量在第个公共因子上的负荷,从投影的角度看,
15、就是在坐标轴上的投影。主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有的因素,即公共因子与特殊因子。在主成份分析中,残差通常是彼此相关的。在公因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。在开始提取公因子时,为了简便还假定公因子彼此不相关且具有单位方差。在这种情况下,向量(其每一个元素是一个向量,所以X实际上是一个矩阵)的协方差矩阵可以表为(D是对角阵)这里D=diag(),diag表示对角矩阵。如果假定已将X标准化(类似上面的数据的中心化),也就是说的X每一个分量的均值都为0,方差都是1
16、,即,那么反映了公共因子f对的影响,称为公共因子f对的“贡献”。实际反映了变量对公共因子f的依赖程度。另一方面,还可以考虑指定的一个公共因子对各个变量的影响。实际上,对各个变量的影响可由中第列的元素来描述,那么称为公共因子对的“贡献”。显然越大,对的影响就越大,成为衡量因子重要性的一个尺度。实际上那么矩阵的统计意义就非常清楚:l aij是和的相关系数;l 是对公共因子的依赖程度;l 是公共因子对的各个分量总的影响。下面我们来看怎样求解因子载荷矩阵。因子载荷矩阵的求解如果已知协方差矩阵和,可以很容易地求出。 记,则是非负定矩阵。若记矩阵的p个特征值 = = = 0,且m个非零特征值所对应的特征向
17、量分别为,则的谱分解式为(36.9)只要令(36.10)就可以求出因子载荷矩阵。但在实际问题中,我们并不知道、,即不知道,已知的只是个样品,每个样品测得个指标,共有个数据,样品数据见表6.1所示。为了建立公因子模型,首先要估计因子载荷A和特殊因子方差。常用的参数估计方法有以下三种:主成份法、主因子解法和极大似然法。1. 主成份法主成份法求因子载荷矩阵的具体求法如下:首先从资料矩阵出发求出样品的协方差矩阵,记之为,其特征值为,相应单位正交特征向量为,当最后个特征值较小时,则对进行谱分解可以近似为(36.11)其中 0是协方差矩阵相应的前个较大特征值。先取,然后看是否接近对角阵。如果接近对角阵,说
18、明公共因子只要取一个就行了,所有指标主要受到这一个公共因子的影响;如果不是近似对角阵,就取,然后看是否接近对角阵,如果接近对角阵,就取两个公共因子;否则再取,直到满足“要求”为止。这里的“要求”要视具体情况而定,一般而言,就象主成分分析一样,直接取前个特征值和特征向量,使得它们的特征值之和占全部特征值之和的85以上即可。此时,特殊因子方差。2. 主因子解法-是一种迭代法主因子解法是主成份法的一种修正,它是从资料矩阵出发求出样品的相关矩阵,设,则。如果我们已知特殊因子方差的初始估计,也就是已知了先验公因子方差的估计为,则约相关阵为(类同AA)(36.12)计算的特征值和特征向量,取前个正特征值及
19、相应特征向量为,则有近似分解式(36.13)其中,令,则和为因子模型的一个解,这个解就称为主因子解。上面的计算是我们假设已知特殊因子方差的初始估计,那么特殊因子方差的初始估计值如何得到呢?由于在实际中特殊因子方差(或公因子方差)是未知的。以上得到的解是近似解。为了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的作为特殊方差的初始估计,重复上述步骤,直到解稳定为止。公因子方差(或称变量的共同度)常用的初始估计有下面三种方法:l 取为第个变量与其他所有变量的多重相关系数的平方(或者取,其中是相关矩阵的可逆矩阵的对角元素,则);l 取为第个变量与其他所有变量相关系数绝对值的最大值;l 取
20、=1,它等价于主成份解。3. 极大似然法假定公共因子f和特殊因子服从正态分布,那么我们可得到因子载荷阵和特殊方差的极大似然估计。设维的个观察向量为来自正态总体的随机样本,则样本似然函数为和的函数。设,取,对于一组确定的随机样本,已经变成了确定已知的值,则似然函数可以转换为和的函数。接下来就可以求和取什么值,函数能达到最大。为了保证得到唯一解,可以附加唯一性条件对角阵,再用迭代方法可求得极大似然估计的和的值。因子旋转因子模型被估计后,还必须对得到的公因子进行解释。进行解释通常意味着对每个公共因子给出一种意义明确的名称,它用来反映在预测每个可观察变量中这个公因子的重要性,这个公因子的重要程度就是在
21、因子模型矩阵中相应于这个因子的系数,显然这个因子的系数绝对值越大越重要,而接近0则表示对可观察变量没有什么影响。因子解释是一种主观的方法,有时侯,通过旋转公因子可以减少这种主观性,也就是要使用非奇异的线性变换。设维可观察变量满足因子模型。设是任一正交阵,则因子模型可改写为其中,。根据我们前面假定:每个公因子的均值为0,即,每个公因子的方差为1,即,各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即及。可以证明因此,。这说明,若和是一个因子解,任给正交阵,和也是因子解。 由于正交阵是任给的,所以因子解不是唯一的。在实际工作中,为了使载荷矩阵有更好的实际意义,在求出因子载荷矩阵后,再右乘一个
22、正交阵,这样就变换了因子载荷矩阵,这种方法称为因子轴的正交旋转。我们知道,一个所有系数接近0或1的旋转模型矩阵比系数多数为0与1之间的模型容易解释。因此,大多数旋转方法都是试图最优化模型矩阵的函数。在初始因子提取后,这些公因子是互不相关的。如果这些因子用正交变换(orthogonal transformation)进行旋转,旋转后的因子也是不相关的。如果因子用斜交变换(oblique transformation)进行旋转,则旋转后的因子变为相关的。但斜交旋转常常产生比正交旋转更有用的模型。旋转一组因子并不能改变这些因子的统计解释能力。如果两种旋转模型导出不同的解释,这两种解释不能认为是矛盾的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多变 光谱分析 自学 教程 编辑 修改 word
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。