BLOSUM矩阵及其在生物信息学中的应用.doc
《BLOSUM矩阵及其在生物信息学中的应用.doc》由会员分享,可在线阅读,更多相关《BLOSUM矩阵及其在生物信息学中的应用.doc(11页珍藏版)》请在咨信网上搜索。
[生工0902] BLOSUM矩阵及其在生物信息学中的应用 生物信息学 齐阳,汪锴,袁理 2011/11/25 什么是BLOSUM矩阵?BLOSUM矩阵有什么应用? BLOSUM矩阵及其在生物信息学中的应用 齐阳 汪锴 袁理 摘要 BLOSUM矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛应用。本文综述了BLOSUM矩阵的由来、如何构建BLOSUM矩阵和其打分规则、应用以及现代算法。并指出了BLOSUM矩阵的发展前景。 关键词 BLOSUM矩阵;生物信息学;应用 0 引言 序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。 1 BLOSUM 矩阵概况 序列比对是现代生物学最基本的研究方法之一,常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变「2」。在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化。为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数「3」。 当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘汰。因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分。为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率「3」。 目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box 1. BLOCKS基本概念)中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。 2 BLOSUM 矩阵的构建 2.1 多序列比对 定义:一个多序列比对A 是一个二维字符矩阵,即A={}(n∈[1,N],i∈[1,I]),其中 = 或‘-’,并且满足下面三个条件:(1)序列的数目等于矩阵的行数;(2)如果移去每行中的‘-’字符,将得到原来的序列;(3)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐「5」。 从上面的定义可以看出,一个比对实际上是DNA 或蛋白质经过一系列突变事件(替代、插入、删除)的最后结果,它最近似地表示了所有的进化过程。其中删除和插入没有区别,经过适当地插入删除(用insert,delete 表示),可以使相同地保守残基位于同一列上,并使所有的结果序列具有相同的长度。例如: VTISCTGSSSNIGAG-NHVKWYQQLPG VTISCTGTSSNIGS--ITVNWTQQLPG LRLSCSSSGFIFSS--YAMYWVRQAPG PEVTCVVVDVSHEDPQVKFNWYVDG— 2.2 BLOSUM打分规则「6」 BLOSUM中得分主要采用Log-odds得分,即同源与非同源的可能性的比率的对数。在BLOSUM中两个残基i与j的得分s(a,b)按照log-odds方程计算,方程如下: -----------------------------------------------(1) 其中, 是指假定残基对a与b是同源的, 在已有同源序列比对中出现的目标频率: 是指假定残基a与b是非同源的与独立的, 残基a与b出现在任何一个蛋白质氨基酸序列中的平均背景频率: 是尺度参数,每个得分四舍五人取整. 如果残基对a 与b是同源的, 则它们出现在同源序列比对中目标频率>,s(a,b)<0. 如果残基对a与b 是非同源的, 则它们出现在同源序列比对中目标频率<,s(a,b)<0. 以相同氨基酸: 色氨酸/色氨酸(w/w)比对得分和亮氨酸/亮氨酸(L/L)比对得分;不同氨基酸: 丙氨酸/亮氨酸(A/L)比对得分和赖氨酸/谷氨酸(K/E)比对得分为例, 介绍计算过程. 1) 色氨酸/色氨酸(W/W)比对得分;在同源比对数据库中,测得=0.0065,=0-013,=0.347,代入(1)得s(W/W)=+10.5,取整得+11; 2) 亮氨酸/亮氨酸(L/L)比对得分;在同源比对数据库中,测得=0.0371,=0.099,=0.347,代入(1)得s(L/L)=+3.8,取整得+4; 3) 丙氨酸/亮氨酸(A/L)比对得分;在同源比对数据库中,测得=0.0044,=0.074,=0.099 =0.347,代入(1)得s(K/E)=-1.47,取整得-1; 4) 赖氨酸/谷氨酸(K/E)比对得分;在同源比对数据库中,测得=0.0041,=0.058,=0.054,=0.347,代入(1)得s(K/E)=+0.76,取整得+1; 将BLOSUM-1矩阵与自身相乘,可以近似得到高阶BLOSUM单位的替换率。可以根据序列的长度以及序列间的先验相似程度来选用特定的BLOSUM矩阵,低价BLOSUM矩阵更多是用来比较比较亲缘较远的序列,一般来说,BLOSUM-62矩阵适于用来比较大约具有62%相似度的序列,而BLOSUM-80矩阵更适合于相似度为80%左右的序列「3」。运用上述计算方法,就可得到BLOSUM62,见Table 1. Blosum62替代矩阵。 3 BLOSUM 矩阵的应用 基于进化原理的氨基酸保守性打分矩阵BLOSUM,原本是用于两条多肽链比对时使用的,其起源于相同的氨基酸模式之间氨基酸的保守性,即某种氨基酸对另一种氨基酸的取代数据,广泛用于蛋白质数据库的搜索。最近BLOSUM 被成功用于表面抗原分析、T 细胞抗原决定簇预测「7」、氨基酸定点突变后蛋白质的稳定性等多种重要科学研究中,对于常用的数据集经过严格的交叉验证,人们已经发现BLOSUM矩阵明显优于目前通常采用的理化特性打分方法和单位打分方法「8」。随着后基因组时代的到来,适与远亲分析的BLOSUM一定可以有更大的用武之地,以解决生命科学中的诸多难题。 3.1表面抗原分析 为分析HBV的表面抗原,对两个病人人群进行跟踪研究:一组是52位患病1年以上的慢性HBV感染携带者,另一组是129位新诊断的患者。获得这180名患者乙肝表面抗原的DNA序列然后与来自于基因库的168个全长HBV序列比较序列一致性。乙肝病毒表面抗原亲水区域的多态性用突变大师软件来分析。参考文献和BLOSUM打分「9」被用来分析潜在改变的抗原性。 3.2 T细胞抗原决定簇预测 为进一步预测T细胞抗原决定簇的结构,Huang L和Dai Y做了进一步研究,将BLOSUM矩阵「10」和氨基酸指标向量结合,在BLOSUM 矩阵中代替了氨基酸指标向量的每一个非零项,使相应的值出现在对角线项,这种方法可以把氨基酸的位置和相似度用BLOSUM打分「9」的形式简单表现出来。 3.3磷酸化位点的预测 磷酸化作用在多种真核细胞中具有重要的作用,例如有丝分裂、新陈代谢「1」以及信号传导「10」等。蛋白激酶在蛋白底物中催化特定的受体氨基酸,每一种激酶只催化它特定的底物子集。蛋白激酶的失活会导致疾病,因此了解特定蛋白激酶的磷酸化作用机制有重要意义。而利用实验手段或质谱分析「11」、缩氨酸微阵列「12」和特定磷蛋白质水解「13」等方法分析磷酸化蛋白质组都有很多缺陷,但有一种方法在磷酸化位点预测上有明显优势-----基于k邻近的蛋白激酶特异性预测方法「14」,此方法可以对不同激酶家族的磷酸化作用位点进行标注。由BLOSUM62打分矩阵得到的相似度函数作为系统的输入向量。 3.4蛋白质定点突变稳定性预测准确率 定点突变技术的潜在应用领域很广, 比如研究蛋白质相互作用位点的结构特性、酶学和酶工程中改造酶的不同活性或动力学特性、改造启动子或DNA 相互作用元件、研究蛋白质晶体结构, 以及药物研发、提高蛋白抗原性或稳定性和活性等。何种程度的变异会影响野生型蛋白的稳定性, 以及突变后该蛋白质稳定性的改变, 是设计蛋白质或对蛋白质进行点突变分析时的关键。但是实验测定的精确方法需要昂贵的设备和较长的实验时间,因此现在多使用生物信息学的方法。有人使用BLOSUM62预测氨基酸定点突变后蛋白质的稳定性,并对常用的数据集经过严格的交叉验证发现其明显优于目前通常采用的理化特性打分方法和单位打分法「8」。 4 BLOSUM 矩阵的挑战与发展 4.1 BLOSUM矩阵与PAM矩阵的比较 (1)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM比PAM大约多20倍。 (2)低价PAM矩阵适合用来比较亲缘较近的序列,而低价BLOSUM矩阵更多是用来比较亲缘较远的序列。 (3)在BLOSUM中,通过统计聚类技术来对相关蛋白质的无空位比对进行分类,并且计算类间的替换率。当观察某对氨基酸得到的替换率很低时就会带来一些统计问题,而BLOSUM的方法正好能够避免此类问题。 4.2 基于BLOSUM矩阵的一些现代算法 由于BLOSUM打分矩阵的上述优点,已被各种现代算法所利用,发挥不同领域的作用于功能。下面将介绍几种使用BLOSUM打分矩阵最多的算法,对它们的优缺点进行简单阐述。 4.2.1 动态规划算法 其指导思想就是在多级过程的每一级上列出各种可行的局部解。该方法由Needle-man 和Wunsch 于1970 年提出,最初用于求两个序列的最佳比对。对于两两全局序列比对情况,该方法的关键是设计一个二维矩阵,该矩阵的两个轴就是要比对的两个序列。Needle man-Wunsch 算法可以直接用于三个序列的比对。多序列比对的积分是n 个序列中两两进行比对所得积分之和。对于N 个序列的比对其运算时间呈指数增长,所以动态规划算法不是很适用。 4.2.2 渐进算法 渐进算法最早由Feng 和Doolittle 提出。在算法中,首先采用Needleman-Wunsch 算法把需要比对的N个序列进行彼此两两比对,其结果形成 个实体,然后对这些实体排序,进行全局比对。这种方法一般在质量尤其是计算速度、存储空间及可比对的序列数目方面比动态规划算法更优良。在比对过程中遵循“一旦有一个空位,总有一个空位”的规则。。渐进算法实际上从历史和进化的观点比对多个序列,准确地反映了导致现代序列的一系列歧异进化过程,并且可以直接用于构造进化树,其缺点是不能保证比对的结果是数学上的最优化比对。 4.2.3 随机算法「16」 (1)遗传算法 遗传算法使一类借鉴生物界的进化规律(适者生存、优胜劣汰和遗传学原理)演化来的全局意义上的自适应随机搜索方法。当用遗传算法进行生物序列分析时,假设每一代包含固定数量的个体(在序列分析中表示优化比对问题的一个可行解),这些个体用它们的适应度来评价。那些具有较高适应度的优良个体更适合于生存环境,将有很多的机会产生它们的后代,从而使优良特性得以遗传并强化。变异则模拟了生物进化过程中的偶然残基突变现象。对产生的新一代群体进行重新评价、选择、交叉、变异,如此循环往复,使群体中的最优个体的适应度和平均适应度不断提高,直至最优个体的适应度和平均适应度不断提高,直至最优个体的适应度达到某一限定值或最优个体的适应度和群体的平均适应度不再提高,则迭代过程收敛,算法结束。在这种算法中,可以对各种变异、交叉和打分系统进行设置。 (2)模拟退火 模拟退火算法的思想是Kirkpartick 等人于1982 年引入组合优化领域,其源于对固体退火过程的模拟。模拟退火算法采用Meteropolis 接受准则,并用一组称为冷却进度表的参数控制算法进程,使算法在多项式时间内给出一个近似最优解。模拟退火方法是用于蛋白质三维结构比对的一种确定性方法。但是,作为一种多序列比对工具,它需要过长的计算时间,特别是当比对的序列数目较大时更为明显,所以只适于一些高性能的计算机。 5 总结 BLOSUM打分矩阵自1992年由Henikoff夫妇提出至今已近二十年,它的应用也从最初的多肽链比对,蛋白质定点突变稳定性预测扩展到表面抗原分析,T细胞表面抗原决定簇预测,磷酸化位点预测等多方面。虽然有文章表示近年来已被当做标准的BLOSUM打分矩阵并非完全正确且存在错误计算,但这没有影响到BLOSUM打分矩阵的应用,甚至从某种程度上提升了其在搜索中的表现「17」。随着后基因组时代的到来,适于远亲分析的BLOSUM矩阵一定可以有更大的用武之地。 参考文献 「1」 Steven Henikoff, Jorja G Henikoff.Amino acid substitution matrices from protein block [J].Atlas of Protein Sequence and Structure.1978,5(3):345-352. 「2」 Chantle R.Korostensky.Algorithms for Building Multiple Sequence Alignments and Evolutionary Trees.[Dissertation] Swiss Federal Institute of Technology.2000. 「3」 孙啸,陆祖宏,谢建明等译.生物信息学概论.清华大学出版社.北京 「4」 http://bioinformatics.weizmann.ac.il/blocks/about_blocks.html 「5」 徐丽,康瑞华.生物信息学中的多序列比对算法.中国水运(理论版).2006,4(6):118-119. 「6」 孟翔燕,孟军,葛家麟.一种基于亲疏水性的替代矩阵.数学的实验与认识. 2009,39(7):105-112. 「7」 Roque-Afonso AM,Ferey MP,Ly TD.Viral and clinical factors associated with surface gene variants among hepatitis B virus carriers. Antivir Ther.2007,12(8):1255-1263 「8」 基于进化信息改进蛋白质定点突变稳定性预测准确率, 刘建国, 刘建荣, 刘明, 闫蓬勃.生物物理学报.2009,25(5)。 「9」 Nielsen M,Lundegaard C,Worning P,et al.Reliable prediction of T-cell epitopes using netural networks novel sequence representations.Protein Sci.2003,12:1007-1017. 「10」 Lou Yang,Yao Jianhui,Zereshki A,et al.NEK2A interacts with MAD1 and possibly functions as a novel integrator of the spindle checkpoint signaling[J].J Biol Chem.2004,279:20049-20057. 「11」 Meijer AJ,Dubbelhuis PF.Amino acid signalling and the integration of metabolism [J].Biochem Biophys Res Commun.2004,313:397-403. 「12」 Kraft C,Herzog F,Gieffers C,et al.Mitotic regulation of the human anaphase2promoting complex by phosphorylation[J].EMBOJ,2003,22:6598-6609. 「13」 Rychlewski L,Kschischo M,Dong Liying,et al.Target specificity analysis of the Abl kinase using peptide microarray data[J]. J MolBiol.2004,336:307-311. 「14」 Knight ZA,Schilling B,Row RH,et al.Phosphospecific proteolysis for mapping sites of protein phosphorylation [J].Nat Biotechnol.2003,21:1047-1054. 「15」 王明会,王立荣,许文龙,林晓君,江朝晖,冯焕清.基于k 近邻和BLOSUM62 矩阵方法的磷酸化位点预测.中国生物医学工程学报.2007,26(3). 「16」 王槐春.核酸和蛋白质序列分析基础.北京.人民军医出版社.1994. 「17」Mark P Styczynski,Kyle L Jensen,Isidore Rigoutsos,Gregory Stephanopoulos. BLOSUM62 miscalculations improve search performance.Nature Biotechnology. 2008,26:274-275.- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- BLOSUM 矩阵 及其 生物 信息学 中的 应用
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【xrp****65】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【xrp****65】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【xrp****65】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【xrp****65】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文