核酸序列分析及结构预测.ppt
《核酸序列分析及结构预测.ppt》由会员分享,可在线阅读,更多相关《核酸序列分析及结构预测.ppt(106页珍藏版)》请在咨信网上搜索。
1、核酸序列分析及结构预测核酸序列分析及结构预测第一节第一节 核酸序列的数据形式核酸序列的数据形式1.串(string)符号或字符的有序排列,符号或字符来自有限集合A,T,G,C。序列(sequence)与串是同一概念。s=ATTGCATATG;串的长度|s|;串s某个位置的字符表示为si,1 i|s|。特别的,长度为0的串称为空串(empty string),用符号 表示。2.子串(substring)和子序列(subsequence),二者不是相同的概念。子串和超串s=ATGCGGTA;t=TGCGG;s是t的超串子序列和超序列s=ATGCGGTA;t=TGTA;s是t的超序列区间(inter
2、val)s=ATGCGGTACGTATACG;u=CG,si,i+13.串u和w的拼接(concatenation),表示为uw。例如s=ATGCGGTA;t=TGCGGst=ATGCGGTATGCGGts=TGCGGATGCGGTA串的冥s=AT;sss=AT AT AT=s3串的前缀(prefix)s=ATGCGGTAGC;prefix(s,3)=ATG;prefix(s,0)=存在且只存在s的另1个子串u,使得s=tu,t是u的前缀。串的后缀(suffix)s=ATGCGGTAGCsuffix(s,3)=AGC;suffix(s,2)=GC;suffix(s,0)=存在且只存在s的另1个
3、子串u,使得s=ut,t是u的后缀。杀手因子(killer agent),假定存在1个特别的串|-1 在与其它串拼接的时候,起到删除相邻字符的作用例如,s=ATGCGGTAGC s=TGCGGTAGCs=ATGCGGTAG ATGC GGTAG?无意义(ATGC)GGTAG ATGC(GGTAG)stu=(st)u=s(tu);|s|-1,|t|-1,|u|-1|st|=|s|+|t|,s和t可以是任何串利用杀手因子可以表示1个串的子串,前缀和后缀sij=i-1 s|s|-jprefix(s,k)=s|s|-kSuffic(s,k)=|s|-k s 第二节第二节 序序 列列 比比 较较序列比较
4、的根本任务:发现序列之间的相似性 辨别序列之间的差异序列比较的目的:相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 序列的相似性同源(同源(homologyhomology)-具有共同的祖先具有共同的祖先直向同源(直向同源(OrthologousOrthologous )共生同源(共生同源(paralogousparalogous )相似(相似(similaritysimilarity)同源序列一般是相似的同源序列一般是相似的相似序列不一定是同源的相似序列不一定是同源的进化趋同(同功能)进化趋同(同功能)直向同源(直向同源(a1 in species I,a1
5、in species II)共生同源(共生同源(a1 and a2 in species I)进化趋同进化趋同水平转移水平转移基因复制基因复制序列相似性的描述序列相似性的描述定性的描述定性的描述定量的数值定量的数值相似性相似性距离距离序列比较的基本操作是比对序列比较的基本操作是比对(Alignment)两个序列的比对是指这两个序列中各个字符的两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列一种一一对应关系,或字符的对比排列 。例如,设有两个序列:s=GACGGATTAG,t=GATCGGAATAGAlignment2:GA-CGGATTAGGATCGGAATAGAli
6、gnment1:GACGGATTAG GATCGGAATAG字母表和序列字母表和序列字母表字母表(字符或符号集合字符或符号集合)4字符DNA字母表:A,C,G,T扩展的遗传学字母表或IUPAC编码单字母氨基酸编码符 号含 义说 明GGGuanine AAAdenine TTThymine CCCytosineRG or APurine YT or CPyrimidine MA or CAmino KG or TKeto SG or CStrong interaction(3 H bonds)WA or TWeak interaction(2 H bonds)HA or C or TNot-GB
7、G or T or Cnot-AVG or C or Anot-T(not-U)DG or A or Tnot-C NG or A or T or CAny 扩展的遗传学字母表或扩展的遗传学字母表或IUPACIUPAC编码编码序列比对的生物学背景分子生物学实验技术和大规模测序方法的发展,使复杂序列之间的比较成为实验室的常规数据分析。基因组学的发展,物理图谱的构建,DNA的拼接求。一个或一些序列与其它数据序列的比较。两个序列之间是否存在相同的子串。个序列与数据库中序列是否存在相似的子串。序列比较可以分为五种基本情况序列比较可以分为五种基本情况:(1 1)两条长度相近序列相似性分析,找出序列的差别
8、)两条长度相近序列相似性分析,找出序列的差别(2 2)判断一条序列的前缀与另一条序列的后缀相似)判断一条序列的前缀与另一条序列的后缀相似(3 3)判断一条序列是否是另一条序列的子序列)判断一条序列是否是另一条序列的子序列(4 4)判断两条序列中是否有非常相似的子序列)判断两条序列中是否有非常相似的子序列(5 5)对多个序列进行上述)对多个序列进行上述4 4种分析种分析第三第三 节节 两个序列的比较两个序列的比较1.全局比较基本算法通过全局比对(global alignment),了解序列的相似性例如,s=ATTGCATATG;t=ATTGATATCs=ATTGCATATGt=ATTG ATAT
9、C记分系统的引入与比对打分匹配1空配2错配1对s,t进行相似性比较,得到的最大记分值,称为2序列的相似性,表示为sim(s,t)=maxscore is=ATTGCATATG;s=ATTGCATATG t=ATTG ATATC;t=ATTG ATATC8(-2)(-1)=5 4+(-2)+(-1)5=-12.局部比较序列s和t的局部比较是通过局部比对(local alignment)实现的,是s和t子串之间的比对。例如,s=AATTGCATATG;t=ATTGT,对它们进行局部相似性比较,表示s(2,3,4,5)=t(1,2,3,4)3.半全局部比较序列s和t的比对,序列长度相差较大例如,s=
10、AATTGCATATG;t=ATTGT,对它们进行全局相似性比较,表示s=AATTGCATATG;s=AATTGCATATGt=-ATTGT-;t=A-TTG-T-半全局比对的核心是2个序列前缀与后缀第四第四 节节 相似性和距离相似性和距离1.相似性 相似性的度量是基于比对,2个序列的相似性可以由sim(s,t)maxscore i2.距离 对任何的一个串实施一系列的变换后,可以转化为另一个串 s t;t=AGCTT;s=TTA TTA -TTA AGTTA AGCTAAGCTT变换的操作:1 字符的替换 2 空格插入和删除 给予每个变换特定的开销(cost)dist(s,t)=mincost
11、 i扩展的编辑操作ACCGACAATATGCATA ATAGGTATAACAGTCAACCGACAATATGCATA ACTGACAATATGGATA 第二条序列头尾颠倒可以通过基本操作实现 反向互补序列反向互补序列RNA发夹式二级结构发夹式二级结构第五节第五节 通过点矩阵进行序列比较通过点矩阵进行序列比较“矩阵作图法矩阵作图法”或或“对角线作图对角线作图”序列序列1 序序列列2 实实 例例 序列序列1 序序列列1 自我比较自我比较滑动窗口技术滑动窗口技术两条序列中有很多匹配的字符对,因而在点矩阵中两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。会形成很多点标记。滑动窗口技术滑动
12、窗口技术使用滑动窗口代替一次一个位点的比较是解决这个使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。问题的有效方法。假设窗口大小为假设窗口大小为1010,相似度阈值为,相似度阈值为8 8,则每次比较,则每次比较取取1010个连续的字符,如相同的字符超过个连续的字符,如相同的字符超过8 8个,则标个,则标记记基于滑动窗口的点矩阵方法可以明显地降低点阵图基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域。显著相似性的区域。(a a)对人类(对人类(Homo sapiensHomo sapi
13、ens)与黑猩猩(与黑猩猩(PongoPongo pygmaeuspygmaeus)的)的球蛋白基球蛋白基因序列进行比较的完整点阵图。(因序列进行比较的完整点阵图。(b b)利用滑动窗口对以上的两种球蛋白基利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为因序列进行比较的点阵图,其中窗口大小为1010个核苷酸,相似度阈值为个核苷酸,相似度阈值为8 8。(a)(b)具有连续相似区域的两条具有连续相似区域的两条DNADNA序列的简单点阵图序列的简单点阵图第六节第六节 DNA片断的组装片断的组装1.生物学背景 DNA测序技术的发展2.片断的组装(fragment assembly
14、)片断(fragment)的产生理想情况 例如ATTGGGCA;CGATT;TGGGCAGA组装-ATTGGGCA-CGATT-TGGGCAGACGATTGGGCAGA 表决序列 复杂情况 碱基识别错误 序列方向未知 重复序列 缺乏覆盖 序列污染 复杂情况的组装模型 最短公共超串(shortest common superstring)重构(reconstruction)多连叠(multicontig)第七节第七节 DNADNA序列分析序列分析 DNA序列分析基因序列基因表达调控信息 寻找基因牵涉到两个方面的工作寻找基因牵涉到两个方面的工作 :识别与基因相关的特殊序列信号预测基因的编码区域结合
15、两个方面的结果确定基因的位置和结构 基因表达调控信息隐藏在基因上游区域,在组成上基因表达调控信息隐藏在基因上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。具有一定的特征,可以通过序列分析识别这些特征。DNADNA序列分析步骤和分析结果评价序列分析步骤和分析结果评价在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Splice site)等。发现重复元素数据库
16、搜索分析功能位点序列组成统计分析综合分析一个基本的DNA序列分析方案功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。两个集合:训练集(training set)用于建立完成识别任务的数学模型。测试集或控制集(control set)用于检验所建模型的正确性。用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。收集已知的功能序列和非功能序列实例收集已知的功能序列和非功能序列实例(这些序列之间是非相关的(这些序列之间是非相关的)训练集训练集(training set)
17、测试集或控制集测试集或控制集(control set)建立完成识别任务的模型建立完成识别任务的模型检验所建模型的正确性检验所建模型的正确性对预测模型进行训练,对预测模型进行训练,使之通过学习后具有使之通过学习后具有正确处理和辨别能力。正确处理和辨别能力。进行进行“功能功能”与与“非功能非功能”的的判断,根据判断结果计算判断,根据判断结果计算模识别的准确性。模识别的准确性。识别识别“功能序列功能序列”和和“非功能序列非功能序列”的过程的过程 Sn 敏感性敏感性Sp 特异性特异性Tp是正确识别的功能序列数,Tn为正确识别的非功能序列数,Fn是被错误识别为非功能序列的功能序列数,Fp是被错误识别为功
18、能序列的非功能序列数。敏感性和特异性的权衡对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性。如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性;相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。对于敏感性和特异性需要进行权衡,给出综合评价指标。功能位点分析功能位点分析功能位点(functional site)与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段。功能位点又称为功能序列(functional sequence)、序列模式(motif)、信号(signal)等。核酸序列中的功能位点包括转录因子结合位点转录因
19、子结合位点、转录剪切位点转录剪切位点、翻译起始位点翻译起始位点等。在蛋白质序列分析中,常使用序列模式这个名词,蛋白质的序列模式往往与蛋白质结构域或者作用部位有关。功能位点示意功能位点示意基因组序列中若干个相邻的功能位点组合形成功能区域(functional region)。功能位点分析的任务发现功能位点特征识别功能位点A 利用共有序列搜索功能位点共有序列(common consensus)又称一致性片段共有序列是关于功能位点特征的描述,它描述了功能位点每个位置上核苷酸进化的保守性 例如:NTATN 利用共有序列进行功能位点分析牵涉到两个方面的问题,如何构造共有序列如何利用共有序列在给定的核酸序
20、列上搜索寻找功能位点,并计算所找到的功能位点的可靠性 共有序列具有以下几个方面的特征:(1)共有序列中既有保守的位置,也有可变的位置;(2)任何位置上的核苷酸可以用15种类型之一来表示:核苷酸表示符号核苷酸表示符号符符 号号含含 义义说说 明明GG腺腺嘌嘌呤呤AA鸟鸟嘌嘌呤呤TT胸腺胸腺嘧啶嘧啶CC胞胞嘧啶嘧啶RG or A嘌嘌呤呤YT or C嘧啶嘧啶MA or C氨基氨基KG or T羧羧基基SG or C强强氢键氢键(3个个氢键氢键)WA or T弱弱氢键氢键(2个个氢键氢键)HA or C or T非非GBG or T or C非非AVG or C or A非非T(非非U)DG or
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 核酸 序列 分析 结构 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。