生物信息学概论数据库搜索与两两比对省公共课一等奖全国赛课获奖课件.pptx
《生物信息学概论数据库搜索与两两比对省公共课一等奖全国赛课获奖课件.pptx》由会员分享,可在线阅读,更多相关《生物信息学概论数据库搜索与两两比对省公共课一等奖全国赛课获奖课件.pptx(46页珍藏版)》请在咨信网上搜索。
1、第二章 数据搜索与两两比对 本章描述了 怎样比对两条或多条相关核苷酸或多肽序列,怎样比对两条或多条相关核苷酸或多肽序列,怎样搜索存放序列信息数据库。怎样搜索存放序列信息数据库。经过比对得到预测蛋白质、新基因结构和功效以及基因间、蛋白质间乃至物种之间进化关系主要信息。第1页2.1 点阵图 评定两条序列相同度最简单方法之一是利用点阵图点阵图。第一条被比较序列排列在点阵图空间横轴,第二条序列则排列在纵轴。点阵空间中两条序列中残基相同时,在对应位点上画上圆点,两条序列间连续相同区域在图中会形成由圆点组成上斜线。第2页含有连续相同区域两条含有连续相同区域两条DNA序列简单点阵图序列简单点阵图第3页滑动窗
2、口技术滑动窗口技术 使用滑动窗口滑动窗口代替一次一个位点比较是处理这 个问题有效方法。假设窗口大小窗口大小为10,相同度阈值相同度阈值为8,则每次比较取10个连续字符,如相同字符超出8个,则标识 基于滑动窗口滑动窗口点矩阵点矩阵方法能够显著地降低点阵图噪声,而且明确无误指示出了两条序列间含有显著相同性区域。第4页(a)对人类()对人类(Homo sapiens)与黑猩猩()与黑猩猩(Pongo pygmaeus)球蛋白球蛋白基因序列进行比较完整点阵图。(基因序列进行比较完整点阵图。(b)利用滑动窗口对以上两种球蛋白基因)利用滑动窗口对以上两种球蛋白基因序列进行比较点阵图,其中窗口大小为序列进行
3、比较点阵图,其中窗口大小为10个核苷酸,相同度阈值为个核苷酸,相同度阈值为8。(a)(b)第5页2.2 2.2 简单比对简单比对比对比对就是两条序列字符间简单两两匹配。比对能够反应出两条或多条同源序列间进化关系.最简单情况下即不考虑空位,当两条序列对比时,要做仅是为较短序列选择比正确起始点。第6页考虑这么两条核苷酸序列:AATCTATA和AAGATA 仅有三种比对方式不考虑空位简单比对,它打分函数是有对比奖励和罚分和来决定上例中三个比对从左至右分别是 4、1、3匹配得分:匹配得分:1失配得分:失配得分:0第7页2.3 空位空位两条或多条序列比对时,假如考虑到插入与删除时间发生地可能性,那么候选
4、比对数量就会大大增加,也就造成了比正确复杂性。上节中两条核苷酸序列,在不考虑空位时仅有三种比对,而较短那条加入了两个空位后,变产生了28种不一样比对,比如:等等第8页2.3.1 简单空位罚分简单空位罚分对含有空位比对打分时,空位罚分空位罚分就必须包含到打分函数中,空位比正确简单打分公式以下:比如:假设匹配得分为1,失配得分为0,空位罚分为-1三种空位比对得分从左至右分别是1、3、3第9页2.3.2 起始罚分与长度罚分起始罚分与长度罚分使用简单空位罚分对两条序列进行比对时,经常能找到若干同格式最优比对。深入区分这些比正确方法是找出哪些比对包含较多不连续空位,哪些包含较少长度较长空位片段。第10页
5、插入插入/删除事件删除事件假设两条序列长度分别是12和9假设这两条序列是真正同源序列,那么它们之间长度差异能够解释为(1)较长序列有核苷酸插入,或者(2)较短序列发生了核苷酸删除,或者(3)二者都发生了。在不知道原始父辈序列情况下,无法判断造成空位原因是因为一条序列插入事件还是另一条删除事件,通常把这类事件称为插入插入/删除事件删除事件。第11页多联核苷酸插入删除事件插入删除事件相对于单个核苷酸来说会较经常发生。统计结果表明,两条序列长度上差异更可能是单个三联核苷酸插入删除事件造成,而多个不连续核苷酸插入删除事件可能性比较小。空位罚分空位罚分由序列中产生新空位串引发起始罚分起始罚分和依据缺乏字
6、符数而定长度罚分长度罚分。预设长度罚分小于起始罚分,以此建立打分函数便能奖励空位连在一起比对。第12页假设起始罚分为-2,长度罚分为-1,匹配得分为+1,失配得分为0,则对于这三个比对,从左至右比对得分分别是-3,-1,+1在后两种比对在使用简单空位罚分时,最终得分都是在后两种比对在使用简单空位罚分时,最终得分都是+3,现在却得到了不一样分数。,现在却得到了不一样分数。第13页2.4打分矩阵打分矩阵正如空位罚分空位罚分能够奖励与进化相关比对,失配罚分失配罚分也能够用来深入区分相同比对。统计结果表明,两条同源序列比对时,一些替换比其它替换常见多。例例:两条蛋白质序列,其中一条在某一个位置上是丙氨
7、酸,假如该位点被替换成另一个较小且疏水氨基酸,比如缬氨酸对蛋白质影响很小,假如被替换成较大且带电残基,比如赖氨酸,那么对蛋白质影响可能就会非常大。直观讲,比较保守替换比随机替换更可能维持蛋白质功效,更不轻易被淘汰,所以在打分上更倾向于丙氨酸而不是赖氨酸。第14页打分矩阵(打分矩阵(Scoring Matrix)核酸打分矩阵设DNA序列所用字母表为 =A,C,G,T a.单位矩阵 b.BLAST矩阵 c.转换-颠换矩阵(transition,transversion)(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)ATCGA1000T0100C0010G0001ATCGA5-4-4-4T
8、-45-4-4C-4-45-4G-4-4-45ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51单位矩阵单位矩阵转换转换-颠换矩阵颠换矩阵BLAST矩阵矩阵第15页PAM矩阵(矩阵(Point Accepted Mutation)基于进化点突变模型基于进化点突变模型 一个一个PAM就是一个进化变异单位就是一个进化变异单位,即即1%氨基酸改变氨基酸改变相对突变率相对突变率仅仅是某种氨基酸仅仅是某种氨基酸 被其它任意氨基酸替换次数被其它任意氨基酸替换次数比如:ma是指丙氨酸与非丙氨酸残基比正确次数,是指丙氨酸与非丙氨酸残基比正确次数,Ma为概率为概率然而我们针对每个氨基酸对然
9、而我们针对每个氨基酸对i 和和j,计算氨基酸,计算氨基酸j 被氨基酸被氨基酸i 替换次数替换次数 Aij比如:Acm 是被比对序列中,甲硫氨酸被半胱氨酸替换次数是被比对序列中,甲硫氨酸被半胱氨酸替换次数以以Aij除以除以ma 利用每个氨基酸出现频度对起进行标准化,得到利用每个氨基酸出现频度对起进行标准化,得到PAM-1矩阵矩阵中元素中元素Rij第16页式中Mab为任意氨基酸b替换a概率式中pa为氨基酸a未被替换概率第17页100个残基发生一次替换PAM-1矩阵第18页针对不一样进化距离采取针对不一样进化距离采取PAM 矩阵矩阵序列相同度序列相同度=40%50%60%|打分矩阵打分矩阵 =PAM
10、120 PAM80 PAM 60PAM250 14%-27%第19页2.5 动态规划动态规划:Needleman 和和 Wunsch 算法算法一旦选定了序列比对打分方法,就可认为寻找最佳比对设计算法了。最显而易见方法就是对每个可能比对进行穷举搜索,但这一般是不可行。我们可以用动态规划解决这个问题,即把一个问题分解成计算量合理子问题,并使用这些子问题结果来计算最终答案。S.Needleman与C.Wunsch首次运用动态规划方法来进行序列分析。第20页假设两条序列:CACGA和CGA,使用统一空位空位和失失配罚分配罚分则:1、给第一条序列加一个空位 2、给第二条序列加一个空位 3、两条序列都不加
11、空位第21页假如知道了ACGA与GA最正确比正确得分,就能够马上计算出表中第一行得分。一样地,假如知道了表中第二、第三行剩下序列最正确比正确得分,就能够计算出起始位点不一样三种比对得分。动态规划算法动态规划算法经过计算部分序列比对得分并填入一个表格,直到整个序列比对被计算出来,由此得到最优比对。第一位点 得分待对比剩下序列CC+1ACGAGA-C-1CACGAGAC-1ACGACGA(匹配得分为1,失配得分为0,空位罚分为-1)第22页动态规划动态规划比对ACAGTAG与ACTCG空位罚分为-1匹配奖励为+1失配得分为 00-1-2-3-4-5-1-2-3-4-5-6-7 A C T C GA
12、CAGTAG用空位罚分倍数对用空位罚分倍数对表格第一行与第一表格第一行与第一列进行初始化列进行初始化第23页填充表格填充表格0-1-2-3-4-5-1-2-3-4-5-6-7 A C T C GACAGTAG表格中表格中横向移动横向移动表示在表示在纵轴序列中加入一个空纵轴序列中加入一个空位位纵向移动纵向移动表示在横轴序表示在横轴序列中加入一个空位列中加入一个空位斜对角向移动斜对角向移动表示两序表示两序列各自对应核苷酸进行列各自对应核苷酸进行了比对了比对横向移动横向移动纵向移动纵向移动斜对角向移动斜对角向移动第24页0-1-2-3-4-5-1-2-3-4-5-6-7 A C T C GACAGT
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 概论 数据库 搜索 公共课 一等奖 全国 获奖 课件
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。