生物信息学学习心得.docx
《生物信息学学习心得.docx》由会员分享,可在线阅读,更多相关《生物信息学学习心得.docx(14页珍藏版)》请在咨信网上搜索。
生物信息学学习心得 第一篇:生物信息学 生物信息学是上世纪90年代初人类基因组计划(hgp)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。 本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。 实验一 熟悉生物信息学网站及其数据的生物学意义 实验目的: 培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。 实验原理: 利用互联网资源检索相关的国内外生物信息学相关网站,如:ncbi、sanger、tigr、kegg、atch程序去除ests原始序列中的载体成分和引物成分,然后用phrap生成congtig和singlet,用blast程序进一步将有同源性的contig和singlet进行功能聚类,最后通过blast对聚类获得的cluster进行功能注释。在实验过程中将用到一些本实验室写好的perl程序用于连接各数据库和工具软件。 实验内容: 1. 运行codoncode aligner程序,并用它建立工程文件,导入例子文件 夹里面的数据;练习对序列的各种查看方式。 2. 使用codoncode aligner程序里的clip ends, trim vector, assemble 等功能,完成序列的剪切、去杂质、组装工作。 实验报告: 1. 实验各步骤记录和中间结果文件; 2. 举例简要说明结果文件中数据的生物学意义。 参考书目: 《生物信息学概论》 罗静初 等译, 北京大学出版社, 201*; 《基因表达序列标签(est)数据分析手册》 胡松年 等著, 浙江大学出版社, 201*。 实验五 利用primer premier5.0设计 race引物 实验目的: 熟悉pcr引物设计工具primer premier5.0的一些基本功能,能够根据实验需要选择相应的引物设计方法设计pcr引物。 实验原理: pcr实验是当代分子生物学的基本实验之一,由于目标序列和实验目的的不同,相应设计引物的要求也不一样。本实验延续ests分析结果,对于其中需要获得全长的基因进行race引物的设计,及5’和3’race引物,配合接头序列设计单向引物,并模拟练习通过连接获得全长的基因cds序列。最后设计已知全长基因序列的pcr扩增引物。 实验内容: 1. 从网站下载并安装primer premier5.0; 2. 从 genbank 中任意获取一个 dna 序列,设计出该序列的合适引物; 实验报告: 1. 实验各步骤使用的数据、运算平台、结果文件记录; 2. 比较不同引物设计平台和不同pcr实验的差别; 参考书目: 《生物信息学概论》 罗静初 等译, 北京大学出版社, 201*;《生物信息学实验指导》 胡松年 等著, 浙江大学出版社, 201*; 。 实验八 perl程序的安装、编写、调试 实验目的: 培养学生能在atics--a practical guide to the analysis of genes and proteins "andreas d.baxevanis b.f.francis ouellette 著李衍达 孙之荣 等 译清华大学出版社 201*年8月 第一版这本书由前卫计算生物学家撰写,贯穿了已有的工具和数据库,包括应用软件、因特网资源、向数据库提交dna序列以及进行序列分析和利用核酸序列与蛋白质序列进行预测的的方法。以下是该书的目录:1.因特网与生物学家,2. genebank序列数据库,3.结构数据库,4.应用gcg进行序列分析,5.生物数据库的信息检索,6. ncbi数据模型,7.序列比对和数据库搜索, 8.多序列比对和实际应用,9.系统发育分析,10.利用核酸序列的预测方法,11.利用蛋白质序列的预测方法,12.鼠类和人类公用物理图谱数据库漫游,13. acedb: 基因组信息数据库,14.提交dna序列数据库。本书有很多实际的序列和序列分析的例子。这本书适合高等院校的师生和从事生物工程研究的科技工作者阅读。 在第14章提及的通讯资源:互联网和通信地址;电话和传真号码 ddbj/embl和genbank的一般联系信息以及提交dna序列到这些数据库的入口。 ddbj(信息生物学中心,nig) 地址:ddbj,1111 yata, mishima,shiznoka 411,japan 传真:81-559-81-6849 e-mail 提交: ddbjsub@ddbj.nig.ac.jp 更新: ddbjupd@ddbj.nig.ac.jp 信息: ddbj@ddbj.nig.ac.jp 互联网 主页: bl/doc/ embl和genbank数据库的版本信息 embl ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc genbank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt sequin: dna序列数据库的提交和更新工具 .nih.gov/dbest sts .nih.gov/dbgss htgs主页:高吞吐量基因组序列资源,工具和信息 ics)主要研究测序和核苷酸序列; 结构基因组学(structural genomics)着重于遗传图谱、物理图谱和测序等方面的研究; 功能基因组学 (functional genomics)则研究以转录图为基础的基因组表达图谱; 比较基因组学(comparative ge2nomics)的研究内容包括对不同进化阶段基因组的比较和不同种群和群体基因组的比较。 蛋白组和蛋白组学的概念是随基因组和基因组学的出现而出现的. 蛋白组(proteme)的概念是由于基因表达水平并不能代表细胞中活性蛋白质的数量, 基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量的动态变化过程而提出的. 在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组, 代表这一有机体全部蛋白质组成及其作用方式. 有关蛋白组的研究称为蛋白组学. 其中, 蛋白组的研究技术与方法、双向凝胶电泳图谱以及对不同条件下蛋白组变化的比较分析是蛋白组学的主要研究内容。生物信息学在基因组和蛋白组研究中所起的作用主要有:(1)基因组信息结构的计算分析. 即对基因组数据进行大规模并行计算并预测各种新基因和功能位点, 研究大量非编码区序列的信息结构和可能的生物学意义。(2)模式生物全基因组信息结构的比较研究.即 对已完成全基因组测序的各种模式生物的基因组信息结构进行比较分析, 包括同源序列的搜索比较和指导基因克隆.(3)功能基因组的相关信息分析, 包括对基因表达图谱及其相关算法和软件的研究, 与功能基因组信息相关的核酸、蛋白质的空间结构的预测模拟以及蛋白质的功能预测。 2、生物信息数据库 复杂的生物和生物界和日新月异的生命科学研究产出的大量的生物学信息,对这些信息的储存、检索、比较分析必须借助于计算机数据库技术, 包括各类生物学信息数据库的建立与维护、数据的添加与注释、更新与查询、数据库资料的网络化等研究内容。现有的数据库有:核酸序列数据库(genbank、embl、ddbj)、基因组数据库、基因图谱数据库、蛋白质序列数据库(atics b数据采集 dna,rna和蛋白质测序 1.dna测序原理 dna中核苷酸的顺序是通过链式终止测序【也称为脱氧测序(dideoxy sequencing)或以发明人命名的sanger方法】来确定。 2.dna序列的类型 基因组dna,是直接从基因组中得到,包括自然状态的基因 复制dna(copy dna, cdna),通过反转录mrna得到的 重组dna,包括载体序列如质粒,修饰过的病毒和在实验室使用的其他遗传元件等 3.基因组测序策略 散弹法测序(shotgun sequence)包括随机dna片段的生成,通过大量片段测序来覆盖整个基因组 克隆重叠群测序(clone contig)dna片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成 4.序列质量控制 通过在dna双链上进行多次读取完成高质量序列数据的测定 可使用如phred等程序对最初的跟踪数据(trace data)进行碱基识别和质量判断。载体序列和重复的dna片段被屏蔽后,使用phred等程序将序列拼接成重叠群(contigs),剩下的不一致部分通过人工修饰解决 5.单遍测序 低质量的序列数据可以由单次读段(read)产生(单遍测序,single-pass sequencing)。尽管不很准确,但单遍测序如ests和gsss,可以低廉的价格快速大量的产生 6.rna测序 因为有大量的小核苷酸(minor nucleotide)(化学改变的核苷)存在于转移rna(trna)和核糖体rna(rrna)中,所以rna测序不能像dna测序那样直接进行。 需要用特殊的方法来识别被改变的核苷,包括生化实验,核磁共振谱(nrm spectroscopy)和质谱(ms)技术 7.蛋白质测序 蛋白质序列可以通过dna序列推断得到,而rna测序不能提供有关已改变残基或其他类型的翻译后蛋白质修饰(比如剪接或二硫键的形成) 大部分蛋白质测序是通过质谱(ms)技术进行的 基因和蛋白质表达数据 1.全局表达分析 rna水平的分析中有效的方法是从rna群体或cdna文库中,甚至从序列数据库中进行序列采样。一个简单的方法是从cdna文库中随机挑选5000个克隆进行测序。含量很多的mrnas在采样的序列中出现的频率很高,而含量较少的mrna出现频率则较低,通过这些数据的统计分析可以确定相对的表达水平。 一个更高级的技术是基因表达的连续分析(serial analysis of gene expreaaion, sage)该方法使每个cdna产生很短的序列标签(通常8~15nt),并在测序前把数百个标签连接成连环分子(concatemer)。这样一个测序反应中可搜集到几百条mrna的丰富信息。每个sage标签可以特异性识别一个特定基因,通过对标签计数,可以确定每个基因的相对表达水平。 然而,大部分全局rna表达数据还需从微阵列实验所测的信号强度中获取。全局蛋白质表达数据主要从双向聚丙烯酰胺凝胶电泳(two-dimensional polyacrylamide gel electrophoresis, 2d-page)分离,产生点阵的唯一模式(每个点代表一个单独的蛋白质)。在2d-page实验中,蛋白质表达数据可以通过每个点的信号强度得到,每个二维凝胶上的蛋白信号必须通过质谱(ms)技术来单个注释。 2.dna微阵列 一个微阵列有一系列的dna元件(特征),以格子形式排列在载玻片等微型支撑物上,通过与复合rna探针杂交可同时使很多基因的表达水平可视化。若使用两个不同的荧光标签的探针,可以在同样的阵列上直接测定不同样本的不同基因的表达。 微阵列中主要用到的两个技术:机械点样dna微阵列(spotted dna microarray)和寡聚核酸基因芯片(oligonucleotide gene chip)(由美国affymetrix公司独家制造),后者在制造芯片是通过固态化学合成把寡聚核苷酸印在芯片上。 3.双向蛋白质凝胶 2d-pag技术的原理是蛋白质可基于两个不同的特性来分离:等电点(isoelectric point)和分子质量(molecular mass)。该技术中,第一方向蛋白沿固相ph梯度(immobilizes ph gradient)等电聚焦(isoelectric focusing)分离;在垂直方向进行分子量的分离。在凝胶染色后,染色斑点(spot)的模式可作为样品中蛋白质的可重复使用的指纹(fringerprint)。通过样本间比较可以识别不同表达的蛋白质,或被药物诱导的蛋白质等。离体的蛋白质斑点(excised spot)可以通过质谱技术鉴定。 蛋白质互作数据 1.蛋白质互作的重要性 蛋白质-蛋白质互作导致瞬时或稳定多亚基复合物(multi-subunit complexes)的形成。了解这些复合物对于注释蛋白质功能是必需,也是解释信号级联和调控网络等分子途径的一个步骤。死效应反映了两个突变的蛋白质 2.遗传方法 抑制子突变体可以通过恢复被破坏的蛋白质互作来补偿有害的原始突变体。而合成致死效应反映了两个突变的蛋白质不能相互作用,显性负突变(dominant negative mutation)显示了一种起着多聚复合体作用的蛋白质。 3.亲和性方法 可通过几种利用蛋白质亲和性(特异结合的倾向)分析的物理方法来为蛋白质之间的相互关系提供直接的证据,比如亲和性管柱层析法,免疫共沉淀。由ciphergen公司使亲和实验格式更趋微型化,使得在蛋白质芯片的发展中达到顶峰。 4.分子和原子的方法 x射线晶体学和核磁共振谱有助于在原子水平识别蛋白质互作,其它的蛋白质互作分析的分子方法包括荧光共振能量传递(fret),表面基元共振谱(spr)和表面增强激光接吸附/离子化技术(seldl),其中的很多方法可通过质谱技术直接集成到蛋白质注释中。 5.基于文库的方法 基于文库的蛋白质互作实验有两个主要优点:它是高度并行的实验格式;候选互作蛋白质及其cdnas之间直接关联。 影响最大的方法是酵母双杂交系统(yeast two-hybrid system,y2h),在这个系统中蛋白质通过识别与之连接的一个功能转录因子进行互作。 c数据库--内容,结构和注释 已注释的序列数据库 1.初级序列数据库 genbank(ncbi)、核酸序列数据库(embl)和日本的dna数据库(ddbj) 2.swiss-prot和trembl swiss-prot收集了确认的蛋白质序列及与结构,功能和所属蛋白质家族有关的注释信息。相关数据库trembl翻译了初级核酸数据库中的编码序列。 其他数据库 1.omim omim指人类孟德尔遗传的联机数据库,用于研究人类遗传学和人类分子生物学的强大资源。每个omim条目都有一个对特定基因或性状的已知信息的全文总结,并有指向初级序列数据库和其它遗传学资源的链接。 2.incyte和unigene incyte是商业数据库,它提供了基因序列和专家注释的记录,这是专门为药物研究开发服务的数据库。unigene是一种用来把genbank序列聚类并与est数据相关联的实验工具。 3.结构数据库 蛋白质数据库(pdb),核酸数据库(ndb),大分子结构数据库(msd) e通过序列相似性标准搜索序列数据库 序列相似性搜索 1.序列联配 序列联配是是相似度量化的第一步,用来区分偶然性的相似和真实的生物学关系。联配结果以变化(突变)、插入或缺失(或空位indel)来显示序列之间的差异,这些差异可以用进化术语来说明。 2.联配算法 动态规划算法可以计算两条之间的最佳联配,其中广泛使用的算法有smith-waterman算法(局部联配)和needleman-wunsch算法(全局联配)。 3.联配分支和空位罚分 用简单的联配分值来测量相同匹配残基的比例或数目。得从联配分值中扣去空位罚分,以保证联配算法能得出有生物学意义的结果而没有太多的空位。 数据库搜索:fasta和blast 1.统计分值 相似度记分的p值是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率。低p值表明重要的匹配,这些匹配可能会有真实生物学意义。相关的e值(期望值)是至少与所识别的相似性记同样高分值的偶然事件的期望概率。两序列见相似度的低p值对应于大数据库搜索的高e值。 2.敏感性和特异性 敏感性衡量数据库中真实生物序列关系的比例,该关系表现为击中项(有意义的相似序列)。特异性指的是对应于真实生物学关系的击中项的比例。改变e和p的默认值会导致这些互补的优良度测量方法之间的平衡。 f多序列联配:基因和蛋白质家族 多序列联配和家族关系 1.多序列联配 多序列联配表明两条或两条以上序列之间的关系,可以解释关于蛋白质结构和功能的许多线索。当所考察的序列不同时,保守的残基往往是维持稳定结构或生物学功能的关键残基。 2.渐进联配 渐进联配方法以两序列联配来初步评价序列是如何相关的,并在这个基础上构建向导树,然后使用向导树逐步添加序列到联配中,从最密切相关的序列开始到距离最远的序列结束。 蛋白质家族和模式数据库 1.蛋白质家族 把序列分配到蛋白质家族中是预测蛋白质功能是非常有价值的方法。多序列联配信息的表示方法有很多种,包括联配本身、一致序列、保守残基和残基模式、序列轮廓以及其他的 序列家族的概率模型。这些根据不同的应用都有不同的用途,其中大多数已经被开发和存储在数据库中,里面含有大量不同蛋白质家族的信息,这样的数据库称为二级数据库。 2.一致序列- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 学习心得
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【紫***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【紫***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【紫***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【紫***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文