生物信息学复习总结.doc

上传人：a199****6536

文档编号：3959274

上传时间：2024-07-24

格式：DOC

页数：17

大小：120.04KB

《生物信息学复习总结.doc》由会员分享，可在线阅读，更多相关《生物信息学复习总结.doc（17页珍藏版）》请在咨信网上搜索。

生物信息期末总结 1. 生物信息学（Bioinformatics)定义：（第一章) ★ 生物信息学是一门交叉科学，它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。（或：）生物信息学是运用计算机技术和信息技术开发新的算法和统计方法，对生物实验数据进行分析，确定数据所含的生物学意义，并开发新的数据分析工具以实现对各种信息的获取和管理的学科。(NSFC） 2。科研机构及网络资源中心： NCBI:美国国立卫生研究院NIH下属国立生物技术信息中心; EMBnet：欧洲分子生物学网络； EMBL—EBI：欧洲分子生物学实验室下属欧洲生物信息学研究所； ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统；(Expert Protein Analysis System） Bioinformatics Links Directory； PDB (Protein Data Bank）； UniProt 数据库 3. 生物信息学的主要应用: 1．生物信息学数据库;2．序列分析；3．比较基因组学；4．表达分析；5．蛋白质结构预测；6．系统生物学;7．计算进化生物学与生物多样性。 4. 什么是数据库： ★ 1、定义：数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。 (记录record、字段field、值value) 2、生物信息数据库应满足5个方面的主要需求： (1）时间性；（2）注释；(3）支撑数据 ;（4)数据质量；(5）集成性. 3、生物学数据库的类型：一级数据库和二级数据库。（国际著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等; 蛋白质序列数据库有SWISS—PROT等；蛋白质结构库有PDB等。） 4、一级数据库与二级数据库的区别： ★ 1）一级数据库：包括：a.基因组数据库---—来自基因组作图； b.核酸和蛋白质一级结构序列数据库； c。生物大分子(主要是蛋白质)的三维空间结构数据库，(来自X—衍射和核磁共振结构测定)； 2）二级数据库: 是对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。一般说来,一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。二次数据库的容量则小得多,更新速度也不像一次数据库那样快，也可以不用大型商业数据库软件支持，这类针对不同问题开发的二次数据库的最大特点是使用方便，特别适用于计算机使用经验不太丰富的生物学家。 5、一个数据库记录(entry）一般由两部分组成: 1）原始序列数据（sequence data）； 2）描述这些数据生物学信息的注释(annotation）：注释中包含的信息与相应的序列数据同样重要和有应用价值。 6、数据的完整性和注释工作量：1）序列数据广，序列注释不够完整; 2)库数据面窄，序列注释全面. 7、数据库的动态更新：1）不断增加；2）不断修正。 5、几个大型数据库简介： NCBI、EBI、SIB(共点：拥有庞大的一级数椐库、大量工具软件和广泛的外联.） 1、NCBI（www.ncbi。nlm。nih.gov)： NCBI是指美国国家生物技术信息中心（National Center for Biotechnology Information，NCBI），成立于1988年,其主要工作是开发以GenBank为代表的数据库，进行计算生物学研究，开发用于分析基因组数据的软件工具，发布生物医学信息。 1）Entrez(集成化的数据库)（http://www.ncbi.nlm。nih.gov/gquery/） Entrez是NCBI著名的用于提取序列信息的工具，它将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究数据以及全基因组组装数据整合成一个高度集成的系统.类似于EBI的SRS（见下文），是一个查询、提取和显示系统。The original version（原始版本）(1991） of Entrez had just 3 nods。 2）可查Protein、PubMed（生物医学文献数据库）、Nucleotide、Genome、Gene、Pathway等相关信息。 2、EMBL—EBI（www.ebi。ac。uk） EMBL Nucleotide Sequence Data Library(now known as EMBL—Bank)为世界上第一个核酸序列数据库（1980）。欧洲分子生物学实验室下属欧洲生物信息学研究所（European Bioinformatics Institute， EBI，1992，英国）EMBL-EBI核酸数据库提供了序列搜索的服务。通过它的序列提取系统—SRS6（搜索引擎），我们可以用十几种不同的方法(如用关键字)搜索我们想要的序列。EBI还资助了Ensembl项目，Ensembl是一个用于对各类物种基因组进行生物信息学分析的非常完备的网站.欧洲分子生物学实验室EMBL（The European Molecular Biology Laboratory）。Services、UniProt、ArrayExpress、Ensembl、InterPro、PDBe等界面。 3、SIB（us。expasy.org）瑞士生物信息研究所(Swiss Institue of Bioinformatics，SIB ,30 March 1998 ）。用于获取蛋白质序列和相关数据的最有用的资源之一就SIB提供的蛋白质专家分析系统：SWISS—PROT，ExPASy（Expert Protein Analysis System瑞士日内瓦大学专家蛋白质分析系统（http://www.expasy。ch/）). 6、核酸序列数据库: 1、国际上权威的核酸序列数据库：（1）欧洲分子生物学实验室的EMBL；（2)美国生物技术信息中心的GenBank； (3)日本遗传研究所的DDBJ，（ http://www.ddbj。nig。ac。jp/)；这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样. 2、INSDC国际核酸序列数据库协会: 1998年，GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会（International Nucleotide Sequence Database Collaboration，INSDC）,三大核酸数据库之间每天将新测定或更新的数据进行交换共享，保证数据信息的完整与同步,每两个月更新一次版本.（http://www。insdc。org/） 7、蛋白质序列数据库： 1）PIR（Protein Information Resource)；（http://pir。georgetown。edu/） 2）SWISS-PROT; (http：//www.expasy.ch/sprot/sprot-top.html) 3）TrEMBL；(http://www。ebi.ac.uk/trembl/index。html）是与SWISS—PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS）翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中； 4）NCBI美国国家生物技术信息中心（National Center for Biotechnology Information，NCBI）； 5）UniProt；通用蛋白质数据库（http://www.uniprot。org/）包括:（Swiss—Prot、TrEMBL、PIR）用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据. 8、生物大分子结构数据库： 1）PDB（Protein Data Bank）；（http://www.rcsb.org/) 2）MMDB（Molecular Modeling Database）；（www.ncbi。nlm。nih.gov/Structure/) 9、其它生物分子数据库： 1）单碱基多态性数据库dbSNP； 2)基因组数据库（GDB）； 3）人类基因组数据库Ensembl； 4）表达序列标记数据库dbEST； 5)序列标记位点数据库dbSTS； 6）面向基因聚类数据库UniGene； 7）蛋白质结构分类数据库SCOP; 8）蛋白质二级结构数据库DSSP；9）蛋白质同源序列比对数据库HSSP;10）OMIM(Online Mendelian Inheritance in Man），是关于人类基因和遗传疾病的分类数据库。。。》》》Nucleic Acid Research《《《附:1、NCBI和EBI使用的搜索引擎分别是什么？答：NCBI使用的是Entrez，EBI使用的是SRS。 2、FASTA格式有哪些部分组成，以什么字符开始？答：包含gi number,Database identifiers，Accession number，Locus name等部分，以>字符开始。 3、NCBI的WEB和离线序列提交软件是什么？答：WEB提交工具：Bankit；离线提交：Sequin 4、系统生物学：答：确定、分析和整合生物系统在遗传或环境扰动下所有内部元件间相互作用关系的一门学科. 10、序列数据的文件格式：(第二章）格式主要有三种： DNA/RNA/氨基酸代码的标识（B、Z)； GenBank数据格式； FASTA 数据格式。一、GBFF(GenBank flatfile）—GenBank平面文件格式： GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库，那么它们是怎样交换数据的呢?这里引入GBFF（GenBank flatfile即GenBank平面文件）格式.GBFF是GenBank数据库的基本信息单位，是最为广泛使用的生物信息学序列格式之一.GBFF文件分为三部分:a。头部包含整个记录的信息（描述符)；b。第二部分包含了注释这一记录的特性；c。第三部分是核苷酸序列本身。（注：所有序列数据库记录都在最后一行以“//”结尾。） 1） GBFF:LOCUS行（LOCUS ，SCU49845，5028 bp，DNA linear，PLN,21-JUN-1999) 所有GBFF都起始于LOCUS行：第一项：是LOCUS名称（SCU49845）：现在唯一的作用是它在数据库中是独一无二的，已不再具有任何实际意义.大多数情况下，它仅使用检索号码（accesession number）以满足对LOCUS名称的要求；第二项是序列长度（5028 bp）：规定单条数据库记录的长度不能超过350kb。除历史原因外,GenBank已经很少接受长度低于50bp的序列了; 第三项表明分子类型（DNA）：其序列必须是一种单一的分子类型; 第四项是GenBank分类码（PLN)：由3个字母组成。现在其作用仅限于在下载数据库时对数据库作简单的分类。最后一项是其最后修订日期（21-JUN—1999):有时也仅表示数据首次公开日期。 2） GBFF： DEFINITION行(definition) (DEFINITION Saccharomyces cerevisiae TCP1—beta gene, partial cds; and Axl2p （AXL2) and Rev7p (REV7) genes， complete cds.） LOCUS行的下一行为DEFINITION行：主要对GenBank记录中所含的生物学意义做出总结。它的说明内容包括了来源物种、基因/蛋白质名称。若序列是非编码区，则包含对序列功能的简单描述；若是一段编码区,则标明该序列是部分序列(partial cds）还是全序列（complete cds）。 3） GBFF：ACCESSION行( accession）检索号行（ACCESSION U49845）检索号（accession）是序列记录的惟一指针。通常由1个字母加5个数字（U12345）或由2个字母加6个数字（AF123456)组成。它在数据库中是惟一而且不变的。有时ACCESSION行中可能会出现多个检索号,可能是由于数据提交者提交了一条与原记录相关的新记录或新提交的记录覆盖了原有的旧记录。我们称第一个检索号为主检索号,其余的统称为二级检索号。 4） GBFF：VERSION行（version）版本号行（VERSION U49845.1 GI:1293613） VERSION行是版本号，格式为:检索号.版本号.版本号用于识别数据库中一条单一的特定核苷酸序列。在数据库中，如某条序列数据发生了变化，即使是单碱基的改变它的版本号也将增加，而其检索号保持不变。版本号系统与其后的GI（geninfo identifier）号系统是平行运行的。即当一条序列改变后，它将被赋予一个新的GI号，其版本号也将增加。蛋白质的翻译发生任何变换，核酸序列都将被赋予一个新的GI号。 5）GBFF：KEYWORDS行（keywords）关键词行（KEYWORDS 。）关键词行是用来描述序列的。如果该行没有任何内容,那么就只包含一个“。由于没有对照词汇表，故NCBI/GenBank拒绝接受关键词，它只存在于旧的记录中。 6)GBFF：OURCE行（source）来源行（SOURCE Saccharomyces cerevisiae （baker's yeast） ORGANISM Saccharomyces cerevisiae Eukaryota； Fungi； Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales； Saccharomycetaceae； Saccharomyces。）对来源行(SOURCE)没做特殊的规定，它通常包含序列来源生物的简称，有时也包含分子类型。在下面以NCBI的分类数据库为依据,指明物种的正式科学名称。 7）GBFF：REFERENCE 行reference参考文献行（REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L。E。, Gibbs,P.E。， Nelson，J。 and Lawrence，C.W。 TITLE Cloning and sequence of REV7， a gene whose function is required for DNA damage—induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 （11）， 1503—1509 (1994） PUBMED 7871890）参考文献行将与该数据有关的参考文献均收录在内。将最先发表的文献列于第一位。如果序列数据没有被相关文献报道,该行将出现“unpublished"或“in press”。最后将有一个可能的PUBMED指针。 8）GBFF：FEATURES 行（features）特性表行（FEATURES Location/Qualifiers CDS <1..206 /codon_start=3 /product="TCP1-beta" /protein_id=”AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM” gene 687。。3158 /gene=”AXL2" ...。。。）特性表(features)描述基因和基因的产物以及与序列相关的生物学特性。特性表提供一个参考词汇表以对合法的特性进行注释.这些特性包括:1、该序列是否执行一个生物学功能；2、它是否与一个生物学功能的表达相关;3、它是否与其它分子相互作用；4、它是否影响一条序列的复制；5、它是否与其他序列的重组相关；6、它是否是一条已识别的重复序列；7、它是否有二级或三级结构；8、它是否存在变异或者它是否被修订过. 特性表格式是按表单的方式设计的,分三个主要部分： 1）特性表关键词（feature），简要说明功能组； 2）特性位置（location）,指明在特性表中的什么地方可以找到相关特性，在此可以包含操作符（operator）和功能性描述符（descriptor)以指明序列需经过怎样的处理才能得到相应的特性； 3）限定词（qualifier），相关特性的辅助信息，限定词组使用一组标准化的对照词汇表以利于计算机从中提取信息。 (这段序列可以解读为：该编码序列(CDS）起始于第1碱基，终止于第206碱基，它的产物是TCP1-beta ，基因名为“AXL2”.） 9)GBFF：ORIGIN （origin） (ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct ...... 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc ）在GBFF文件的最后，以类似于FASTA格式的方式给出了所记录的序列。二、 FASTA 数据格式（FASTA format)： Accession numbers are labels for sequences(检索号) 11、RefSeq资料库：(NCBI Reference Sequence Database参考序列数据库) RefSeq资料库是NCBI将GenBank 的序列再做详细整理的non-redundent 序列资料库，它的序列格式和GenBank几乎完全相同,但因为是完全不同的独立资料库,为与 GenBank 区别，RefSeq的Accession Number（检索号)格式和GenBank的不同。该数据库所收集的参考序列一直在不断地被修改中，尽管如此，NCBI RefSeq仍是目前最可信赖的序列数据库. GenBank中一个基因的索引号可能有上百个，但对应一个基因的RefSeq只有一个。(http：//www.ncbi.nlm.nih.gov/RefSeq/） NCBI参考序列数据库（RefSeq）旨在提供一个全面的、集成的、冗余，好的注释组序列,包括基因组DNA、转录和蛋白质。RefSeq是医学、功能和多样性研究的基础；它们提供一个稳定的参考基因组注释、基因识别和表征，突变和多态性分析（特别是RefSeqGene记录)，表达研究和比较分析。 e。g. >数据库检索实例〈: 搜索Genbank no。 FJ798090,获得序列相关信息 1. 进入NCBI网站，选择nucleotide:FJ798090搜索,得到相关信息； 2. 从CDS行可看到有关Aa的信息，从ORIDIN行可看到DNA相关信息； 3. 在原网页上选择右边相关信息选择框的PubMed，查看关联文章; 4. 主页进入DNA&RNA，选择tools，点第二个Batch Entrez,批量下载序列； 5. 提交结果，显示参数与序列下载(Send选项、选File、然后选FASTA格式），下载序列,提交序列. 12、提交序列： 1、提交方式主要有三种：1）、Bankit 逐条提交、需要注册；2）、Sequin 10000条以下；3）、Tbl2asn 超过1万条、命令行。 2、Bankit提交:先注册，后点New Submission(创建一个新提交)，Sequencing Technology（测序技术），nucleotide（核酸），Organism(生物体），Submission Category(提交类别),Source Modifiers（源寄存器修改），Primers（引物），Features(特性），Review and Correct(检查和纠正，3处)。 3、Sequin DNA分析软件：（A DNA Sequence Submission and Update Tool) 序列提交：研究产生的新序列,需要递交到公共数据库保存；需要撰写论文发表新序列时，需要数据库接受号。 4、WEB在线提交工具：1、NCBI 的Bankit；2、EBI的WEBIN；3、DDBJ 的SAKURA； 5、离线提交：NCBI的 Sequin。 6、提交比较：Bankit提交：使用简单，每个步骤有详细说明。但一次只能提交一个序列，长度不能太长；Sequin:安装在用户自己的计算机上,可同时递交若干序列和较长序列，而且整合了许多有用的序列注释工具。 13、引物设计及测序结果分析：（第三章） 1、引物设计流程： 1）序列查找与下载(GenBank）； 2)序列同源性比较(Blast/alignment）； 3）引物设计与筛选(primer 3/其他)； 4）引物加工与修饰(酶切、保护、标签、启动子等）； 5）引物评价分析(Oligo 6)； 6）引物二次筛选(blast）； 7）引物最终评估（band)； 2、引物设计原则：基本原则：1）引物与模板的序列要紧密互补；2）引物与引物之间避免形成稳定的二聚体或发夹结构；3）引物不能在非靶点引发DNA聚合反应。注意点：1、引物长度在15—30bp之间； 2、GC含量为40—60%之间; 3、引物的特异性(3’端不能有连续的GGG或CCC）； 4、3’△G的绝对值不超过9,双链形成所需自由能； 5、密码子的兼并：3’不要位于密码子的第3位。 3、引物设计软件：1）在线工具Primer 3、Primer-Blast; 2）本地软件Primer Premier 5； 3）引物评估软件 Oligo 6。 e。g．在线设计引物：在Primer 3界面上将需要设计的序列粘贴复制进入大方框，确定基本参数和结果参数后，点击pick键后出现output页面，将所需的序列即一定要PCR出的序列用中括号括上，再复制进大方框。这两者的差别是第一个是随机的引物，而第二个选出的引物必然包含你所需的那一段. KEYS （in order of precedence）优选引物：（****＊＊ target， >>〉〉〉> left primer ， <<〈〈<<right primer） 4、Oligo 7手工设计引物: 上游ATGGGAAAAGACTATTACAAAATC 下游TCAATTCGGCAGCGTATCGTAGAG 选择引物长度→选定上下游引物→3’△G绝对值不能超过9→Duplex Formation二聚体分析、Hairpin formation发夹分析（△G不能超过4。5）→成分和Tm→错误引发位点分析:一般在100以下，若正确引发效率达到400，可承受超过100多点→PCR最终分析评价→引物二次筛选（上下游引物在ncbi中进行blast分析（搜索primer ncbi)并输入设计的引物，选择nr数据库）→引物最终评估(大小、特异性、效率）→保护碱基与酶切位点（BamHⅠ，NotⅠ）。 5、测序结果分析：(一、Sanger法测序；二、测序图查看；三、序列拼接。） Sanger法测序：流程：（1.PCR扩增；2.产物纯化;3.测序反应；4。电泳分离)； DNA 测序的实验方法：（末端终止法）；测序图查看软件：Chromas、Seqman…；不好的结果：杂峰、套峰. e。g．序列拼接实例： 1。 SeqMan软件启动界面；2. 原始测序文件导入软件;3. Assemble（装配）；4。 Strategy of Contig(重叠群策略)Contig→Strategy view和Contig→Alignment view→去除矛盾碱基和缺口（手动删除、修改可疑碱基）→导出拼接序列。 14、核酸序列分析: （第四章 ) （常规分析、比对分析、基因结构识别） 1、常规分析：（序列的检索、序列组分分析、序列变换、限制性酶切分析） 1、核酸序列检索：（Entrez、SRS） 2、核酸序列组分分析：（Bioedit→分子量；DNAMAN→碱基组成；EditSeq→碱基分布） 1） EditSeq（碱基组成：Goodies→DNA Statistic）; 2） Bioedit (碱基组成 Sequence-àNucleic AcidàNucleotide composition）；Bioedit：一种对基因序列进行分析加工或序列拼接的软件。 3、序列变换:(反向互补序列EditSeq→Goodies→Reverse complement；反向序列EditSeq→Goodies→Reverse Sequence) 4、限制性酶切分析：（BioEdit→Sequence→Nucleic Acid→Restrict Map 在线:NEBcutter、WebCutter、Rebase) 2、比对分析：意义：推测基因和蛋白质的进化演变规律；推测基因和蛋白质的结构和功能；基本假设：序列的保守性→功能的保守性；工具:Blast 和Clustal X； 1） BLAST比对 (Basic Local Alignment Search Tool，基本局部比对搜索工具） BLAST程序的中心思想是将序列切割成一段一段来比较。这两段序列长度为W(分别来自提交序列，与数据库），比对分值>T. 主要分三步进行:（第一步:由查询序列生成的长度固定(W=3）的字段编译列表（Score>T)；第二步:在数据库中扫描获得与编译列表中的字段匹配的序列记录，作为后续延伸的种子seed；第三步：对于每一对选择出来的种子，将其向两边延伸，使其在尽可能长的距离得到尽可能多的分数。) 比对结果的判读:比对结果的显著性以E值(Expect value)来衡量,E值趋向于0时，说明比对结果越显著。E值的意义就是概率；比对得分(bit score）：表明序列比对的得分，数值越高，两序列越相似。【作业：以纤维素酶基因序列为靶标,进行核酸组分分析，NCBI中比对你的序列，至少使用blastn,blastx并下载不少于十个比对出来的序列.】回头来看NCBI参数选择：（blastp、blastn) ① Limit by Entrez Query：任何NCBI BLAST 搜索的范围都可以用在Entrez搜索中使用的任何一种范围限定词来限定; ② Max target sequences：比对之后显示的最大的比对序列的数目； ③ 期望expect：期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。这个数值表示你仅仅因为随机性造成获得这一联配结果的可能次数.对于blastn、blastp、blastxt和blastn期望值的默认设置是10。在这个E值下，随机出现得分等于或高于比对得分S的期望数为10个（这里是假设用与实际的查询序列长度相等的随机的查询序列搜索数据库)。当将期望选项值调小时，返回的数据库搜索结果将变少,匹配被搜索到的概率也会变小。增大E值将返回更多的结果; ④ 字段长度word size：对于蛋白质搜索，窗口大小可以被设定为3(默认值)或者2.当用一个查询序列来进行数据库搜索时,BLAST算法首先将查询序列分割成一系列具有特定长度（字段长度)的小的序列段(字段）.实际应用中对于蛋白质搜索很少需要改变字段的长度;对于核酸序列，默认的字段长度是28，BLAST的字长缺省值为28，即BLASTN将扫描数据库，直到发现那些与未知序列的28个连续碱基完全匹配的28个连续碱基长度片段为止。然后这些片段（即字）被扩展。降低字段长度将会使搜索变得更准确同时也会变得更慢； ⑤ 矩阵matrix：对于blastp的蛋白质—蛋白质搜索有5种氨基酸替代矩阵：PAM30、PAM70、BLOSUM45、BLOSUM62(默认值）以及BLOSUM80。一些其他的BLAST服务器还提供了很多其他的替代矩阵,如PAM250。通常情况下明智的选择是在一次BLAST搜索中使用几种不同的打分矩阵； ⑥ Compositional adjustments：这个选项是默认选择的，一般来说可改善E值的统计计算和提高灵敏度(减少返回的假阳性结果的数目）； 2)blast2双序列比对： Blast比对后,当数据库中搜索到多个显著相似的序列时，检测目的序列是否与之有真正关联，可进行双序列比对Pairwise Aligment. Ncleotide： Hsp40 ORF VS bm40 （改变参数）点阵图Dot matrix view：连续线表示序列匹配指出，缺口表明量序列不匹配之处。比对结果： 3、基因结构识别：包括：（ORF识别；启动子与转录因子结合位点分析；重复序列分析；CpG island） 1) ORF识别: Kozak原则：1、第四位的偏好碱基为G；2、ATG的5‘端约15bp范围内的侧翼序列内不含碱基T；3、在第3、6、9位,G为偏好碱基；4、除第3、6、9位，在整个侧翼序列中，c为偏好碱基. 常见ORF在线预测工具：（ORF Finder；GeneMark，hmm；Glimmer 原核生物;Glimmer HMM真核生物)（ORF的验证：Blast）。 2)启动子及转录因子结合分析：Promoter Scan; 3）重复序列分析：repeatmasker； 4）CpG island：CpGPlot；（CpGisland通常位于启动子附近) CpG双核苷酸在人类基因组中的分布很不均一，而在基因组的某些区段，CpG保持或高于正常概率，这些区段被称作CpG岛。在哺乳动物基因组中的1~2kb的DNA片段，它富含非甲基化的CpG双倍体.CpG岛主要位于基因的启动子(promotor）和第一外显子区域，约有60％以上基因的启动子含有CpG岛。GC含量大于50%，长度超过200bp. 15、DNA双序列比对Pairwise Sequence Alignment原理：（第五章） 1、比什么？给定两条序列(DNA or protein） Seq 1：CATATTGCAGTGGTCCCGCGTCAGGCT Seq 2：TAAATTGCGTGGTCGCACTGCACGCT 它们存在多大程度的相似？ CATATTGCAGTGGTCCCGCGTCAGGCT TAAATTGCGT—GGTCGCACTGCACGCT 2、为什么比?（发现功能、研究进化、某条序列的关键特征、疾病的鉴定） 3、序列变化：三种类型的变化包括：Substitution (点突变)、Insertion(插入）、Deletion（删除），后两个统称为Indel （插入缺失)。 4、为达到比对两序列的目的，我们需要一个定量模型来评估两序列，如何定量两序列间的相似性? 一、全局比对（Global alignment）：是对给定序列全长进行比较的方式.在待比较的两个序列中引入空位（gap），使得对序列的全长都得到比较，Needleman-Wunsch算法。全局序列比对，比对的是全部序列。建立一个得分矩阵,A序列在上方，B序列在左侧,方格(i,j）的数值是A(0—i)到B(0-j)的最佳比对。全部比对的得分在最下角。二、局部比对:获得两序列最佳匹配的区域，有时与全局匹配一致。 16、蛋白序列比对: （第六章) 一般规则：蛋白质序列25%的同一性（长度〉100），即为同源基因homologous gene,DNA序列同一性大于70%为同源序列. 基于氨基酸相似性的序列比对：打分矩阵，基于同一性的打分矩阵：对相似性序列比对不错;但对于相似性程度低的序列效果很差；替换矩阵，对高度相似的序列，我们可以对氨基酸替换频率进行评估打分; BLOSUM矩阵基于高度保守区的置换模式； PAM矩阵基于通过全局比对的突变，包括高度保守区与高度可变区； BLAST默认使用BLOSUM62，可以更改. 19、分子进化与系统发育分析（第九章) 1、达尔文进化论：进化：变异的遗传;自然选择：解释为何演变发生的机制； 2、中性进化论：并非所有种群中保留下来的突变都由自然选择所形成；大多数突变是中性或接近中性，不妨碍种群的生存与繁衍。 3、分子进化的模式： DNA突变的模式:替代，插入，缺失，倒位；核苷酸替代:转换（Transition） & 颠换 (Transversion）；（转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代;颠换：嘌呤被嘧啶替代，或者嘧啶被嘌呤替代) 基因复制:多基因家族的产生以及假基因的产生： A. 单个基因复制、重组或逆转录；B. 染色体片断复制；C。基因组复制 4、同源物的定义： 5、同源性与相似性：相似性 (Similarity）：序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占比例(为定量描述)；同源性 (Homology)：两个基因或蛋白质序列具有共同祖先的结论（定性判断）；相似不一定同源；同源不一定相似. 氨基酸序列相似性超过30％，很可能同源。 6、Ka/Ks：计算及含义 1）Ka：每个非同义位点的非同义替代数目； 2）Ks：每个同义位点的同义替代数目； Ka/Ks ～ 1：中性进化;；ka/Ks <〈 1: 阴性选择，净化选择;；ka/Ks >〉 1: 阳性选择,适应性进化。（多数基因为中性进化,约1%的基因受到阳性选择—>决定物种形成、新功能的产生；PAML， MEGA等工具：计算Ka/Ks及统计显著性) 7、相对同义密码子使用度(relative synonymous codon usage，RSCU): 定义：观测到的某一同一密码子的使用次数，除以“期望"的该密码子出现次数。 8、密码子相对适应度（The relative adaptiveness of a codon）：编码第i个氨基酸的第j个同义密码子的“相对适应性”,即

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

8 金币

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 生物信息学复习总结

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【a199****6536】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

关于本文

本文标题：生物信息学复习总结.doc
链接地址：https://www.zixin.com.cn/doc/3959274.html

a199****6536

内容提供者

实名认证

查看上传人更多文档

部分上传会员的收益排行 01、路***（￥15400+），
02、曲****（￥15300+），
03、wei****016（￥13200+）,
04、大***流（￥12600+），
05、Fis****915（￥4200+），
06、h****i（￥4100+），
07、Q**（￥3400+），
08、自******点（￥2400+），
09、h*****x（￥1400+），
10、c****e（￥1100+）,
11、be*****ha（￥800+），
12、13********8（￥800+）。

相似文档

自信AI助手