生物分子数据库市公开课一等奖百校联赛特等奖课件.pptx
《生物分子数据库市公开课一等奖百校联赛特等奖课件.pptx》由会员分享,可在线阅读,更多相关《生物分子数据库市公开课一等奖百校联赛特等奖课件.pptx(107页珍藏版)》请在咨信网上搜索。
1、第四章第四章 生物分子数据库生物分子数据库主讲人:孙主讲人:孙 啸啸 制作人:刘志华制作人:刘志华东南大学 吴健雄试验室第1页第一节 引言生物分子数据生物分子数据高速增加高速增加 分子生物学分子生物学及相关领域研究人员及相关领域研究人员快速取得最新试验数据快速取得最新试验数据 建立生物分子数据库建立生物分子数据库 第2页v生物分子数据库应满足5个方面主要需求v(1)时间性v(2)注释 v(3)支撑数据 v(4)数据质量 v(5)集成性 第3页v生物分子数据库 一级数据库v数据库中数据直接起源于试验取得原始数据,只经过简单归类整理和注释 二级数据库v对原始生物分子数据进行整理、分类结果,是在一级
2、数据库、试验数据和理论分析基础上针对特定应用目标而建立 。第4页生物分子数据库几个显著特征:(1)数据库更新速度不停加紧 数据量呈指数增加趋势(2)数据库使用频率增加更加快(3)数据库复杂程度不停增加(4)数据库网络化(5)面向应用(6)先进软硬件配置第5页第二节第二节 核酸序列数据库核酸序列数据库w国际上权威核酸序列数据库国际上权威核酸序列数据库 (1)欧洲分子生物学试验室EMBL http:/www.embl-heidelberg.de (2)美国生物技术信息中心GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗
3、传研究所DDBJ http:/www.ddbj.nig.ac.jp/第6页w核酸序列数据增加趋势w(纵轴代表总核酸序列长度,单位:百万bp)第7页 三个数据库中数据基本一致,仅在数据格式上有所差异,对于特定查询,三个数据库响应结果一样。这三个数据库是综合性DNA和RNA序列数据库,每条统计代表一个单独、连续、附有注释DNA或RNA片段。以下着重介绍以下着重介绍EBMLEBML第8页wMBL中数据分类情况(单位:Gigabases)w(EST-Expressed sequence tags;STS-sequence tagged sites)w(取自http:/www3.ebi.ac.uk/Se
4、rvices/DBStats/)第9页w21 Mar w37,943,364,438 bases in 24,353,128 records.第10页“ID”为序列标识符行,包含登录号、类型,分子长度“AC”为登录号行;“XX”为分隔符号行;“DT”为创建和更新日期行“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文件编号;“RP”描述参考文件页码;“RA”描述参考文件作者;“RT”描述参考文件题目;“RL”描述参考文件出处;“RC”描述参考文件注解;“RX”、“DR”行描述交叉引用信息;“FH”为特征开
5、始符号;“FT”为特征表行(1)Feature Key,它是描述域生物功效关键字;(2)Location,指明特征在序列中特定位置;(3)Qualifiers,描述关于一个特征辅助信息;文件体由序列本身所组成,由“SQ”标志行开始。序列结束标识是“/”。EMBL核酸数据库中每一个序列数据被赋予一个登录号,它是一个永久性唯一标识 EMBL序列数据用外在ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分 文件头由一系列信息描述行所组成,文件头实际上对应于一个序列注释(annotation)第11页提交数据提交数据(1)编辑电子表格(2)利用Authorin程序(3)利用基于WWW网络
6、环境序列提交系统第12页使用使用EMBLEMBL(1)CD-ROM形式(2)ftp服务器(3)Gopher服务器(4)WWW服务器这是当前最惯用一个形式 第13页EMBLEMBL提供一些与序列相关检索操作(基于提供一些与序列相关检索操作(基于3W3W服务器)服务器)(1)序列查询最简单查询就是经过序列登录号(如X58929)或序列名称(如SCARGC)直接查询。假如找到所查询序列,则服务器将查询结果以HTML文件返回给用户假如数据库中该序列有到MEDLINE交叉索引,则系统同时返回与包含参考文件摘要等信息MEDLINE链接假如该序列有到其它数据库交叉索引,也返回对应链接第14页比如:登录号为J
7、00231核酸序列含有这么一个交叉索引行:DRSWISS-PROT:P01860;GC3_HUMAN(2)核酸同源性搜索 3W服务器支持用户使用FastA程序进行核酸同源搜索。FastA依据给定目标序列在数据库中搜索其同源序列。第15页2、基因组数据库(基因组数据库(GDBGDB)人类基因组计划所得到图谱数据人类基因组计划所得到图谱数据 当前GDB包含对下述三种对象描述:(1)人类基因组区域 包含基因、克隆、PCR标识物、断点、细胞遗传学标识、易碎位点、EST、综合区域、contigs、重复等;(2)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,全部
8、这些图谱都能够被直观地显示出来;(3)人类基因组中改变,包含基因突变和基因多态性,加上等位基因频率数据。第16页与染色体相关信息第17页其它模式生物基因组数据库如:如:鼠基因组数据库鼠基因组数据库 MGD MGD(http:/www.informatics.jax.org/http:/www.informatics.jax.org/)酵母基因组数据库酵母基因组数据库 SGD SGD(http:/genome-http:/genome-www.stanford.edu/Saccharomyces/www.stanford.edu/Saccharomyces/)第18页Ensembl(Ensemb
9、l(http:/www.ensembl.org/http:/www.ensembl.org/)3 3 3 3、人类基因组数据库、人类基因组数据库、人类基因组数据库、人类基因组数据库EnsemblEnsemblEnsemblEnsemblEnsemblEnsembl包含全部公开人类基因组包含全部公开人类基因组DNADNA序列,经过注释序列,经过注释形成关于序列特征。形成关于序列特征。现在包含其它基因组,如大鼠、现在包含其它基因组,如大鼠、小鼠、线虫、果蝇等。小鼠、线虫、果蝇等。比如:基比如:基因因经过试验发觉经过试验发觉或者是经过或者是经过GenScan程序预测程序预测其它特征:其它特征:单核苷
10、酸多态性(单核苷酸多态性(SNPSNP)、重复序列等)、重复序列等第19页Ensembl 数据库结构图 第20页Ensembl提供各种查询方式 经过关键字查询用BLAST进行相同序列搜索 另一个更直观方式是显示各染色体用户能够在染色体水平上选择感兴趣位点,逐层放大浏览整个基因组第21页第22页人第人第9号染号染色体及大鼠色体及大鼠对应染色体对应染色体片段片段第23页4 4、表示序列标识数据库、表示序列标识数据库dbESTdbESTEST(Expressed Sequence Tags)方法已被证实是识别转录序列最有效方法,EST序列大约覆盖了人类基因90%。DbEST(http:/www.nc
11、bi.nlm.nih.gov/dbEST/)是GenBank一个部分,该数据库包含不一样生物EST序列数据及其它相关信息,主要是从大量不一样组织和器官得到短mRNA片段。WEB页面或emailFTP相关EST数据dbEST数据库第24页5、序列标识位点数据库dbSTSSTS(Sequence Tagged Sites)是序列标识位点dbSTS(http:/www.ncbi.nlm.nih.gov/dbSTS/)是NCBI一个数据源,包含基因组短标识序列(STS)组成和定位信息。能够经过BLAST搜索STS序列。第25页6 6、面向基因聚类数据库、面向基因聚类数据库UniGeneUniGeneU
12、niGene(http:/www.ncbi.nlm.nih.gov/UniGene/)数据库将GenBank中序列进行自动分类,形成面向基因群非冗余集合。每个UniGene群包含:代表一个唯一基因多个序列,附有该基因相关信息,如基因表示组织类型、定位图谱除了基因序列之外,还包含大量EST序列。当前,UniGene中包含人类、大鼠、小鼠、牛相关数据,因为这些生物有大量EST数据。第26页第三节第三节 蛋白质序列数据库蛋白质序列数据库w目标:目标:帮助研究者判别和解释蛋白质序列信息,帮助研究者判别和解释蛋白质序列信息,研究分子进化、功效基因组。研究分子进化、功效基因组。w它是一个全方面、经过注释、
13、非冗余蛋白质序它是一个全方面、经过注释、非冗余蛋白质序列数据库。列数据库。w全部序列数据都经过整理,超出全部序列数据都经过整理,超出99%序列已按序列已按蛋白质家族分类,二分之一以上还按蛋白质超蛋白质家族分类,二分之一以上还按蛋白质超家族进行了分类。家族进行了分类。1 1、PIRPIR(Protein Information ResourceProtein Information Resource)第27页除了蛋白质序列数据之外,除了蛋白质序列数据之外,PIR还包含以下还包含以下信息:信息:(1)蛋白质名称、蛋白质分类、蛋白质起源;蛋白质名称、蛋白质分类、蛋白质起源;(2)关于原始数据参考文件
14、;关于原始数据参考文件;(3)蛋白质功效和蛋白质普通特征,包含基因表蛋白质功效和蛋白质普通特征,包含基因表示、翻译后处理、活化等;示、翻译后处理、活化等;(4)序列中相关位点、功效区域。序列中相关位点、功效区域。第28页PIR提供三种类型检索服务:一是基于文本交互式查询,用户经过关键字进行数据查询。二是标准序列相同性搜索,包含BLAST、FastA等。三是结合序列相同性、注释信息和蛋白质家族信息高级搜索,包含按注释分类相同性搜索、结构域搜索等。第29页三个子数据库第30页2、SWISS-PROT SWISS-PROT(http:/www.expasy.ch/sprot/sprot-top.ht
15、ml)是当前国际上比较权威蛋白质序列数据库,其中蛋白质序列是经过注释 SWISS-PROT中数据起源于不一样源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出适当数据;(3)从科学文件中摘录;(4)研究人员直接提交蛋白质序列数据 SWISS-PROT有三个显著特点:第31页 (1 1)注释注释在SWISS-PROT中,数据分为关键数据和注释两大类。关键数据包含:序列数据、参考文件、分类信息(蛋白质生物起源描述)注释包含:(A)蛋白质功效描述;(B)翻译后修饰;(C)域和功效位点,如钙结合区域、ATP结合位点等;(D)蛋白质二级结构;(E)蛋白质四级结构,如同构二聚体、异
16、构三聚体等;(F)与其它蛋白质相同性;(G)因为缺乏该蛋白质而引发疾病;(H)序列矛盾、改变等。第32页(2)最小冗余)最小冗余 尽可能将相关数据归并,降低数据库冗余程度。假如不一样起源原始数据有矛盾,则在对应序列特征表中加以注释。(3)与其它数据库连接)与其它数据库连接 对于每一个登录项,有许多指向其它数据库相关数据指针,这便于用户快速得到相关信息。现有交叉索引有:到EMBL核酸序列数据库索引,到PROSITE模式数据库索引,到生物大分子结构数据库PDB索引等。第33页 提交序列数据提交序列数据(a a)编辑电子表格)编辑电子表格(b)b)利用利用AuthorinAuthorin程序程序(c
17、 c)WWWWWW服务器服务器 使用使用SWISS-PROTSWISS-PROT(a a)CD-ROMCD-ROM形式形式(b b)ftpftp服务器服务器(c c)GopherGopher服务器服务器(d d)WWWWWW服务器(服务器(SRSSRS)与序列相关操作与序列相关操作(a a)序列查询)序列查询 (b b)搜索同源蛋白质序列)搜索同源蛋白质序列第34页TrEMBL(http:/www.ebi.ac.uk/trembl/index.html)是与SWISS-PROT相关一个数据库。包含从EMBL核酸数据库中依据编码序列(CDS)翻译而得到蛋白质序列,而且这些序列还未集成到SWISS
18、-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到SWISS-PROT数据,全部SP-TrEMBL 序列都已被赋予SWISS-PROT 登录号。(2)REM-TrEMBL(REMaining TrEMBL)包含全部不准备放入SWISS-PROT数据,所以这部分数据都没有登录号。3、TrEMBL第35页包含:Swiss-Prot TrEMBL PIR 用户能够经过文本查询数据库,能够利用BLAST程序搜索数据库,也能够直接经过FTP 下载数据。4、蛋白质数据仓库、蛋白质数据仓库UniProt第36页UniProt包含3个部
19、分:(1)UniProt Knowledgebase(UniProt)蛋白质序列、功效、分类、交叉引用等信息存取中心蛋白质序列、功效、分类、交叉引用等信息存取中心(2)UniProt Non-redundant Reference(UniRef)数据库 将亲密相关蛋白质序列组合到一条统计中 方便提升搜索速度;(3)UniProt Archive(UniParc)资源库,统计全部蛋白质序列历史。第37页第四节第四节 生物大分子结构数据库生物大分子结构数据库1、PDB(Protein Data Bank)wPDB中含有经过试验(X射线晶体衍射,核磁共振NMR)测定生物大分子三维结构蛋白质核酸糖类其
20、它复合物 第38页w一个是显式序列信息(explicit sequence)在PDB文件中,以关键字SEQRES作为显式序列标识,以该关键字打头每一行都是关于序列信息。w一个是隐式序列信息(implicit sequence)PDB隐式序列即为立体化学数据,包含每个原子名称和原子三维坐标。第39页第40页HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR,NMR,30 STRUCTUR
21、ES COMPND MOL_ID:1;COMPND 2 MOLECULE:TISSUE FACTOR PATHWAY INHIBITOR;。COMPND 8 BIOLOGICAL_UNIT:MONOMER SOURCE MOL_ID:1;。SOURCE 7 EXPRESSION_SYSTEM_PLASMID:PFLAG KEYWDS HYDROLASE,INHIBITOR,COAGULATION EXPDTA NMR,30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J
22、.BURGERING,L.P.ORBONS,A.VAN DER DOELEN,。REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1-111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183-304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RES
23、IDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR.DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS
24、 PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY
25、 PHE HELIX 1 1 ASP 12 PHE 15 5 4 HELIX 2 2 ASN 34 THR 36 5 3 HELIX 3 3 LEU 57 ILE 63 1 7 SHEET 1 A 2 ARG 29 ASN 33 0 SHEET 2 A 2 GLN 38 PHE 42-1 N PHE 42 O ARG 29 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIG
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 分子 数据库 公开 一等奖 联赛 特等奖 课件
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。