中科院生物信息学复习题.doc
《中科院生物信息学复习题.doc》由会员分享,可在线阅读,更多相关《中科院生物信息学复习题.doc(9页珍藏版)》请在咨信网上搜索。
1、1.什么是生物信息学,如何理解其含义?答:生物信息学有三个方面的含义:1) 生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。2) 生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。3) 生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。怎样理解生物信息学:生物信息学是把基因组DNA序列信息分析作为源头,
2、找到基因组序列中代表蛋白质和RNA基因的编码区;同时阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律:在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据,从而认识代谢、发育、分化、进化的规律。其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测,并将此类信息与生物体和生命过程中的生理生化信息结合,阐明其分子机制,最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。2.如何利用数据库信息发现新基因,基本原理?答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式:1) 从大规模基因组测序得到的数据出发,经过基因识别
3、发现新基因:利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:基于信号,如剪切位点、序列中的启动子与终止子等。基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network2) 利用EST数据库发现新基因和新SNPs:数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略。其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库构
4、建若干数据库:总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库;用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质;用种子和纯化的EST数据库比对用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸;判断是否为全长cDNA序列。(利用EST数据库:原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,
5、进而将它们拼接成和完整基因相对应的全长cDNA序列。而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。)3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么?当前的困难是什么,如何克服?答:构建系统进化树,其主要步骤如下:1) 序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;2) 序列同源性分析。是将待研究序列加入
6、到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;3) 构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,如PYLIP、MEGA等;4) 稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法。当前的主要困难是发现了基因的横向迁移(LGT)现象,即进化程度不同
7、的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。克服LGT的方法:1) 选择垂直进化而来的序列进行研究,即去除横向迁移的数据库,如COG数据库;2) 使用全基因组数据库进行基因组水平上的对比;利用生物体的蛋白质组构建进化树。选取特征对比,不同长度的序列字符串进行对比后,对照其genome进行归一化;ORF对比,将all predicted ORF采用COG的分类规则进行分类,再构建进化树4.什么是SNP,为什么SNP的研究是重要的,举出23个SNP相关的网站。答:SNP是指单核苷酸多态性,代表了基因组水平上遗传密码的变异,由于这种变异很多以单碱基突变的形式出现,因此称为单
8、核苷酸多态性;因为SNP研究是基因组领域理论成果走向应用的关键步骤,是联系基因型和表现型之间关系的桥梁,是研究人类基因组计划走向应用的重要步骤。SNP相关的一些网站:1) SNP Consortiums database(http:/snp.cshl.org/index.html)2) NCBI SNP database将这些数据进行整理,去掉冗余,使每个SNP都是唯一的。此时的SNP被称为reference SNP或refSNP。((http:/www.ncbi.nlm.nih.gov/SNP/overview.html) 3) The Human Genic Bi-Allelic Sequ
9、ences Database(HGBASE) 这一数据库收录了人基因组中所有已知的序列变化,包括:SNPs、序列的插入和缺失(Indels)、简单重复序列等。(http:/hgbase.cgr.ki.se/)4) The Human Gene Mutation Database(HGMD)(http:/www.hgmd.org/) 5) The Protein Mutant Database(PMD),蛋白突变数据库。收录了蛋白质特定位点的氨基酸突变信息,以及这些突变对蛋白质结构功能的影响。(http:/pmd.ddbj.nig.ac.jp/)6) The Allele Frequency D
10、atabase(ALFRED):人类群体等位基因频率数据库,http:/alfred.med.yale.edu/alfred/index.asp5. 什么是系统生物学?系统生物学对生命科学概念上的发展?答:系统生物学是指在系统的层面上研究生命活动。(研究一个生物系统中所有组成成分的构成,以及特定条件下组分间互作关系。)包含三个相互衔接的组成:整合数据,即整合所有各个层次(DNA水平,RNA水平,蛋白质水平,蛋白质相互作用水平)的信息数据;系统建模,即用这些信息构建描绘生命活动的数学模型;预测未知,即用这个模型预测生命未来的发展及外界干扰后系统的变异。概念上的发展主要有:1) 研究思路的变化:传
11、统的分子生物学研究步骤一般为:DNA序列蛋白结构蛋白功能(一维),而系统生物学是在二维的角度研究生命科学,即:相互作用网络功能,是由一组基因产生并相互作用共同实现的。2) 看待生命活动本质的变化:因为没有一个生命活动是靠一个基因完成的,生命活动是一组基因相互作用实现的,这种相互作用形成一个网络,既包括每个单元的结构,又包括单元与单元之间的相互作用。因此,系统生物学不仅考虑每个基因的活动,还描述了基因间的相互作用并导致了网络的产生。6.(1)什么是非编码序列,非编码RNA,非编码基因?(2)以人的基因组为例回答:在基因组中有多少非编码序列,有多少存在转录本,举23个非编码核酸的生物学功能?答:(
12、1)非编码序列是基因组中不编码蛋白质和多肽的序列;非编码RNA是基因组中非编码序列的转录产物/转录本;功能性的非编码RNA对应基因组上的位置称为非编码基因;(2)人类基因组中9798%的序列是非编码序列,有70%80%存在转录本,非编码核酸的生物学功能:1) Xist:X-inactivation(X染色体失活)是哺乳动物的一种剂量补偿机制,其中一半拷贝转录被抑制从而失活,抑制转录是通过一个2kb的非编码RNA(Xist RNA)实现的,xist RNA装配在失活X染色体的外侧,引起结构改变导致失活;2) Small RNA and RNAi: RNAi是由RNA(siRNA、microRNA
13、)导致的转录后基因沉默现象,如由双链小RNA引起的干扰和转录后基因沉默现象,在植物病毒抗性和线虫中的转座子沉默;一些小核RNA调控基因转录。(单链易降解,但发现细胞中存在另一种pathway,双链小RNA进入细胞后结合组蛋白形成复合体,该复合体和识别并降解target)3) piRNA(具有大量转录本,功能不详)和Prions(生物复杂度到一定程度后会出现发病情况,可能和非编码RNA有关)等。1.芯片间标准化的方法:基本方法:芯片间标准化的目的是基于Gene1Gene5五个基因表达量理论的和应该保持恒定,即S1S3三列每一列的和是相等的。但实际测定过程中不可能完全相等,因此将这种不等归结于每一
14、组芯片自身的差异而进行芯片间标准化,基本步骤为通过排序取平均重新排序的方法消除芯片间误差,从而可以得到每一组基因表达量的真实值。(老师给的这组芯片基因完全相同的情况下S3一列数据明显偏高,通过这种标准化实现了芯片间差异的消除)。2. FDR控制假阳性的方法BenjaminiHochberg procedure基本方法:对于m个独立的样本,其p-value记为pi,i=1,2,3m;(1)对所有的p-value进行从小到大排序p(1)p(2) p(m);(2)对于一个给定的(此时的即为统计里的显著水平,范围01,通常取0.05),找到最大的k值,满足p(k)km;(3)拒绝从p(1)p(k)的无
15、效假设H0(即表示p(1)p(k)表达量存在显著差异)。计算方法1(=0.05):P(4)=0.030.05*5/6=0.041;k=4. 即G2, G6, G5, G4差异表达,FDR0.05计算方法2(q-value法):根据p(k)km可以推出p(k)mk因此直接计算并与进行对比即可:由于G3的q-value大于0.05,因此G2, G6, G5, G4差异表达。3. 转录本表达量的表示方法(RPKM:Reads Per Kilobase of transcript per Million mapped reads):(1)RPKM的作用:RNA-seq是透过次世代定序的技术来侦测基因表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中科院 生物 信息学 复习题
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【丰****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【丰****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。