小波变换—模式识别挖掘代谢物组学信息的研究.pdf
《小波变换—模式识别挖掘代谢物组学信息的研究.pdf》由会员分享,可在线阅读,更多相关《小波变换—模式识别挖掘代谢物组学信息的研究.pdf(64页珍藏版)》请在咨信网上搜索。
1、中文摘要如何从利用海量的波谱数据挖掘出重要的信息是代谢物组学研究需要解决 的重大问题。本文以4种基因型的拟南芥样本为例,CclO和C24是亲本基因型,Col0 x C24和C24ColO是两个杂交基因型。通过比较主成分分析、等级聚类分 析及BP人工神经网络等三种最具代表性的数据分析方法与小波变换结合前后得 到的模式识别结果,探讨将小波变换引入代谢物组学领域生物信息学研究的可行 性和实用性。本文结合小波变换能够在频域进行去噪和信息提取的能力及主成分分析对 多元数据降维和样本关系可视化的能力建立了小波变换-主成分分析(WPPCA)的方法。研究表明小波函数的选取对 WT-PCA的结果具有一定影响。利
2、用DB8 小波,W1RPCA对4种不同基因型拟南芥样本的区分度达到了 90.675%,而PCA 仅为46.875%;PCA对其中的2个杂交基因型基本不能进行区分,而 WPPCA 对二者的区分度达到了 81.25%o本文结合等级聚类分析的结果客观性强的特点建立了小波变换-等级聚类分 析(WT-HCA)的方法。类间距离对HCA的结果具有显著影响。利用最小方差 距离得到的结果优于利用最近距离、最远距离和平均距离得到的结果。利用最小 方差距离,HCA对4种基因型和2个杂交基因型样本的区分度分别为84.375%和75%J WFHCA将结果大大提高,分别达到了 90.675%和81.25%。本文结合BP人
3、工神经网络非线性学习和自适应性的能力以及小波变换优化 输入变量的能力建立了小波变换-BP人工神经网络(WT-BPNN)的有监督模式 识别方法。以LOO模式构建带有5个隐含层的WTBPNN模型对未知样本的预 测准确率达到了 100%,而相同结构的BP人工神经网络模型的预测准确率为 81.25%。关键词:代谢物组学小波变换模式识别主成分分析等级聚类分析神经网 络ABSTRACTHow to fully ex plor e sign ifican t in for mation car r ied over h uge bytes of spectr oscopic data is a gr eat
4、 ch allen ge to metabon omic r esear ch.Takin g two gen otypes of Arabidopsis thaliana-ColQ an d C24 an d th eir fir st gen er ation pr ogen y,Col0 x C24 an d C24x ColO as ex ample,th is paper ex plor ed th e pr acticability an d feasibility of in tr oducin g wavelet tr an sofbr m in to bioin fbn n
5、atic r esear ch in th e field of metabon oin ics.Con clusion could be dr awn by compar in g th e r esults obtain ed befor e an d after in tegr ation of wavelet tr an sfor m with th e Pr in cipal Compon en t An alysis(PCA),Hier ar ch ical Clix ster in g An alysis(HCA)an d BP Neur al Networ k(NN),r es
6、pectively.Combin in g capability of wavelet tr an sfor m in n oise r eduction an d in for mation r ecover y at fr eq uen cy domain witii capability of pr in cipal compon en t an alysis in dimen sion r eduction an d sample r elation s visualization,th is paper establish ed th e meth od WT-PCA.Result
7、sh owed th at selection of wavelet h ad impact on WT-PCA.Wifli DB8 as wavelet,accur acy of WT-PCA in distin guish in g four gen otypes was 90.675%wh ile r esult fr om PCA was 46.875%.WT-PCA discr imin ated th e two h ybr ids with accur acy of 81.25%but PCA could h ar dly differ en tiate th e two gen
8、 otypes.Th is paper establish ed th e meth od WT-HCA,wh ich h igh ligh ted objectivity of HCA r esult an d vir tue of WT.In tr agr oup distan ces h ad eviden t impact on th e r esults of HCA.War d algor ith m offer ed better r esults th an sin gle,complete an d aver age.With war d as in tr ogr oup d
9、istan ce,accur acy of HCA in distin guish in g four gen otypes an d two h ybr ids wer e 84.375%an d 75%,r espectively wh ile WT-HCA impr oved th e two figur es to 90.675%an d 81.25%.Utilizin g advan tages of BPNN in n on-lin ear lear n in g an d self-adaption an d th at of WT in optimization of in p
10、uts,th e meth od WT-BPNN was establish ed.A WT-BPNN model with five h idden layer s built in Leave On e Out(LOO)pr edicted un kn own samples fr om th e 4 gen otypes with cor r ection r ates of 100%wh ile BPNN with th e same str uctur e pr edicted with accur acy of 81.25%.KEY WORDS:metabon omics,meta
11、bolomics,wavelet tr an sfor m,patter n r ecogn ition,pr in cipal compon en t an alysis,h ier ar ch ical clutster in g an alysis,ar tificial n eur al n etwor ic前言人类基因组计划的基本完成意味着“后基因组时代”的到来。这个时代生命 科学的主要任务是基因组功能分析,核心思想是整体性研究,即以生物体内某一 类物质分子的整体为对象进行研究。因为遗传信息由基因经转录物向功能实体 蛋白质传递,基因的功能由其表达产物来体现,因此随着研究的深入,继“基
12、因组之后,转录物组(tr an scr iptome)、蛋白质组(pr oteome)等概念相继出现。但由于通常情况下,基因与功能并不存在定量关系,仅凭转录物组和蛋白质组分 析还不足以阐述生物体的全部功能;而且它们的研究结果难以与传统方法相比 较,因此,代谢物组学(metabon omics和metabolomics)应运而生。代谢物组学是代谢物分析的整体性研究方法。实际上,所有对生命系统的影 响都会反映在代谢物组中,基因、营养、环境、治疗和时间的作用最终都要通过 代谢物得以体现。因此除了基因功能预测以外,代谢物组学在重大疾病诊断,药 物安全性评价等多个领域都可能取得重大进展,有着广阔的前景。
13、代谢物组学是数据驱动的学科,如何从海量的代谢物组学数据中提取生命体 系的宝贵信息,是代谢物组学领域的生物信息学研究人员需要解决的重点和难点 问题。目前,代谢物组学主要应用无监督和有监督的模式识别做为数据挖掘和信 息提取的手段,如主成分分析、等级聚类分析和人工神经网络等。本文以4种不同基因型的拟南芥样本的代谢物组学数据为例,对主成分分 析、等级聚类分析以及BP人工神经网络等方法进行研究,探索不同的数据特征、.奇异样本以及数据预处理等因素对于上述各种方法的影响。本文探索将小波变换 引入代谢物组学领域进行有效信息的提取、噪音信息去除等方面的研究。通过构 建小波-主成分分析、小波-等级聚类分析及小波-
14、BP人工神经网络生物信息模型,并比较其对拟南芥样本分类的准确性和对未知样本的预测能力以及生物标志物 的识别能力,开发代谢物组学领域新的生物信息学方法。第一章文献综述第一章文献综述1.1代谢物组学简介代谢物组学1是继基因组学、转录组学和蛋白质组学之后出现的又一门崭新 的“组学”学科。上述几种组学共同构成了系统生物学的研究内核(见图1-1)代谢物组学的出现进一步促进了“从基因型到表型”的完整生化谱的绘 制,可望在功能基因组学、代谢网络调控、重大疾病诊断、病理毒理学等诸多领 域取得突破性进展。图M代谢物组学与其他组学的关系Fig.1-1 Relations.between metabonomics
15、and other -omics,顾名思义,代谢物组学即以代谢物组为研究对象的“组学”。代谢物组的概 念早在1998年就由Oliver等用提出。它是与转录物组和蛋白质组平行的术语,指的是单个细胞、组织、器官或体液中所有小分子代谢物的集合。目前,学术界 认知度较高的代谢物组学定义是Nich olson等提出的。其内容如下:代谢物组学是对生命系统由于受到病理生理刺激或者基因修饰而产生的具 有时间依赖型的多参数代谢应答进行定量测量的研究方法。-2-第一章文献综述与其他组学相比,代谢物组学具有如下特点向:1、在基因组和蛋白质组水平上发生的变化能够在代谢物组水平上得到放大,从 而使检测变得容易;2、一切
16、外源性刺激都会导致代谢物组的变化。许多不能由基因组、转录组和蛋 白质组得到体现的变化却可以通过代谢物组加以体现,而且代谢物组的变化 是生物过程的最终结果,这便于将代谢物组学的研究结论与传统学科的知识 相关联;3、代谢物组学的研究不需要建立全基因组序列及大量表达序列标签(EST)的 数据库;4、代谢物的种类比基因和蛋白质的种类少;5、代谢物组学研究中所采用的检测技术比之基因组和蛋白组中的技术更为经济 和通用。Js.JO-IBqsnN图1-2近年来代谢物组学领域发表文章的趋势Fig,l-2 Trend in paper publication of metabonomics1.2代谢物组学的应用基
17、于上述优点,自1999年以来,代谢物组学得到了世界范围的关注,相关 领域发表的文章呈现指数型迅猛增长的趋势(如图1-2)。目前,代谢物组学 已成功地应用于毒性评价、基因功能预测、营养学研究、环境安全评价、重大疾 病诊断等诸多领域的研究。1.2.1 毒性评价Nich olson和 Wilson等应用3HNMR结合多成分分析建立了肝、肾毒物导第一章文献综述致的尿液中代谢物变化的分析方法0他们通过定量地分析代谢模式的变化,反映 出多种毒物造成机体损伤的作用位点和毒理作用的分子机制。Gar tlan d等首次 应用模式识别的方法对体液样本进行分类,对肾皮质和肾髓质毒性作用模式进行 区分。Holmes
18、等以应用 PNN(pr obabilistic n eur al n etwor ks)的方法分析了 13 种 肝肾毒性化合物具有时间依赖性的尿液代谢!hnmr光谱,对四类毒性肝脏、肾脏、线粒体和肝肾毒性的区分度达到90%以上。Coen等口利用魔转角NMR 对完整的肝组织进行分析,并与肝组织提取液和血浆的】HNMR分析结果相结 合,通过与服用扑热息痛的老鼠模型进行对照研究,证明了在高剂量的扑热息痛 作用下,糖酵解途径增强。他们还将这种方法应用在转录组和代谢物组联合分析 上,结合两方面的数据共同解释与能量相关的代谢物改变,提供了毒理、药理研 究的新方法。122基因功能预测分析基因功能比基因测序更
19、复杂。在已测序的基因组中还存在着很多“沉默”基因,当它们从基因组中敲除时,不会产生生长速率以及表型方面的明显变化。Teusin k等报道了一种称为FANCY的方法,通过分析生物的代谢物组来 阐明基因功能。这种方法测量基因敲除突变株中准稳态条件下细胞内代谢物的浓 度。若敲除未知功能的沉默基因可以在代谢途径上产生与敲除己知功能基因的突 变株相同的代谢物浓度的变化,则说明这两个基因作用于同一代谢途径。Raamsdon k等口刃考察了两株缺失编码6-磷酸果糖激酶的两个基因之一的酵 母突变株,这两株突变株在恒化培养时与野生型菌株没有表型上的明显区别,但 是分析磷酸葡萄糖的含量就能够发现其中的差异。Fie
20、h n领导的课题组同对拟南 芥进行代谢物组学研究,发现不同基因型的拟南芥杂交样本之间的差异主要表现 为苹果酸.柠檬酸、葡萄糖和果糖等代谢物的浓度差异。该结果与以前的观点吻 合,即拟南芥的表型差异主要源于遗传自亲本的与编码线粒体和叶绿体相关的基 因型之间的差异。1.23营养学研究Watkin s等冏用代谢物组学研究过氧化物酶体增殖物激活受体丫(per ox isome pr olifer ator s-activated r eceptor y,PPARy)拮抗剂罗格列酮对 U 型糖尿 病肥胖小鼠的作用时发现慢性肝脂变的作用。他们通过分析血浆中脂类代谢物组 建立了分析机体内脂类代谢情况的高通量的
21、实验手段。Han和Gr oss】等将这种 脂类代谢物的整体性分析定义为脂类代谢物组学(lipidomics)o Su等“习利用代 谢物组学研究3T3-L1细胞中脂类的变化,证明了该类细胞中存在包括三酸甘油第一章文献综述脂和磷脂等主要脂类的奇数脂肪酸的坚固堆积,从而证明了过氧化酶在该类细胞 脂酸代谢过程中的重要作用。Lar n er s等口可利用具有关节炎的动物进行代谢物组 学研究发现乳酸、苹果酸、次黄喙吟和丙氨酸等生物标志物与关节炎有关。实施 维生素C营养介入治疗后,代谢物组随维生素C剂量和时间不同有明显区别且 代谢异常得以矫正。该研究不仅证明了代谢物组学方法在疾病诊断和营养评价方 面的可行性
22、,而且为维生素C营养介入治疗骨关节炎的分子水平机理研究奠定 基础。1.2.4环境安全评价Nich olson等口刀应用代谢物组学的方法开展环境中的CdCb对小鼠具有的急 性毒性作用进行详细的研究。Gr iffin网等进一步拓展了这方面的研究,他们对不 同剂量的CdCb的慢性生化效应进行研究,通过分析鼠尿液、血浆和组织的改变,证明了急、慢性作用具有不同的生理机制并建立了环境污染对生物体影响的非入 侵性的检测方式和毒性物质的安全性评价方法。Gr iffin等口男还广泛地研究环境 中的重金属毒物对啮齿类动物的影响。Bun dy等3)用代谢物组学的方法以蚯蚓 为模型,研究被污染的土壤对生物体的影响,结
23、果表明2-氟-4-甲基苯胺作用后蚯 蚓体内2.己基5乙烯基硫酸味喃水平下降,磷酸肌甘水平上升;4氟苯胺作用后 麦芽糖浓度降低,3,5-氟基胺作用后与2-氟-&甲基苯胺作用相似。这些变化都可 作为外源的生物标志物,并有助于其他毒性化学物质的机制研究。1.3代谢物组学的研究流程图1Y代谢物组学研究的基本流程Fig.1-4 Flow chart of metabonomics research-5第一章文献综述代谢物组学研究解决的具体问题千差万别,但其基本研究过程可以用图1-4 概括。代谢物组学研究通常包括以下部分,即实验设计、样本制备和测量、获取 原始数据数据、数据预处理和模式识别。1.3.1 样
24、本制备和检测表1“代谢物组学中几种基本分析技术的优缺点Table 1-1 Pros and cons of detecting&cilities in metabonomics所用技术优点缺点薄层色谱(TLC)简单,快速分辨率低,不可用于复杂的混合物 的分离色谱学方法快速,可以通过模式灵敏度较低,被分析物质收吸光度(紫外.红外)识别比较异同限制,适用性较窄核磁共振(NMR)特异性强,分辨率较高样品制备要求高,动态范围有限,硬件投资较大质谱(MS)灵敏度高,特异性强,会出现离子抑制效应,样品制备要分辨率高求高,无法分析同位素 GC/MS灵敏度高,选择性好分析时间较长,不适于分析辅因子 及分子量大
25、于三糖分子量的代谢物LC/MS灵敏度高,选择性好分析时间较长,不适合于稳定、易 衍生化、易挥发化合物代谢物组的组成复杂;不同代谢物组的物化性质,如极性、溶解性、挥发性 等存在巨大差异,这就决定了代谢物组学检测分析手段的多样性和复杂性。目前,代谢物组学通常采用红外光谱法(in fr ar ed spectr oscopy,IR)、核磁共振(n uclear magn etic r eson an ce,NMR)、质谱(mass spectr ometr y,MS)高效液相色谱(h igh per for man ce liq uid ch r omatogr aph y,HPLC)以及各种技术的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 变换 模式识别 挖掘 代谢物 信息 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。