核磁共振代谢组学数据的尺度归一化和特征代谢物辨识新方法.pdf
《核磁共振代谢组学数据的尺度归一化和特征代谢物辨识新方法.pdf》由会员分享,可在线阅读,更多相关《核磁共振代谢组学数据的尺度归一化和特征代谢物辨识新方法.pdf(58页珍藏版)》请在咨信网上搜索。
1、硕士学位论文核磁共振代谢组学数据的尺度归一化和特征代谢物辨识新方法摘要代谢组学方法是上世纪90年代中期发展起来的一门新学科,它借助高通量、高灵 敏度与高精确度的现代分析技术,分析细胞、组织和生物体液中内源性代谢物的整体组 成,并通过代谢物复杂的、动态的变化,辨识和解析被研究对象的生理病理状态。高通量、高分辨的现代分析仪器在获取生物样品中更丰富、更准确的代谢信息的同 时,也给后续的数据分析带来了巨大的挑战。本文从数据预处理和特征选择两方面出发,深入研究核磁共振代谢组学数据处理,提出新的数据归一化方法和特征选择方法,增强 后续数据统计分析的可靠性。本文工作包括如下两个创新点:首先,提出一种有监督的
2、数据尺度归一化方法。该方法不强调各变量之间的“尺度”归一,而是在原始数据的基础上,通过提高其中稳定性高、且在不同类别样本中具有显 著差异性的变量权重,以增强与特征代谢物相关的信息。采用模拟数据和真实代谢组学 数据评估新归一化方法的性能,结果表明:该方法能够提高多变量统计模型的预测能力,较完整地保留核磁共振谱的分子信息,有助于特征代谢物的识别。其次,提出一类基于重采样技术的特征变量辨识方法。利用重采样技术,并结合T 统计和多变量分析方法,估算各变量的显著性,辨识特征变量。本文分别用模拟数据和 真实代谢组学数据检验新方法的性能,结果表明:新方法更适用于小样本量数据集;降 低了坏点(outliers
3、)数据对模型的影响;并对噪声有一定的抑制作用;获取与问题相关的 特征变量,提高特征代谢物的辨识能力,使后续的统计分析结果更具可解释性。本文研究有助于提高后续统计分析的鲁棒性和准确性,辨识与疾病相关的生物标记 物,提高代谢组学数据分析的可靠性。关键词:代谢组学;尺度归一化;特征代谢物;重采样技术AbstractMetabolomics is one of the new“omics“of global systems biology which is termed as the quantitative measurement of the dynamic multi-parametric me
4、tabolic response of a living system to pathophysiological stimuli or genetic modification9.Identification of pathological biomarkers is important to metabolomic studies of disease.In present study,the techniques of data preprocessing and feather selection in NMR-based metabolomics are concerned.Tb i
5、mprove the reliability of analysis,a novel scaling method based on intergroup variance with a novel feather selection method based on resampling were proposed.The main works are summarized as follows:Firstly,a scaling method based on intergroup variance was proposed-It increases weights of variables
6、 with high stability and significant intergroup differences,rather than simply adjusts the scale of variables.Thus the disease-related data information is enhanced.The simulate dataset and real dataset were imported respectively to evaluate the performance of this new scaling method.Results showed t
7、hat the accuracy of sample classification and the identification of characteristic metabolites can be improved effectively by the proposed scaling method.S econdly,a novel method of identifying biomarkers was proposed which combined the re-sampling techniques,T statistical analysis and multivariable
8、 statistical analysis.The importance of the variables was calculated pick out the possible characteristic metabolites.Its performance was inspected by botli simulate and real datasets.This method is shown to be robust especially for dataset with less sample,and can help to moderate the effects of ou
9、tliers in the original dataset.Besides,the predictive capability of multivariate statistical model is improved and the result of subsequent analysis is more interpretable and reliable.S ummarily,the two data handling method proposed in this paper was innovative in variable scaling and feature select
10、ion.They are proved to be robust and effective for identifying the disease-related characteristic variables of metabolomics studies.Keywords:Metabolomics;Data S caling;S ignificant Metabolites Identification;第一章绪论1.1 基于NMR的代谢组学简述代谢组学(metabolomics/metabonomics)是在特定的环境或疾病状态下研究某个系统(如细胞、组织或有机体)全局代谢轮廓的科学
11、。代谢组学的概念源于“代谢物组(metabolome)”,即某一生物或细胞所有的代谢产物(metabolite)。代谢组学目前作为一种 新的“组学(omics)”,与基因组学、转录组学和蛋白质组学被广泛地应用于系统生物学研 究。代谢组学通过考察生物体系在受刺激或扰动(如特定的基因变异或环境变化)后其 代谢产物的变化或其随时间的变化来研究生物体系代谢途径的技术网。其主要特征是通 过高通量的实验和大规模的计算,从系统生物学的角度出发,全面综合地研究机体的代 谢变化。作为一种崭新的方法学,代谢组学已成为国际上疾病与健康研究的一个重要热 点14叫代谢组学方法结合了先进的分析检测技术与模式识别等统计计算
12、方法。常用检测手 段有质谱(MS)、核磁共振(NMR)、气质联用技术(GC/MS)、高效液相色谱(HPLC)。通过 这些高通量、高灵敏度与高精确度的现代分析技术,对细胞提取物、组织提取物及生物 体液中随时间变化的代谢物浓度进行检测,结合有效的模式识别方法进行定性、定量的 分析和样本分类,然后将获得的代谢信息与病理生理过程中的生物学事件关联起来,从 而了解机体生命活动的代谢过程。NMR技术是一种非侵入和高效的检测手段,作为代 谢组学的一种常用技术。基于NMR的代谢组学(NMR-based Metabonomics)采用多元统计 分析和模式识别方法,分析生物样本的咱核磁共振谱图中全部小分子代谢物信
13、息,从而 了解相关生物体在病理生理学、功能基因组学、药理毒理学等方面的状况及动态变化,及其所揭示的生物学意义,并从分子水平来认识生命运动的规律口叫基于NMR代谢组 学广泛应用于包括疾病诊断、药物研发、药物作用机制研究、基因功能组学、分子生理 学、分子病理学、环境科学、营养学等重要领域口1-1叫图1.1是2001年至2010年在Web of S cience数据库中用关键字metabonomic?OR metabolomic?检索得到的代谢组学相关的科研论文发表情况。从图中可以看出,代谢组厦门大学硕士学位论文学论文数量逐年大幅递增。可以预见,这门新兴学科必将应用到更为广泛的领域。图1.1各年度的
14、代谢组学相关文献数1.2 基于NMR的代谢组学的研究方法基于NMR的代谢组学的研究,通常包括以下几个步骤(图1.2):第一、样本采集及其制备代谢组学研究最常用的体液样本包括尿液、血浆和血清。这类样本可以无侵入性或 微创侵入获得,在NMR图中包含成百上千的代谢物口可。此外,也有针对其他样本的研 究,例如:组织提取液叫叫脑脊液叫胆汁口8叫精液25、羊水26,2刀、滑液、肠道分 泌和唾液。其中,完整的组织或其脂溶、水溶提取物中得到的代谢信息更为重要,这是 因为它反映的是特定器官的代谢物信息,而非生物机体的整体信息。目前,用于NMR分析的体液样本(如尿液、血清和血浆)或组织样本的收集、储存、准备详细过
15、程已有相应流程。简单的说,通常先加入叠氮化物,以控制细菌生长;然后 使用磷酸盐配置的缓冲液以稳定pH值,并调节样品的pH值与离子浓度的微小差异;加 入重水,用于谱仪锁场;用化合物3-(三甲基硅基)丙酸钠TS P329或三甲基硅丙烷磺酸钠 Dss13。叫来定标或定量分析第二、采集NMR谱图NMR作为一种高分辨率和高灵敏性的分析技术,适合于生物样品分析。它能够非侵 入性地、无偏向性地获得生物体液样本中的成百上千的代谢物,进而为后续的疾理生理 分析提供分子信息。NMR利用化学位移、耦合常数、弛豫速率这三个基本参数从本质上 反映物质的结构和动态。在NMR检测中,磁不等价的核自旋会在谱图中体现出具有不同
16、 化学位移的共振峰,并且能检测到各个自旋间的相互作用,这些优点有利于辨识和归属 第一章绪论化合物特征峰。目前,尿液和血清样品的一维NMR实验相对比较成熟,常规实验步骤包 括:调谐、锁场、匀场、设置脉冲序列及其参数,最后通过采样即可获得一张包含丰富 生物信息的NMR谱图。图1.2基于NMR的代谢组学的研究步骤第三、数据预处理代谢组学研究往往涉及到比较几十个甚至几百个样本之间的代谢差异,以确定疾病 组和健康组之间不同生理状态的统计变化。值得注意的是,由于各种非生物的变化,例 如一些实验条件,都可能在核磁共振谱图中引入系统变异和随机变异。一些难以分析的 大分子信号会造成相位和基线的扭曲;溶剂峰、pH
17、值和离子强度的变化可能导致谱峰位 的漂移,因此需要进行谱峰对齐和积分处理;水峰压制、匀场、脉冲参数以及样本制备,都可以诱发更多的变异。而由于NMR实验过程通常会对多个批次或类别的样本采样,这 些构件造成的影响会显得更加明显。由此可见,为了得到更准确的生物信息,需要对数据进行多步预处理:谱峰去噪、调相、基线校正、谱峰对齐、积分、归一化和尺度归一化RI等。目前,已开发出适用于 一维或二维的NMR谱图,多种针对谱峰对齐、积分、归一化和尺度变换的强健算法RTS。第四、统计分析数据预处理后,为了进一步提取NMR谱数据中的潜在信息,通常要进行统计分析。从概念上讲,用于核磁共振数据的统计分析方法是与其他数据
18、的分析方法相同,一般包 3厦门大学硕士学位论文括两大类:探索性分析和验证性分析。探索性分析的目的是发现数据中的模式,如使用 层次聚类分析(HCA)的和主成分分析(PCA)的方法。另一方面,验证性数据分析,会使 用到类别信息(也就是监督分析),并且允许进行关于统计类别的推断,例如偏最小二乘 判别分析法(PLS-DA),正交信号校正偏最小二乘法(O-PLS-DA),和S IMCA软件等。目 前常用的化学计量学软件包,包括R(http:/cran.r-project.org/),S AS(S AS软件研究所,美国),PLS toolbox(Eigenvector研究公司,美国),Matlab(Mat
19、hWorks公司,美国),Pirouette(Infbmetrix 公司,美国),Minitab(Minitab 公司,美国)和S IMCA-P+(Umetrics,瑞典)。第五、特征代谢物分析和受损代谢通路重建通过PCA或PLS-DA等模式识别方法得到的特征变量,结合NMR谱图归属信息,对 这些特征变量分析,就可以得到针对疾病或其他刺激的特征代谢物或生物标记物。最后 结合生物、化学、医学知识来分析得到的特征代谢物及其受损的代谢通路,从而指导疾 病诊断,药物毒性研究和药理分析等口空刀。1.3 本文的结构本论文选题来自于“卫生部福建省卫生教育联合攻关计划(WKJ2008-2-36)”项目和“福建
20、省自然科学基金(2009J01299)”项目,并受这两个项目的资助。本论文的主要内容是代谢组学数的据预处理和特征代谢物辨识。通过数据预处理,能够增大有用信号的作用,同时削弱干扰信号(例如噪声)的影响,提高后续的模式分析 的可靠性和准确度,使得最终的分析结果具有更好的可释性。合理有效地辨识特征代谢 物,对疾病诊断,药理分析和药物毒性跟踪等具有重要意义。本文在数据预处理方面,提出了基于组间变异的尺度归一化新方法。该方法不再追 求变量“尺度”意义下的归一化,而是利用各变量在不同类别样本中取值分布的差异进行 权重调节,从而增强与感兴趣问题相关的信息的作用,抑制噪声及无关信息的影响,使 后续的数据分析更
21、简单可靠;在辨识特征代谢物上,采样重采样技术每次选取部分样本,分别进行了T统计分析和多变量建模(如PLS-DA)分析,计算变量的重要性参数,将参数 稳定的变量看作潜在的特征变量。这种方法对离群样本(outlier)不敏感,能够在小样本的 情况下,选择到没有“类别偏向性”的特征变量。全文共分为五章,各章内容如下:4第一章绪论第一章介绍了基于NMR代谢组学的概况及数据预处理的意义,并简单阐述了本文的 主要研究工作和论文的结构安排。第二章介绍目前代谢组学的基本研究步骤和数据特点,并阐述了常用的预处理方 法,及各算法和优缺点。第三章提出基于变量在类别间分布差异的尺度归一化方法,对NMR代谢组学数据预
22、处理分析。分别采用模拟数据集和真实的代谢组学实验数据集,对新方法和另外三种尺 度归一化方法的性能进行比较研究,分析不同方法对后续的代谢组学模式识别结果的影 响,评价四种方法的优劣。第四章提出基于重采样的变量挑选方法。利用模拟数据和甲亢的代谢组学数据来检 验新算法的性能;并与其他两种方法比较,最后小结各自的优缺点和适用性。第五章进行全文总结,同时对基于NMR的代谢组学研究作出展望。5厦门大学硕士学位论文参考文献1 Goodacre,Royston,Vaidyanathan,et al.Metabolomics by numbers:Acquiring and understanding glob
23、al metabolite data J.Trends in Biotechnology.200422:245-252.2 Schmidt C.Metabolomics takes its place as latest up-and-coming omic science J.Journal of the National Cancer Institute,2004,96:732-7343 Nicholson JK,Connelly J,Lindon JC,et al.Metabonomics:A platform for studying drug toxicity and gene fu
24、nction J.Nature Reviews Drug Discovery,2002,1(2):153-161.4 Scriver CR.After the genome-the phenome?J.Journal of Inherited Metabolic Disease,2004,27(3):305-317.5 Subrahmanyam V,Alfred T.Biomarkers,metabonomics,and drug development:Can inborn errors of metabolism help in understanding drug toxicity?J.
25、AAPS Journal,2007,9(3):284-297.6 Sofia M,Raoul JB,Ric CH,et al.Metabolomics technologies and metabolite identification J.Trac-trends in Analytical Chemistry,2007,9(26):855-866.7 Cecilia C,Cesare M.A multiway approach to analyze metabonomic data:A study of maize seeds development J.Analytical Biochem
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 核磁共振 代谢 数据 尺度 归一化 特征 代谢物 辨识 新方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。