基于加权平均的肠道菌群特征筛选和疾病预测模型研究.pdf
《基于加权平均的肠道菌群特征筛选和疾病预测模型研究.pdf》由会员分享,可在线阅读,更多相关《基于加权平均的肠道菌群特征筛选和疾病预测模型研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、生物技术进展生物技术进展 2023 年 第 13 卷 第 5 期 798 806Current Biotechnology ISSN 20952341研究论文研究论文Articles基于加权平均的肠道菌群特征筛选和疾病预测模型研究曹海涛1,朱静1*,曾海波2,刘彦辰11.新疆农业大学计算机与信息工程学院,乌鲁木齐 830052;2.新疆乌鲁木齐市友谊医院,乌鲁木齐 830049摘要:利用宏基因组分析预测人类疾病和健康状况以及发现生物标志物是当前研究的热点。通过生物信息学工具KneadData和MetaPhlAn2对原始宏基因组进行数据质量控制和去宿主污染后得到纯净序列,利用数据降维方法和随机森
2、林模型筛选出与疾病发生高度相关的特征菌群,以代替原始数据特征作为疾病预测模型输入。结合多层感知机(multilayer perceptron,MLP)、支持向量机(support vector machine,SVM)和极端梯度提升(extreme gradient boosting,XGBoost)为子模型构建融合疾病预测模型,并在肝硬化、2型糖尿病和肥胖症3个数据集上经过特征筛选后交叉验证,得到的AUC值分别为0.928 6、0.652 1和0.574 7。ROC曲线下面积显示,筛选出特征菌群后的模型能高效准确地筛查和诊断疾病,并能有效区分健康人和疾病患者,为建立一种新的非侵入性、可量化的
3、辅助诊断方法提供了有益参考。关键词:疾病预测;肠道菌群;特征筛选;融合模型;宏基因组DOI:10.19586/j.20952341.2023.0063 中图分类号:Q811.4,R378 文献标志码:AResearch on Feature Selection of Gut Microbiota and Disease Prediction Model Based on Weighted AverageCAO Haitao1,ZHU Jing1*,ZENG Haibo2,LIU Yanchen11.Computer and Information Engineering College,Xin
4、jiang Agricultural University,Urumqi 830052,China;2.Friendship Hospital of Urumqi,Urumqi 830049,ChinaAbstract:The utilization of metagenomic analysis to investigate human diseases and predict health conditions is a current focal point of research.Through the application of bioinformatics tools such
5、as KneadData and MetaPhlAn2,the raw metagenomic data undergoes quality control and host contamination removal were carried out to obtain the pure sequences.Subsequently,dimensionality reduction methods and a random forest model were employed to identify microbial taxa that were highly correlated wit
6、h disease occurrence,serving as replacements for the original data features in the disease prediction model.A fusion disease prediction model was constructed by integrating multilayer perceptron(MLP),support vector machine(SVM),and extreme gradient boosting(XGBoost)as sub-models.Following feature se
7、lection and cross-validation on datasets pertaining to liver cirrhosis,type 2 diabetes,and obesity,the obtained AUC values were 0.928 6,0.652 1,and 0.574 7,respectively.The area under the ROC curve demonstrated that the model augmented with the selected microbial taxa,which could efficiently and acc
8、urately screen and diagnose diseases,effectively distinguishing between healthy individuals and patients.This work provided valuable insights for the establishment of a novel non-invasive and quantifiable auxiliary diagnostic method.Key words:disease prediction;intestinal microbiota;feature screenin
9、g;fusion model;metagenomics传统疾病筛查和诊断通常检测周期较长,且一些筛查和诊断方法需要进行侵入性检测,例如穿刺、活组织检查等。这种检测方式不仅痛苦,还可能导致感染和其他并发症,使患者出现紧张、不收稿日期:20230505;接受日期:20230705基金项目:国家自然科学基金项目(31860649)。联系方式:曹海涛 E-mail:;*通信作者 朱静 E-mail:曹海涛,等:基于加权平均的肠道菌群特征筛选和疾病预测模型研究适1等情绪。因此,需要寻找一种更便捷、非侵入性的方法来辅助疾病筛查和诊断,以改善早期诊断和治疗效果,改善人们健康状况。本研究旨在利用宏基因组学和机
10、器学习技术,探索肠道菌群2在疾病筛查和诊断中的应用,以建立一种辅助参考模型。近年来,肠道菌群对疾病的影响引起了广泛关注。研究表明,患有某些疾病的人群其肠道菌群与健康人群存在差异3,肠道微生物群落的失衡可能导致病原菌过度生长和有害代谢产物的产生,从而引起免疫系统异常和疾病的发生,如克罗恩病4和糖尿病5等。然而,现有的疾病诊断6方法存在局限性,单一模型的诊断能力有限,而利用多组数据建立模型需要大量的特征,难以应用于临床。1998年,Handelsman等7首次提出宏基因组学(metagenomics)的概念一种研究环境中所有微生物基因组总体的方法,高通量测序技术的发展8极大地推动了宏基因组学的研究
11、。宏基因组学为我们更好地理解和利用肠道菌群提供了平台,从而深入研究人体肠道菌群与健康之间的关系。机器学习通常作为各种预测任务模型的核心算法使用,在构建疾病预测模型时,大量使用逻辑回归、K近邻、随机森林和人工神经网络等方法。Pasolli等9使用随机森林模型设计了有关2型糖尿病的疾病预测模型;Ai等10使用随机森林完善了关于结直肠癌的疾病预测模型;Wu等11使用K近邻建立了预测2型糖尿病的疾病模型;Reiman等12使用人工神经网络构建了预测肝硬化疾病模型。尽管使用不同模型预测疾病的方法大部分依赖于机器学习模型的自我学习能力,在对应的疾病数据上表现出色。然而,这些模型普遍存在缺乏泛化的能力,在其
12、他疾病数据中表现不佳。本研究采用宏基因组学和机器学习模型,利用多组独立的宏基因组数据进行研究。通过生物信息学工具对原始数据进行预处理,并使用数据降维和随机森林模型设定特征重要性阈值,筛选与疾病发生高度相关的特征菌群。接着,进行特征相关性分析,并使用加权平均的方法构建一种融合模型,旨在解决传统疾病筛查和诊断方法的侵入性和耗时问题,以及现有模型缺乏泛化能力的限制。本研究通过结合宏基因组学和机器学习技术,期望建立一种基于肠道菌群的非侵入性筛查和诊断模型,为疾病的早期筛查和诊断提供辅助参考,改善人们的健康状况。1材料与方法1.1数据获取及标准处理从 NCBI(美国国家生物技术信息中心)的SRA数据库中
13、,选择3个样本的宏基因组测序数据,分别为Cirrhosis数据集(ERP005860)、T2D数据集(SRA045646、SRA050230、ERP002469)、Obesity数据集(ERP003612)。Cirrhosis数据集包括健康者118名、疾病患者114名;T2D数据集包括健康者217名、疾病患者223名;Obesity数据集包括健康者89名、疾病患者164名。上述的 3 个样本数据集都采用人类微生物计划13所制定的标准,来预处理宏基因测序数据,首先使用 FastQC 和 MultiQC 对原始测序数据进行质量控制处理,接着利用工具 KneadData对经过质量控制的序列去除宿主污
14、染得到纯净序列,最后使用默认的参数在纯净的测序数据上运行MetaPhlAn2来生成物种组成表,测序数据处理流程如图1所示,宏基因组数据经过处理后得到的物种组成表如表1所示。图1测序数据处理流程图Fig.1Sequencing data processing flowchart799生物技术进展生物技术进展 Current Biotechnology1.2特征工程由于宏基因测序数据包含成千上万个微生物DNA序列,并且每个微生物可能具有数千到数百万个基因。同时,每个样本的菌群组成也可能因样本来源、环境条件等因素存在差异,从而导致该类型的数据通常都是高维稀疏的,所以需要依据处理的数据集来对比选择合适
15、的降维、筛选方法。为了对比数据降维和特征筛选对疾病预测模型精度的影响,本文使用主成分分析(principal component analysis,PCA)14、自编码器(AutoEncoder)15、非线性降维(T-SNE)16 进行数据降维、对比,使用随机森林模型进行特征筛选,最后进行特征菌群的相关性分析。1.3加权平均融合模型的构建加权平均融合模型(weighted average fusion model)是一种集成学习方法17,通过对多个单模型的预测结果进行加权平均,从而得到最终的预测结果。通过对比子模型的预测结果和真实值之间的关系,设定权重值来降低模型融合后的预测误差。在分类问题中
16、,加权平均集成算法在二分类和多分类问题上均表现出更高的预测精度。本实 验 使 用 支 持 向 量 机(support vector machine,SVM)18、极度梯度提升树(extreme gradient boosting,XGBoost)19、多 层 感 知 机(multilayer perceptron,MLP)203个子模型进行预测,并采用加权平均来判定各子模型的预测结果与真实值的差异。本文使用了 3 种不同的加权融合方法,即软投票21、Stacking22和加权平均,并通过可视化方式进行预测结果的对比。比较T-SNE降维和随机森林特征选择后每种融合模型预测结果指标,分析了随机森林
17、筛选出的特征菌群的重要程度,阐明各特征菌群在各个疾病发生发展过程中发挥的潜在性作用,实验的整体流程如图2所示。表1部分原始数据Table 1Part of raw data数据标识符ERR1620255ERR1620256ERR1620257ERR1620258细菌名称Eubacterium eligensCutibacterium acnesScardovia wiggsiaeActinomyces graevenitzii细菌丰度0.634 10.268 60.124 40.016 929493023宿主年龄宿主性别男男女女BMI22.318 318.218 316.03824.905宿主
18、表型患病患病健康健康注:BMI体重指数(body mass index)。图2实验流程图Fig.2Experimental flowchart800曹海涛,等:基于加权平均的肠道菌群特征筛选和疾病预测模型研究在加权平均融合模型中,每个单一模型的预测结果被赋予一个权重,权重的大小反映了这个模型的预测能力。一般来说,权重越大的模型对最终预测结果的贡献越大。本文采用排序法是一种常见的加权平均模型融合技术,它可以基于单一模型在一些表现指标上的表现,为每个单一模型分配一个权重,以此来组合多个单一模型的预测结果,从而得到最终的预测结果。这种方法的基本原理是根据单一模型在各个表现指标上的表现来为它们赋予不同
19、的权重,从而使得在预测结果中表现更好的单一模型能够产生更大的影响,而表现较差的单一模型则产生较小的影响。加权平均融合中基于表现指标的排序法的公式见式(1)。Si=j=1kwj sij(1)其中,k是评价指标的数量,wj是第j个指标的权重,满足j=1kwj=1。为了在加权平均融合中确定每个单一模型的权重,可以使用式(2)计算。wi=sij=1nsj(2)其中,n表示单一模型的数量,si表示第i个单一模型的总体得分,j=1nsj表示所有单一模型的总体得分之和。具体来说,基于表现指标的排序法通常包含以下步骤:选择一些表现指标,这些指标应该能够反映单一模型的预测能力,例如准确率、精度、召回率、F1分数
20、等;对每个单一模型在这些指标上进行评估,并计算它们在各个指标中的得分;根据各个指标的重要性,为每个指标赋予一个权重;对于每个单一模型,将它在每个指标上的得分乘以对应的权重,并对乘积求和,从而得到该单一模型的总体得分;根据每个单一模型的总体得分,为它们分配一个权重,从而在加权平均融合中确定它们的贡献度。本文选取的评价指标有精确率(precision)、准确率(accuracy)和 ROC 曲线下的面积(AUC),评价指标按公式(3)(5)计算。Accuracy=TP+TNTP+FN+FP+TN(3)Precision=TPTP+FP(4)AUC=insi positiveclassrankins
21、i-M(M+1)2MN(5)其中,TP表示真正例,TN表示真负例,FP表示假正例,FN表示假负例,rankinsi代表第i条样本的序号,M、N各自代表了正样本数量及负样本数量,insi positiveclass是遍历所有的正样本,并累加其序号。2结果与分析2.1特征降维和筛选使用PCA、AutoEncoder、T-SNE 3种方法对3种疾病的物种组成表进行数据降维,接着可视化降维后3种疾病数据各个特征之间的分布(图35)。从降维后的特征分布图看出 T-SNE 的效果要好于PCA和AutoEncoder,经过AutoEncoder降维后的数据整体分布效果要好于PCA,这是因为T-SNE是一种非
22、线性降维算法,相比于PCA,它可以更好地捕捉数据中的非线性结构。对于AutoEncoder来说,深度学习方法可以快速将高维数据降到低维,但由于AutoEncoder无法学习菌群特征之间的复杂结构,故在处理高维稀疏的宏基因测序数据时,通过T-SNE降维之后的数据分布更加均衡,最后将经过T-SNE降维后组成的新数据作为模型的输入数据。使用随机森林模型对物种组成表进行特征筛选,设定好特征重要性阈值,将原始特征中重要性高于阈值的特征筛选出来,并由低到高呈现出来(表2),组成新的数据作为模型的输入,对比T-SNE降维产生的数据,观察是否对模型精度产生影响。最后对降维后筛选出的数据进行相关性分析(图6),
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 加权 平均 肠道 特征 筛选 疾病 预测 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。