基于机器学习的胃癌关键基因筛选及预测模型构建.pdf
《基于机器学习的胃癌关键基因筛选及预测模型构建.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的胃癌关键基因筛选及预测模型构建.pdf(10页珍藏版)》请在咨信网上搜索。
1、第41卷第1期2024年1月D01:10.3969/j.issn.1005-202X.2024.01.017基于机器学习的胃癌关键基因筛选及预测模型构建中国医学物理学杂志Chinese Journal of Medical PhysicsVol.41 No.1January 2024医学生物信息-115王泽朋,李坤鹏,周玉,李四海甘肃中医药大学信息工程学院,甘肃兰州7 30 10 0【摘要】目的:为了验证与胃癌相关的遗传特征,提出一种混合式特征选择方法确定靶基因,进一步分析其意义并建立新的诊断预测模型。方法:对原始胃癌数据进行生物信息学方差分析,使用随机森林、支持向量机的递归特征消除、套索算法
2、等机器学习方法筛选胃癌相关基因,对结果取交集,获得关键基因集。进行富集分析,确定关键基因并验证;依据关键基因构建基于多层感知器(MLP)逻辑回归、决策树等8 种机器学习分类算法的诊断预测模型。结果:混合式的特征选择方法筛选出的关键基因与肿瘤发生和发展的生物学过程密切相关;8 个关键基因(TXNDC5、BM P8 A、O NEC U T 2、COL1OA1、JC H A I N、I NH BA、L C T L 和TRIM59)被确定为诊断效果较好的胃癌潜在标志物;根据8 种分类模型的ROC曲线和准确率结果可知,MLP为最佳胃癌预测模型,其准确率高达97.7 7%,比他人构建的Xgboost胃癌预
3、测模型准确率高出3.8 3%。结论:本研究获得了诊断和预防胃癌的8 个关键基因,并建立了最佳预后模型。【关键词】胃癌;基因筛选;关键基因;生物信息学;机器学习【中图分类号】R318;R735.2Key gene screening and prediction model construction of gastric cancer based on machine learning【文献标志码】A【文章编号】10 0 5-2 0 2 X2024)01-0115-10WANG Zepeng,LI Kunpeng,ZHOU Yu,LI SihaiSchool of Information Eng
4、ineering,Gansu University of Chinese Medicine,Lanzhou 730100,ChinaAbstract:Objective To verify the genetic characteristics associated with gastric cancer,and to propose a hybrid featureselection method for identifying target genes,further analyzing their significance and establishing a new diagnosti
5、cprediction model.Methods Analysis of variance in bioinformatics was performed on the original gastric cancer data,and thenmachine learning methods such as random forest,recursive feature elimination of support vector machine,and LASSOalgorithm were used to screen gastric cancer associated genes,and
6、 the intersection of results was taken as the key gene set.The key genes were identified and verified through enrichment analysis.The diagnosis and prediction models based on 8kindsofmachinelearning classification algorithms such as multi-layer perceptron,logistic regression and decision tree,wereco
7、nstructed using the key genes.Results The key genes selected by the hybrid feature selection method were closely relatedto the tumorigenesis and development.Eight key genes(TXNDC5,BMP8A,ONECUT2,COL10A1,JCHAIN,INHBA,LCTL and TRIM59)were identified as potential markers of good diagnostic efficacy in g
8、astric cancer.The ROC curve andaccuracy results demonstrated that among the 8 classification models,MLP is the best gastric cancer prediction model,withan accuracy of 97.77%,which was 3.83%higher than that of Xgboost gastric cancer prediction model.Conclusion The studyidentifies 8 key genes for the
9、diagnosis and prevention of gastric cancer,and establishes the optimal prognosis model.Keywords:gastric cancer;gene screening;key gene;bioinformatics;machine learning前言胃癌是一种严重危害人类健康的恶性肿瘤,其病死率在世界各地都很高。引起胃癌的主要原因有【收稿日期】2 0 2 3-10-12【基金项目】甘肃省科技计划项目(2 1JR1RA272);甘肃省教育厅高校教师创新基金项目(2 0 2 3B-105)【作者简介】王泽朋,硕士
10、,研究方向:生物信息学、机器学习,E-mail:【通信作者】李四海,副教授,研究方向:数据挖掘、机器学习、光谱分析,E-mail:以下几点:幽门螺旋杆菌、饮食习惯不规律及烟酒的过度摄入。由于早期发病症状不明显,难以引起人们的重视,使得很多患者错过最佳的治疗时机。因此,如何实现胃癌早期预测诊断,成为攻克现代胃癌的重要难关。近年来国内外学者在分子基因层面对癌症-116-基因筛选做了大量研究,其中靶向治疗工程最为引人注目,利用基因检测手段对胃癌进行诊断,随后再基于诊断出的致病基因进行靶向治疗 2 。因此,关键基因的筛选检测对于胃癌早期诊断、预后分析及靶向治疗具有重要意义。在癌症基因筛选问题上,国内外
11、科学家主要分为两个方向,一个是利用生物信息学研究方法,另一个是在基因筛选过程中加入机器学习模型。赵博璇等 3 对胃癌基因表达进行详细的研究,并通过芯片分析建立胃癌早期预测和分类模型,模型准确率为96.7%,为建立胃癌诊断和预后预测模型提供思路和启示。在基因筛选应用问题上,刘辉等 4应用癌症基因组图谱(TCGA)胃癌数据构建基于加权基因共表达网络和套索算法(LASSO)预测模型,并找到靶基因HKR1,侧面验证了机器学习对于基因筛选结果的重要性和准确性。本文为了进一步提高基因筛选的准确性,主要通过在基因筛选过程中加人最先进的机器学习方法,将随机森林(RF)、支持向量机特征递归消除(SVM-RFE)
12、和LASSO与生物信息学相结合,建立一种混合型的新算法 5。在建立预测模型的问题上,主要运用了以极限梯度提升、轻量级梯度提升、支持向量机、多层感知器等8 种机器学习分类算法为基础,和其他研究构建的分类模型进行比较,本文算法效果更好,为胃癌早期预防提供有力的科学依据,也为病理生理过程的分子机制提供新的见解。数据来源与预处理1.1数据来源本文使用的数据来自公开的TCGA和基因型-组织表达(GTEx)7数据库。首先下载TCGA数据库中446 例胃癌标本数据,从GTEx数据库网站下载359个正常组织样本,以弥补TCGA数据库中正常组织样本数量较少的不足,并与TCGA表达矩阵数据合并,为建立分类模型增加
13、样本平衡,提高模型的说服力。1.2数据预处理合并TCGA和GTEx的基因表达数据,对数据进行预处理。再利用R语言对基因表达数据进行分类,判定0 1A为胃癌组织样本,11A为正常组织样本。合并后的数据集包含8 0 5个组织样本,其中胃癌组织样本有410 个,正常组织样本有395个。2方法2.1差异表达分析由于TCGA与GTEx两种基因序列来自于不同的测序平台,因此两种基因序列之间可能会有批次中国医学物理学杂志间的差异,因此应先进行批次效应处理 8 。利用R语言中的Deseq2软件包实现对数据的批次效益去除和差异表达基因的筛选 9。差异分析设置11ogFC2,P0.05为差异有统计学意义,筛选出的
14、胃癌相关的差异基因通过火山图可视化展出。具体原理如下:将数据进行log2转换,得到-1,1 作为阈值,识别差异基因,具体计算公式为:XrumorFlod change=:二Xnormal2.2富集分析富集分析也叫通路分析,是分析基因信息中常用的方法之一。基因本体论(Gene Oncology,GO)101分析和京都基因与基因组百科全书(KyotoEncyclopedia of Genes and Genomes,KEGG)l 的通路分析是目前最常用的两种富集分析方法。其中,GO分析分为3部分:分子功能(MF)、细胞组分(CC)、生物学过程(BP);KEGG通路包含基因组、化学以及系统的功能信息
15、。对于关键基因集,常用DO疾病富集分析,用来分析关键基因集富集的具体疾病通路。本研究中,利用R语言中的clusterProfiler软件包来实现差异基因的DO疾病分析、GO分析和KEGG通路分析,通过富集显著性(P-value)的超几何检验来衡量判定富集结果是否显著,计算公式如下:-MP-1-2n-ii-0当评估基因富集的程度时,通常会使用P0.05作为标准,如果该标准被满足,则表明该基因在差异表达基因中具有显著的富集特征,最后以柱状图和圈形图的形式可视化富集分析结果。2.3基于机器学习算法的基因筛选在创建基因筛选模型时,首先使用差异表达分析进行筛选,之后使用机器学习中的3种特征选择算法:RF
16、、SV M-R FE、L A SSO 算法,通过不断训练和调整模型参数进一步完善待筛选基因的范围,从而达到每个模型的最佳状态。2.3.1RF基因筛选RF的核心思想是通过构建多颗决策树,并将它们的预测结果进行集成处理,提高模型的性能,在分类问题上,每颗决策树都有一个分类标记,最后的结果就是每颗决策树的投票结果。在基于RF思想的基因筛选中,由于面对的基因变量较大,本文采用逐步筛选的思想,以通过模型的多次训练,提高筛选结果的精度,进而更精准地找到关键基因。2.3.2SVM-RFE基因筛选第41卷(1)(2)走Guyon等 12 在SVM基础第1期上首次提出改进的SVM-RFE方法,采用一种基于回归特
17、征剔除(RFE)的方法,将一个又一个的基因剔除,结果令人满意,是一种经典的基因选择算法。其核心思想是通过多次迭代,每次送代过程中使用SVM模型对特征排序和选择,其工作流程图如图1所示。本文根据数据的特点,进行十字交叉验证,每次使用2、4、6、8、30 步长的基因进行训练。本文设定最优特征子集的最大容量为30,选出每次实验排序前30 名基因作为筛选集,根据特征出现的次数和排名位置进行加权求和再次排序,最终构成筛选出的关键基因子集。初始特征集合分类器特征权重移除最小权重特征否剩余特征数为1是特征排序号图1SVM-RFE流程图Figure1 SVM-RFEflowchart2.3.3LASSO基因筛
18、选选在本研究中,采用LASSO算法对基因集进行筛选,LASSO的主要优点是能够自动选择对目标变量有预测能力的特征,并将不重要的特征系数压缩为零,降低模型的复杂性,提高通用性,并减少过拟合的风险。其数学公式如下所示:L(P)=之(y-2B,)其中,L()代表损失函数,表示为拟合误差;n代表样本数量;p代表特征数量,本文代表患癌样本;y,表示第i个样本实际观测值;x,表示第i个样本的第j个特征的取值;。表示截距项;,表示第j个特征的系数。在LASSO算法中,正则化项是最关键项,它是由系数的绝对值之和构成,公式如下所示:R()=2/BlP王泽朋,等.基于机器学习的胃癌关键基因筛选及预测模型构建0从而
19、实现特征选择。LASSO的目标是最小化损失函数和正则化项的和,由此可以得出LASSO的计算公式为:0lasso=min,L()+Z/B,l2.4诊断效能分析采用ROC曲线法,曲线下面积(AUC)对候选关键基因进行诊断评估 13。设置AUC值大于0.9的候选基因确定为胃癌早期诊断的关键基因。2.5诊断预测模型构建使用Python机器学习扩展包scikit-learn开发基于极限梯度提升(Xgboost)14)、轻量级梯度提升(LightGBM)15、支持向量机(SVM)16、多层感知器(M L P)17)、逻辑回归(Logistic)【18 、决策树(DecisionTree)19 高斯朴素贝叶
20、斯(GaussianNB)20、自适应提升(Adaboost)2 1 等8 种方法的胃癌早期诊断预测模型。2.6模型验证与评估由于每种分类算法在不同的训练数据集上有不同的训练效果,为了减少每种模型的过拟合问题,采用常用的准确度、精确度、召回率、F1分数、ROC曲线和AUC值等方法来估算指标 2 2 。其中ROC曲线的下限被定义为AUC,作为一个数值,AUC越高代表分类准确率越高。此外,混淆矩阵是评估二元分类模型的另一个常用指标 2 3。3结果3.1胃癌差异表达基因使用Deseq2软件包对TCGA和GTEx联合数据集中的差异表达基因进行批量收益去除和筛选,结果发现了90 8 个DEGs,包括30
21、 1个上调基因和6 0 7 个下调基因,并得到火山图如图2 所示。120-(3)90(oneA-d)0180l-60300(4)图2 胃癌组织与正常组织间DEGs火山图Figure 2 DEGs volcano diagram between gastric cancer and normal tissues-117 其中,R()表示正则化项,入表示正则化参数,它控制了正则化的强度,几越大会导致更多的系数被压缩为(5)-4.00log2(Fold change)4.0118-3.2胃癌差异表达基因GO注释和KEGG分析结果对与胃癌相关的关键基因展开富集分析,筛选出实际概率P0.05的富集途径,
22、其中,GO富集分析结果包括2 96 个条目:生物过程(BiologicalProcess,BP)条目2 2 0 条,分子功能(MolecularFunction,M F)条目53条,细胞组分(CellularComponent,CC)2条目3条。中国医学物理学杂志条目P值按特定顺序排列,3个过程中每个过程的前8条记录被选中并显示在图3中。富集结果显示,BP与细胞外基质的组织、细胞外基质结构的组织和外囊结构的组织、胶原纤维排列等密切相关,提示胃癌的发生多与膜结构联系密切。主要结果见表1。第41卷extracellularmatrixorganizationextracellular struct
23、ureorganization-external encapsulating structure organization-cardiac chamber development-collagenfibril organization-cardiac ventricledevelopment-chondrocyte development-proximal/distal pattern formation-collagen-containing extracellular matrix-complex ofcollagen trimers-endoplasmicreticulumlumen-c
24、ollagen trimerGolgi lumenIgA immunoglobulin complexbloodmicroparticle-fibrillarcollagen trimer-glycosaminoglycan bindingphosphatidylcholine bindingintegrinbinding-growth factoractivityextracellular matrix structural constituent-extracellular matrix structural constituent conferring tensile strength-
25、heparin bindingquaternary ammonium group binding-图3GO疾病分析柱状图Figure3Histogram of GO disease analysispvalue0.00580.01001.02.0Count3.04.05.0表1GO功能富集分析部分结果Table 1 Partial results of GO functional enrichment analysis类别BPGO:0030198GO:0043062GO:0045229CCGO:0062023GO:0098644GO:0005788MFGO:0005539GO:0031210G
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 胃癌 关键 基因 筛选 预测 模型 构建
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。