分销赏收藏举报申诉 / 10

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于机器学习的胃癌关键基因筛选及预测模型构建.pdf

基于机器学习的胃癌关键基因筛选及预测模型构建.pdf

上传人：自信****多点

文档编号：2414673

上传时间：2024-05-29

格式：PDF

页数：10

大小：5.11MB

《基于机器学习的胃癌关键基因筛选及预测模型构建.pdf》由会员分享，可在线阅读，更多相关《基于机器学习的胃癌关键基因筛选及预测模型构建.pdf（10页珍藏版）》请在咨信网上搜索。

1、第41卷第1期2024年1月D01:10.3969/j.issn.1005-202X.2024.01.017基于机器学习的胃癌关键基因筛选及预测模型构建中国医学物理学杂志Chinese Journal of Medical PhysicsVol.41 No.1January 2024医学生物信息-115王泽朋，李坤鹏，周玉，李四海甘肃中医药大学信息工程学院，甘肃兰州7 30 10 0【摘要】目的：为了验证与胃癌相关的遗传特征，提出一种混合式特征选择方法确定靶基因，进一步分析其意义并建立新的诊断预测模型。方法：对原始胃癌数据进行生物信息学方差分析，使用随机森林、支持向量机的递归特征消除、套索算法

2、等机器学习方法筛选胃癌相关基因，对结果取交集，获得关键基因集。进行富集分析，确定关键基因并验证；依据关键基因构建基于多层感知器（MLP）逻辑回归、决策树等8 种机器学习分类算法的诊断预测模型。结果：混合式的特征选择方法筛选出的关键基因与肿瘤发生和发展的生物学过程密切相关；8 个关键基因（TXNDC5、BM P8 A、O NEC U T 2、COL1OA1、JC H A I N、I NH BA、L C T L 和TRIM59）被确定为诊断效果较好的胃癌潜在标志物；根据8 种分类模型的ROC曲线和准确率结果可知，MLP为最佳胃癌预测模型，其准确率高达97.7 7%，比他人构建的Xgboost胃癌预

3、测模型准确率高出3.8 3%。结论：本研究获得了诊断和预防胃癌的8 个关键基因，并建立了最佳预后模型。【关键词】胃癌；基因筛选；关键基因；生物信息学；机器学习【中图分类号】R318;R735.2Key gene screening and prediction model construction of gastric cancer based on machine learning【文献标志码】A【文章编号】10 0 5-2 0 2 X2024)01-0115-10WANG Zepeng,LI Kunpeng,ZHOU Yu,LI SihaiSchool of Information Eng

4、ineering,Gansu University of Chinese Medicine,Lanzhou 730100,ChinaAbstract:Objective To verify the genetic characteristics associated with gastric cancer,and to propose a hybrid featureselection method for identifying target genes,further analyzing their significance and establishing a new diagnosti

5、cprediction model.Methods Analysis of variance in bioinformatics was performed on the original gastric cancer data,and thenmachine learning methods such as random forest,recursive feature elimination of support vector machine,and LASSOalgorithm were used to screen gastric cancer associated genes,and

6、 the intersection of results was taken as the key gene set.The key genes were identified and verified through enrichment analysis.The diagnosis and prediction models based on 8kindsofmachinelearning classification algorithms such as multi-layer perceptron,logistic regression and decision tree,wereco

7、nstructed using the key genes.Results The key genes selected by the hybrid feature selection method were closely relatedto the tumorigenesis and development.Eight key genes(TXNDC5,BMP8A,ONECUT2,COL10A1,JCHAIN,INHBA,LCTL and TRIM59)were identified as potential markers of good diagnostic efficacy in g

8、astric cancer.The ROC curve andaccuracy results demonstrated that among the 8 classification models,MLP is the best gastric cancer prediction model,withan accuracy of 97.77%,which was 3.83%higher than that of Xgboost gastric cancer prediction model.Conclusion The studyidentifies 8 key genes for the

9、diagnosis and prevention of gastric cancer,and establishes the optimal prognosis model.Keywords:gastric cancer;gene screening;key gene;bioinformatics;machine learning前言胃癌是一种严重危害人类健康的恶性肿瘤,其病死率在世界各地都很高。引起胃癌的主要原因有【收稿日期】2 0 2 3-10-12【基金项目】甘肃省科技计划项目（2 1JR1RA272）；甘肃省教育厅高校教师创新基金项目（2 0 2 3B-105）【作者简介】王泽朋，硕士

10、,研究方向：生物信息学、机器学习,E-mail:【通信作者】李四海，副教授，研究方向：数据挖掘、机器学习、光谱分析,E-mail:以下几点：幽门螺旋杆菌、饮食习惯不规律及烟酒的过度摄入。由于早期发病症状不明显,难以引起人们的重视，使得很多患者错过最佳的治疗时机。因此，如何实现胃癌早期预测诊断,成为攻克现代胃癌的重要难关。近年来国内外学者在分子基因层面对癌症-116-基因筛选做了大量研究，其中靶向治疗工程最为引人注目，利用基因检测手段对胃癌进行诊断，随后再基于诊断出的致病基因进行靶向治疗 2 。因此,关键基因的筛选检测对于胃癌早期诊断、预后分析及靶向治疗具有重要意义。在癌症基因筛选问题上，国内外

11、科学家主要分为两个方向，一个是利用生物信息学研究方法，另一个是在基因筛选过程中加入机器学习模型。赵博璇等 3 对胃癌基因表达进行详细的研究,并通过芯片分析建立胃癌早期预测和分类模型，模型准确率为96.7%，为建立胃癌诊断和预后预测模型提供思路和启示。在基因筛选应用问题上,刘辉等 4应用癌症基因组图谱（TCGA）胃癌数据构建基于加权基因共表达网络和套索算法（LASSO）预测模型，并找到靶基因HKR1,侧面验证了机器学习对于基因筛选结果的重要性和准确性。本文为了进一步提高基因筛选的准确性，主要通过在基因筛选过程中加人最先进的机器学习方法，将随机森林（RF）、支持向量机特征递归消除（SVM-RFE）

12、和LASSO与生物信息学相结合，建立一种混合型的新算法 5。在建立预测模型的问题上，主要运用了以极限梯度提升、轻量级梯度提升、支持向量机、多层感知器等8 种机器学习分类算法为基础，和其他研究构建的分类模型进行比较，本文算法效果更好，为胃癌早期预防提供有力的科学依据，也为病理生理过程的分子机制提供新的见解。数据来源与预处理1.1数据来源本文使用的数据来自公开的TCGA和基因型-组织表达(GTEx)7数据库。首先下载TCGA数据库中446 例胃癌标本数据，从GTEx数据库网站下载359个正常组织样本，以弥补TCGA数据库中正常组织样本数量较少的不足,并与TCGA表达矩阵数据合并，为建立分类模型增加

13、样本平衡，提高模型的说服力。1.2数据预处理合并TCGA和GTEx的基因表达数据,对数据进行预处理。再利用R语言对基因表达数据进行分类，判定0 1A为胃癌组织样本,11A为正常组织样本。合并后的数据集包含8 0 5个组织样本，其中胃癌组织样本有410 个，正常组织样本有395个。2方法2.1差异表达分析由于TCGA与GTEx两种基因序列来自于不同的测序平台，因此两种基因序列之间可能会有批次中国医学物理学杂志间的差异,因此应先进行批次效应处理 8 。利用R语言中的Deseq2软件包实现对数据的批次效益去除和差异表达基因的筛选 9。差异分析设置11ogFC2,P0.05为差异有统计学意义，筛选出的

14、胃癌相关的差异基因通过火山图可视化展出。具体原理如下：将数据进行log2转换，得到-1,1 作为阈值，识别差异基因，具体计算公式为：XrumorFlod change=:二Xnormal2.2富集分析富集分析也叫通路分析，是分析基因信息中常用的方法之一。基因本体论(Gene Oncology,GO)101分析和京都基因与基因组百科全书（KyotoEncyclopedia of Genes and Genomes,KEGG)l 的通路分析是目前最常用的两种富集分析方法。其中，GO分析分为3部分：分子功能（MF）、细胞组分(CC）、生物学过程(BP);KEGG通路包含基因组、化学以及系统的功能信息

15、。对于关键基因集，常用DO疾病富集分析，用来分析关键基因集富集的具体疾病通路。本研究中,利用R语言中的clusterProfiler软件包来实现差异基因的DO疾病分析、GO分析和KEGG通路分析，通过富集显著性（P-value)的超几何检验来衡量判定富集结果是否显著，计算公式如下：-MP-1-2n-ii-0当评估基因富集的程度时,通常会使用P0.05作为标准，如果该标准被满足，则表明该基因在差异表达基因中具有显著的富集特征，最后以柱状图和圈形图的形式可视化富集分析结果。2.3基于机器学习算法的基因筛选在创建基因筛选模型时，首先使用差异表达分析进行筛选，之后使用机器学习中的3种特征选择算法：RF

16、、SV M-R FE、L A SSO 算法，通过不断训练和调整模型参数进一步完善待筛选基因的范围，从而达到每个模型的最佳状态。2.3.1RF基因筛选RF的核心思想是通过构建多颗决策树，并将它们的预测结果进行集成处理，提高模型的性能，在分类问题上，每颗决策树都有一个分类标记，最后的结果就是每颗决策树的投票结果。在基于RF思想的基因筛选中,由于面对的基因变量较大，本文采用逐步筛选的思想，以通过模型的多次训练，提高筛选结果的精度，进而更精准地找到关键基因。2.3.2SVM-RFE基因筛选第41卷(1)(2)走Guyon等 12 在SVM基础第1期上首次提出改进的SVM-RFE方法，采用一种基于回归特

17、征剔除(RFE)的方法,将一个又一个的基因剔除，结果令人满意，是一种经典的基因选择算法。其核心思想是通过多次迭代，每次送代过程中使用SVM模型对特征排序和选择，其工作流程图如图1所示。本文根据数据的特点，进行十字交叉验证，每次使用2、4、6、8、30 步长的基因进行训练。本文设定最优特征子集的最大容量为30，选出每次实验排序前30 名基因作为筛选集，根据特征出现的次数和排名位置进行加权求和再次排序，最终构成筛选出的关键基因子集。初始特征集合分类器特征权重移除最小权重特征否剩余特征数为1是特征排序号图1SVM-RFE流程图Figure1 SVM-RFEflowchart2.3.3LASSO基因筛

18、选选在本研究中，采用LASSO算法对基因集进行筛选，LASSO的主要优点是能够自动选择对目标变量有预测能力的特征,并将不重要的特征系数压缩为零，降低模型的复杂性，提高通用性，并减少过拟合的风险。其数学公式如下所示：L(P)=之(y-2B,)其中,L()代表损失函数,表示为拟合误差;n代表样本数量;p代表特征数量，本文代表患癌样本;y,表示第i个样本实际观测值；x,表示第i个样本的第j个特征的取值;。表示截距项；,表示第j个特征的系数。在LASSO算法中,正则化项是最关键项,它是由系数的绝对值之和构成，公式如下所示：R()=2/BlP王泽朋，等.基于机器学习的胃癌关键基因筛选及预测模型构建0从而

19、实现特征选择。LASSO的目标是最小化损失函数和正则化项的和,由此可以得出LASSO的计算公式为：0lasso=min,L()+Z/B,l2.4诊断效能分析采用ROC曲线法，曲线下面积(AUC)对候选关键基因进行诊断评估 13。设置AUC值大于0.9的候选基因确定为胃癌早期诊断的关键基因。2.5诊断预测模型构建使用Python机器学习扩展包scikit-learn开发基于极限梯度提升（Xgboost)14)、轻量级梯度提升(LightGBM)15、支持向量机（SVM)16、多层感知器（M L P）17)、逻辑回归（Logistic）【18 、决策树(DecisionTree)19 高斯朴素贝叶

20、斯(GaussianNB)20、自适应提升（Adaboost）2 1 等8 种方法的胃癌早期诊断预测模型。2.6模型验证与评估由于每种分类算法在不同的训练数据集上有不同的训练效果，为了减少每种模型的过拟合问题,采用常用的准确度、精确度、召回率、F1分数、ROC曲线和AUC值等方法来估算指标 2 2 。其中ROC曲线的下限被定义为AUC，作为一个数值，AUC越高代表分类准确率越高。此外，混淆矩阵是评估二元分类模型的另一个常用指标 2 3。3结果3.1胃癌差异表达基因使用Deseq2软件包对TCGA和GTEx联合数据集中的差异表达基因进行批量收益去除和筛选，结果发现了90 8 个DEGs，包括30

21、 1个上调基因和6 0 7 个下调基因，并得到火山图如图2 所示。120-(3)90(oneA-d)0180l-60300(4)图2 胃癌组织与正常组织间DEGs火山图Figure 2 DEGs volcano diagram between gastric cancer and normal tissues-117 其中,R（)表示正则化项，入表示正则化参数，它控制了正则化的强度，几越大会导致更多的系数被压缩为(5)-4.00log2(Fold change)4.0118-3.2胃癌差异表达基因GO注释和KEGG分析结果对与胃癌相关的关键基因展开富集分析,筛选出实际概率P0.05的富集途径，

22、其中，GO富集分析结果包括2 96 个条目：生物过程(BiologicalProcess,BP）条目2 2 0 条，分子功能（MolecularFunction，M F）条目53条，细胞组分(CellularComponent,CC)2条目3条。中国医学物理学杂志条目P值按特定顺序排列,3个过程中每个过程的前8条记录被选中并显示在图3中。富集结果显示，BP与细胞外基质的组织、细胞外基质结构的组织和外囊结构的组织、胶原纤维排列等密切相关，提示胃癌的发生多与膜结构联系密切。主要结果见表1。第41卷extracellularmatrixorganizationextracellular struct

23、ureorganization-external encapsulating structure organization-cardiac chamber development-collagenfibril organization-cardiac ventricledevelopment-chondrocyte development-proximal/distal pattern formation-collagen-containing extracellular matrix-complex ofcollagen trimers-endoplasmicreticulumlumen-c

24、ollagen trimerGolgi lumenIgA immunoglobulin complexbloodmicroparticle-fibrillarcollagen trimer-glycosaminoglycan bindingphosphatidylcholine bindingintegrinbinding-growth factoractivityextracellular matrix structural constituent-extracellular matrix structural constituent conferring tensile strength-

25、heparin bindingquaternary ammonium group binding-图3GO疾病分析柱状图Figure3Histogram of GO disease analysispvalue0.00580.01001.02.0Count3.04.05.0表1GO功能富集分析部分结果Table 1 Partial results of GO functional enrichment analysis类别BPGO:0030198GO:0043062GO:0045229CCGO:0062023GO:0098644GO:0005788MFGO:0005539GO:0031210G

26、O:0005178编号描述extracellularmatrixorganizationextracellular structureorganizationexternal encapsulating structure organizationcollagen-containing extracellularmatrixcomplexofcollagen trimersendoplasmicreticulum lumenglycosaminoglycan bindingphosphatidylcholine bindingintegrin bindingP值4.3210-54.3210-5

27、4.3210-51.2910-43.0010-45.2910-42.1610-46.9610-49.7110-4调整后的P值数量9.7110-359.7110-359.7110-358.7810-351.0210-221.2010-241.7910-241.7910-221.7910-23KEGG途径结果包含2 1个条目，关键基因主要在蛋白质消化与吸收、细胞外基质与受体分子之间的相互作用、氨基酸的生物合成、癌症中的蛋白聚糖、胃酸分泌等方面富集明显。通过Benjamini-Hochberg校正后减少错误发现率，将P值按升序排列，以圈形图的方式展示前2 1个通路(图4)。表2 展示部分通路包含的基

28、因数量等条目结果。3.3基因特征选择得到基因标志物在差异分析的基础上,使用RF、SV M-R FE和LASSO算法重新研究了90 8 个与胃癌相关的差异基因。RF通过生成决策树的数量筛选,本文选择ntree=1000,最终提取前2 5个特征基因作为目标结果；SVM-RFE通过第1期王泽朋,等.基于机器学习的胃癌关键基因筛选及预测模型构建LEFTY1BAATCOL11A1GAD1WNT2COMPINHBACOL3A1BMP8AFANCD20SONECUT2THBS4PGA4Clorf112LUMALDOBHSPG2THBS1GAPDHATP1A1119COL10A1SRSF5ALDOAKEGG

29、pathwayProtein digestion and absorptionTaurine and hypotaurine metabolismProximal tubulebicarbonate reclamationPentose phosphate pathwayPhagosomeACE-RAGE signaling pathway in diabetic complicationslogFC福-6NIVHOIECM-receptor interactionMalariaGlycolysis/GluconeogencsisFocal adhesionBile secretion图4KE

30、GG富集分析的圈图Figure 4 Circle diagram of KEGG enrichment analysis6Biosynthesisofamino acidsProteoglycans incancerNitrogenmetabolismTCF-beta signaling pathwayCollecking duct acid secretionGastric acid secretionAntigen proeessing and presentationFatdigestionandabsorptionFructoseandmannose metabolismAlanine

31、,aspartate and glutamate metabolism表2 KEGG通路富集分析部分结果Table 2 Partial results of enrichment analysis of KEGG pathway编号hsa04974hsa04512hsa01230hsa05205hsa00430hsa04971hsa04510描述Protein digestion and absorptionECM-receptor interactionBiosynthesis of amino acidsProteoglycans in cancerTaurine and hypotaur

32、ine metabolismGastricacidsecretionFocal adhesionP值1.9610-48.1210-43.35x10-36.8010-37.5110-32.4810-22.6010-2调整后的P值数量3.0010-266.2210-251.7110-141.8510-191.8510-122.7010-162.7010-15十折交叉检验后，保存前30 个特征基因结果；LASSO选择lambda.min参数后得到30 个特征基因。将三者两两取交集得到：RF和LASSO取交集而没有SVM-RFE时有4个最佳标志基因：INHBA、C O L 10 A 1、ONECUT2

33、、JCH A I N;R F和SVM-RFE取交集而没有LASSO时有8 个最佳标志基因：LCTL、T R I M 59、MYZAP、SR SF5、FA NC D 2 O S、C 1o r f 112、FX Y D 1、GSTM2;RF和LASSO和SVM-RFE同时取交集得到2个共同基因：TXNDC5、BM P8 A，见图5。RF前2 0个特征重要性见图6。LASSO筛选见图7。SVM-RFE筛选的前2 0 个特征重要性见图8。3.4标志物的验证对筛选出来的特征基因进行DO疾病功能分析，发现基因主要富集在胃癌、胃腺癌、屈光不正、退行性椎间盘病变等疾病,见图9。ROC曲线表明，TXNDC5的A

34、UC值为0.95,BMP8A的AUC值为0.92;ONECUT2、CO L 10 A 1、JCH A I N和INHBA在数据集AUC值分别为0.95、0.90、0.91、0.92;LCTL、TRIM59、M Y Z A P、SR SF5、FA NCD 2 O S、C1o r f 112、FXYD1和GSTM2在数据集AUC值分别为0.91、-120-TXNDC5BMP8ALCTLINHBATRIM59ESM1PTGDR2MYZAPSRSF5ONECUT2COL10A1FANCD2OSC1orf112KAT2BFXYD1GID4ACANGCNT4GSTM2JCHAIN图6 RF算法筛选的前2

35、0 个基因的特征重要性图Figure 6 Feature importance of the top 20 genes screened by RFalgorithm302826252422222018161513121185421.4-1.2-1.00.80.40.20.0-Figure7Feature genes screened by LASSO algorithm中国医学物理学杂志RF0.92、0.8 0、0.8 4、0.8 5、0.8 6、0.8 9、0.8 5,结果见图10。当AUC值在0.9以上时，提取出的基因显示出较高的11诊断价值，故最终关键基因集为TXNDC5、BM P8

36、A、ONECUT2、C O L 10 A 1、JC H A I N、I NH BA、L C T L、482240LASSO图5重叠基因韦恩图Figure 5 Wayne diagram of overlapping genesVariable ImportanceO4.05.01og=-5.437n=30-5.0-4.0图7 LASSO算法筛选的特征基因第41卷TRIM59。3.5胃癌诊断预测模型的构建利用筛选出的8 个胃癌早期关键基因构建胃癌20的早期诊断预测模型,其步骤如下：（1)提取出8 个关键基因在联合数据集中的表达值从而形成新的表达SVM-RFE矩阵；（2）从TCGA和GTEx联合数

37、据集中，410 个早期胃癌组织样本和395个正常组织样本被随机分成训练集，前5轮训练集由7 2 4个样本组成，后5轮训练集包含7 2 5个样本，前5轮测试集中包含8 1个样本，后5轮测试集中包含8 0 个样本。采取十折交叉验证法构建基于Xgboost、LightGBM、SV M、M L P、L o g i s t i c、D e c i s i o n T r e e、GaussionNB、A d a b o o s t 8 种算法的诊断预测模型。在测试集中8 种分类方法表现效果优秀，各指标均高于0.9,见表3。根据图11可知，各模型具有较高的AUC值。在含有8 1个样本的独立测试集中进行模型

38、效能验证。8 种分类模型算法中,MLP模型表现较为优异，准确率高达97.7 7%。本文采用的MLP分类模型相比于文献 3 构建的Xgboost模型准确度提高3.83%（文献 3 预测模型的结果如表4所示)。结果表明,基于MLP构建的胃癌诊断预测模型性能较好，6.07.0.8.09.010.011.0均方误差百分比-3.0-2.0Log(2)鲁棒性较强。4讨论近年来，许多研究表明，分子标记物在疾病的诊断、预后和靶向治疗中发挥着重要作用。随着诊断和治疗水平的不断进步，胃癌的病因和治疗因素不断被发现，但胃癌的具体病因仍不清楚，尤其是幽门螺杆菌感染、不良饮食习惯、不卫生的环境和吸烟等常见危险因素 2

39、4。此外,误诊误治和转移也是导致胃癌死亡的主要原因。本研究使用生物信息学方法初步筛选了胃癌基因表达数据的差异基因,结果显示,共有90 8 个差异基因,其中包括30 1个上调基因，607个下调基因，并绘制了火山图，以供差异基因的可视化；在差异分析的基础上，采用机器学习中的特征选择方法，利用3种特征选择方法（RF、L A SSO、SVM-RFE)分别进行筛选，最后两两取交集，确定关-1.0键基因集,并对关键基因集做富集分析,GO富集结果发现在生物过程中其与胞外基质组织、细胞外结构组织、外部包膜结构组织、胶原纤维排列等密切相第1期Hub Genes王泽朋，等.基于机器学习的胃癌关键基因筛选及预测模型

40、构建1210.75-GeneADHFE1BMP8AC1orf112CENPPFANCD2OSFXYDT0.50GABARAPCSTM2LCTLMYZAPNDUFV2POMKPSMA2RPL36ASLC5A10SNRPNSRSFSTICAM2TRIM590.25TXNDC5Gene图8 SVM-RFE算法筛选的特征基因重要性图0.00BMP8ALCTLTXNDC5TRIM59FANCD20S SRSF5MYZAP CENPPFXYD1NDUFV2GABARAPSNRPNPOMKADHEF1GSTM2 TICAM2C1orf112PSMA2RPL36A SLC5A10Figure 8 Import

41、ance of feature genes screened by SVM-RFE algorithmstomach cancer-refractiveerror-gastricadenocarcinoma-osteochondrodysplasiacolitis-stomachcarcinoma-bone development disease-degenerative disc disease-bone deterioration disease-strabismushyperopiabone structure disease-gingival diseaseocularmotility

42、 diseasecleft palate-orofacial cleft-Kawasakidisease-lymphadenitislymph node diseasemeningiomaFigure 9 Bubble diagram of DO disease analysis关，KEGG通路分析表明，在蛋白质消化和吸收、受体分子与细胞外基质的相互作用以及癌症中的蛋白多糖等方面都有明显的富集。在疾病富集分析中主要富集在胃癌疾病问题上。基于基因表达数据,对14个候选关键基因（TXNDC5、BM P8 A、O NECU T 2、COL10A1、JC H A I N、I NH BA、L C T L

43、、T R I M 59、MYZAP、SR SF5、FA NC D 2 O S、C 1o r f112、FX Y D 1、GSTM2)进行诊断效能分析，通过AUC值大于0.9进行判断选取最终的关键基因,最终发现TXNDC5、Count234P值0.01000.00750.00500.00250.100.15GeneRatio图9DO疾病分析气泡图BMP8A、O NEC U T 2、C O L 10 A 1、JC H A I N、I NH BA、LCTL、T R I M 59为胃癌最佳关键基因。张林等 2 5 通过Co-IP方法证实TXNDC5在胃癌细胞和组织中的高表达，证明其在胃癌发生过程中有着

44、促进作用。在对胃癌的模型研究中，李相辉等 2 6 通过胃癌种植瘤裸鼠模型治疗实验显示，0.20TXNDC5 siRNA靶向纳米微粒在体内条件下对胃癌治疗作用较为显著,表明TXNDC5可能会成为治疗胃癌的重要靶点。BMP8A在肿瘤的产生过程中起到促进作用,在甲状腺乳头状癌研究中，曾学宇等 2 7 发现BMP8A在甲状腺乳头状癌病理发生过程中高表达，但其分子功能机制在胃癌的产生过程中还尚未研究清楚,有待成为未来的重要研究靶点之一。为了探究基因ONECUT2在人胃癌中的表达意义，丁鹏等 2 8 利用生物信息学方法探究ONECUT2的蛋白相互作用，最终发现在胃癌组织中现高表达,并与胃癌的产生有着重要的

45、关系。在胃癌预后研究问题上，1221.00.80.40.20.00.00.20.4.0.6.0.81.01-特异性a:基因TXNDC5的ROC曲线1.00.80.650.40.20.00.00.20.4.0.60.81.01-特异性e:基因JCHAIN的ROC曲线1.00.80.60.40.20.00.00.20.40.6,0.81.01-特异性i:基因MYZAP的ROC曲线1.00.80.4020.0+0.00.2 0.4.0.6.0.81.01-特异性m：基因FXYD1的ROC曲线中国医学物理学杂志1.01.00.80.80.60.2Roc curve(AUC-0.0)0.00.00.20

46、.40.60.81.01-特异性b：基因BMP8A的ROC曲线1.00.80.650.40.2Roc curve(AUC=0.91)0.00.00.20.4.0.60.81.01-特异性f:基因TRIM59的ROC曲线1.00.80.60.2-Roc curve(AUC-0.80)0.00.00.20.40.60.81.01-特异性j:基因SRSF5的ROC曲线1.00.80.2Roc.curve(AUc-0.89)0.00.00.20.4,0.60.81.01-特异性n：基因GSTM2的ROC曲线第41卷1.00.80.60.20.2Roc curve(AUC-0.92)Roccurve(A

47、UC-0.95)0.0+0.00.20.40.60.81.01-特异性:基因ONECUT2的ROC曲线1.00.80.60.2Roc curve(AUC=0.92)0.0+0.00.20.4.0.60.81.01-特异性g:基因LCTL的ROC曲线1.00.80.60.40.21Roccurve(AUC-0.84)0.00.00.20.40.6.0.81.01-特异性k：基因FANCD2OS的ROC曲线图10 关键基因集的ROC曲线图Figure 10 ROC curves of key gene setsRoc.curve(AUC=0.85)0.00.00.20.40.60.81.01-特异

48、性d:基因COL10A1的ROC曲线1.00.80.650.4+0.2Roc curvc(AUc-0.91)0.0+0.00.20.4.0.60.81.01-特异性h：基因INHBA的ROC曲线1.0-0.80.40.2Roccurve(AUc-0.85)0.00.00.20.40.60.81.01-特异性1:基因C1orf112的ROC曲线Roccurve(AUC-0.90)Roc curve(AUC=0.92)Roccurve(AUC-0.86)表38 种模型在独立测试集上的评价指标Table 3 Evaluation indicators of 8 models on independe

49、nt test set模型MLPLightGBMSVMXgboostLogisticGaussionNBAdaboostDecisionTree牛刚等 2 9 发现COL10A1血清与胃癌复发转移及患者预后有关。在胃癌分类模型问题上,Pan等 30 通过构建免疫细胞浸润程度对胃癌患者进行分类的评估模型，利用Cox和LASSO回归分析确定关键基因1.00.8准确度精确度召回率F1分数0.97770.978 40.97510.97560.972.70.97460.96650.96710.95780.95920.95520.95750.94910.94980.94910.94990.60.97750

50、.97760.97510.97510.97220.97260.96640.96640.95760.95770.95490.95510.94900.94900.94900.94900.40.20.00.0Figure l1 ROC curves on the training setJCHAIN,结果表明在胃癌肿瘤组织中表达低水平JCHAIN的患者表现出更好的预后。基于生物信息学方法，张亮等 31 发现INHBA在胃癌中显著高表达，并与胃癌的临床分期和T期密切相关,INHBA高表达的患者预后较差。LCTL也称为“乳糖酶样蛋白”Xgboost MeanROC(area=96.64)lightGBM

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于机器学习胃癌关键基因筛选预测模型构建

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。