基于人工神经网络技术联合表观基因组学在肝癌诊断中的应用.pdf
《基于人工神经网络技术联合表观基因组学在肝癌诊断中的应用.pdf》由会员分享,可在线阅读,更多相关《基于人工神经网络技术联合表观基因组学在肝癌诊断中的应用.pdf(5页珍藏版)》请在咨信网上搜索。
1、第 43 卷 第 6 期2023 年 06 月Vol.43 NO.6JUN.2023赣南医学院学报JOURNAL OF GANNAN MEDICAL UNIVERSITY投稿网址:http:/基于人工神经网络技术联合表观基因组学在肝癌诊断中的应用黄晋1,邹怡婷2,王建忠3(1.赣南医学院第一临床医学院,江西赣州341000;2.江西工业工程职业技术学院,江西萍乡337000;3.赣南医学院第一附属医院普通外科,江西赣州341000)摘 要:目的:通过构建人工神经网络联合表观基因组学对肝癌组织及正常组织进行分类,为肝癌的诊断提供研究方向。方法:从TCGA数据库下载包含379例肝癌样本及50例正常
2、肝组织样本的DNA甲基化数据集,筛选出差异高甲基化的、位于启动子区的、与对应基因呈负相关的CpG位点并使用Logistic回归分析筛选出与肝癌有关的4个CpG位点,将筛选出的位点使用人工神经网络技术对肝癌组织样本及正常肝组织样本进行分类。计算人工神经网络模型对样本判别的准确性、敏感度、特异度。结果:人工神经网络模型对样本判别的准确性为94.7%、敏感度为96.8%、特异度为92.7%。结论:人工神经网络模型可以很好地区分肝癌组织与正常组织,对肝癌诊断具有较高的价值。关键词:肝细胞癌;人工神经网络;分类中图分类号:R735.7;R446 文献标志码:A 文章编号:1001-5779(2023)0
3、6-0565-05 DOI:10.3969/j.issn.1001-5779.2023.06.003Application of artificial neural network and epigenomics in the diagnosis of hepatocellular carcinomaHUANG Jin1,ZOU Yi-ting2,WANG Jian-zhong3(1.The First Clinical Medical School of Gannan Medical University,Ganzhou,Jiangxi 341000;2.Jiangxi Vocational
4、 College of Industry&Engineering,Pingxiang,Jiangxi 337000;3.Department of General Surgery,The First Affiliated Hospital of Gannan Medical University,Ganzhou,Jiangxi 341000)Abstract :Objective :To use the construction of artificial neural networks combined with epigenomics to classify liver cancer ti
5、ssues and normal tissues to provide research directions for the diagnosis of liver cancer.Methods :The DNA methylation data of 379 HCC samples and 50 samples of regular liver tissues from the cancer genome atlas(TCGA)database was downloaded.The CpG sites that were located within the promoter region,
6、with high differences in methylation and negatively correlated with their corresponding genes were selected.Logistic regression analysis was used to filter out the 4 CpG sites related to hepatocellular carcinoma.The hepatocellular carcinoma samples and regular liver samples were classified with arti
7、ficial neural network.The accuracy,sensitivity,and specificity of artificial neural network models for sample discrimination were calculated.Results :The artificial neuron network models prediction accuracy was 94.7%,the sensitivity was 96.8%and the specificity was 92.7%.Conclusion :The artificial n
8、eural network models could classify hepatocellular carcinoma tissue and normal tissue.It is valuable to the diagnosis of hepatocellular carcinoma.Key words :Hepatocellular carcinoma;Artificial neural network;Classification肝细胞癌(Hepatocellular carcinoma,HCC)是世界上最常见、最致命的侵袭性肿瘤之一,其发病率在所有癌症中排名第4,是癌症中导致死亡的
9、第2大原因1,肝细胞癌的年发病率是2.62。在中国,每年肝癌新发病例约占全世界肝癌新发病例的50%3。目前,HCC的发病率呈持续上升趋势,预计到2025年新发肝癌病例将超过100万例3-4。血源性乙型肝炎(Hepatitis B virus,HBV)、丙型肝炎(Hepatitis C virus,HCV)病毒的慢性感染是导致HCC发生的主要原因5。由于大部分 HCC患者早作者简介:黄晋,男,2020级硕士研究生,研究方向:外科学。E-mail:通信作者:王建忠,男,教授,博士在读,硕士生导师,研究方向:普通外科。E-mail: 5652023 年赣 南 医 学 院 学 报投稿网址:http:/
10、期并无特异性临床表现,确诊时已到达晚期而得不到早期治疗,导致 HCC的死亡率上升6,尽管对于HCC诊断和治疗有所进步,但HCC的总体预后仍然很差,估计5年生存率仅为127。及早识别早期HCC患者并进行早期干预可获得良好的治疗效果,如对早期 HCC 患者进行射频消融(Radiofrequency ablation,RFA)可获得高达 68的 5年生存率8,因此,开发用于识别诊断HCC的分子标志物尤为重要。在许多国家,血清甲胎蛋白(Alpha-fetoprotein,AFP)对HCC的监测广泛用于临床中9,血清中AFP水平为500 ng mL-1被认为具有诊断意义,AFP在早期HCC的筛查、诊断及
11、治疗反应评估中具有重要意义。随着生物技术的发展,越来越多的生物标志物得以发现,其中甲胎蛋白 L3(Alpha-fetoprotein L3,AFP-L3)和Des-脱羧凝血酶原(Des-carboxyprothrombin,DCP)在临床中可作为AFP的补充,两者对小HCC的诊断筛查都优于AFP 10。近些年,已有许多血清HCC生物标志物用于临床研究中,如Glypican-3、Golgi蛋白 73(GP73)和骨桥蛋白11,但这些标志物都因缺乏一定的敏感性与特异性而受到限制。DNA甲基化的改变是人类癌症中最一致的表观遗传改变之一,肿瘤抑制基因启动子区的超甲基化可导致表观遗传沉默而促进癌症的发生
12、发展12,ESTELLER M等13总结了基因甲基化与各种癌症的关系,在肠道肿瘤中可观察到APC和hMLH1的甲基化,在头、颈和肺肿瘤中以DAPK、MGMT甲基化为特征,而BRCA1、GSTP1在乳腺癌、前列腺癌中出现甲基化。且研究发现表观遗传学的改变特别是DNA 的甲基化在 HCC 的发生和发展中起关键作用14,COX-2、p16、RassF1A和TIMP-3的甲基化与肝癌的发生高度相关15,并且这些表观遗传学变化发生在肝癌的早期16。随着新一代测序技术的发展,甲基化阵列芯片已用于癌症CpG位点的甲基化分析,并基于此开发的模型可用于对癌症诊断、预后及治疗结果的评估。7个CpG位点的预后模型已
13、在口腔鳞状细胞癌(Oral squamous cell carcinoma,OSCC)中得到应用17,一种8个CpG甲基化位点的模型可用于术前区分大肠癌的早期和晚期18,CpG位点与RNA转录本结合的模型可用于对早期与晚期肝癌进行分类19。异常的甲基化可发生在肝癌癌变的早期,因此对癌症早期检测并及时干预对肝癌患者预后至关重要。人工神经网络(Artificialneuralnet work,ANN)指的是一种结构类似于“神经元”的算法20,由输入层、隐藏层和输出层构成。其通过模拟人脑及生物的神经系统对信息进行学习,从而使机器获得强大的处理复杂数据尤其是非线性数据的能力21。目前神经网络已广泛用于
14、商业、数据挖掘、药物发现和生物学等领域,在医学领域中,神经网络也已成功应用于疾病检测22。本研究使用TCGA数据库的甲基化芯片阵列数据集,确定肝癌组织与正常组织的差异高甲基化位点,筛选出与对应基因呈负相关的CpG位点并构建Logistic回归模型确定用于诊断肝癌的CpG位点。最后,使用GEO数据库的甲基化数据信息验证模型分类的准确性。1 数据与方法 1.1数据准备 从癌症基因图谱(TCGA)数据门户网站(https:/gdc-portal.nci.nih.gov/)下载377例HCC患者基于Illumina HumanMethylation450 BeadChip的3级DNA甲基化阵列信息、基
15、因表达数据及相应临床数据信息,将其作为训练集,从GEO下载了包含66对癌和癌旁组织的系列号为GSE54503的DNA甲基化阵列信息(Illumina HumanMethylation450 Beadchip检测)及相应的临床数据信息,作为验证集。CpG位点信息的注释使用 GEOGPL13534 的 Illumina 官方注释文件。1.2数据预处理 R语言(version 4.0.3)导入各数据集的甲基化阵列数据、基因表达数据、临床数据信息,使用impute包对甲基化数据的缺失值进行补充,Champ包对甲基化数据进行过滤(过滤掉位于X和Y染色体上的所有探针),低质量的探针将会被删除。为了保证数据
16、的完整性,不对数据进行归一化处理。使用limma包对基因表达数据log2对数转换。1.3筛选用于诊断的差异甲基化 CpG 位点 在TCGA的HCC数据集中将377例患者的379份癌组织样本和50份癌旁组织样本用于探索差异甲基化位点。肿瘤样本与正常样本甲基化水平差异计算为tumor-normal,studentt检验比较两组差异水平,差值的绝对值0.4(|tumor-normal|)且P0.001的差异甲基化位点(DEP)被认为是有意义的,由于基因的高甲基化被认为与不适当的转录沉默有关23,因此,将0.4且P0.05的差异高甲基化位点用于下一步研究。进一步探索得到的差异高甲基化位点,将其与注释文
17、件比对,筛选出位于启动子区(TSS200、TSS1500)的CpG位点,最后合并基因表达数据,将Pearson相关系数0.2且P0.05的位点筛选出来并构建 Logistic 回归模型,进行下一步分析。5666 期黄晋,等 基于人工神经网络技术联合表观基因组学在肝癌诊断中的应用投稿网址:http:/2 结果 2.1候选的CpG位点 在HCC甲基化数据集中,基于筛选标准(|差值|0.4,P0.001)共筛选得到1 697个差异甲基化位点,其中有166个差异高甲基化 CpG 位点和 1 531 个差异低甲基化 CpG 位点(图1),接着在差异高甲基化CpG位点中将位于启动子区的位点筛选出来,共得到
18、37个位点(图2)。合并基因表达矩阵信息,计算这37个CpG位点与对应的基因表达值的Person相关系数(若一个CpG位点对应多个基因,则第一个将作为参考),Person相关系数0.2,P0.05的位点(即高甲基化且对应基因低表达的位点)认为是显著相关的,一共有13个位于启动子区的显著相关的位点,合并13个CpG位点的甲基化矩阵与患者的疾病状态信息,构建Logistic 回归模型,采用逐步回归的方法,将 P0.05的位点筛选出来,一共得到4个CpG位点作为诊断肝癌的特异性位点(表1)。2.2构建人工神经网络模型 使用 Matlab 2020a构建人工神经网络模型,将Logistic回归筛选得到
19、的4 个 CpG 位点用于训练集中构建人工神经网络模型,本研究将设置一个3层的人工神经网络(图3),输入层设定4个神经元,隐藏层设定5个神经元,输出层设定2个神经元,采用反向传播算法,隐藏层的激活函数为Sigmoid函数,输出函数为softmax函数,迭代100次后,误差为0.007 0,学习速率为0.01,梯度下降收敛于410-8,表明模型拟合较好。接着将构建好的人工神经网络模型作用于验证数据集(66份肝癌组织样本,66份正常组织样本)中,模型对验证集分类的准确性达到94.7%,从模型对数据的分类结果来看,有2份肝癌组织被错分到正常组织中,有5份正常组织被错分到肝癌组织中,模型的敏感度为96
20、.8%,特异度为92.7%(表2)。图1肝癌组织与癌旁组织差异甲基化火山图图2差异高甲基化位点基因组分布情况表1Logistic回归筛选CpG位点基因位点cg13879483cg23462514cg26010734cg18004756基因符号USP44RNF212EPHX3GRHL2危险比1 274.434 052.5712 267.609 126.97变异系数7.158.319.419.1295%CI2.8613.344.2213.443.9717.473.1417.91P6.4710-33.3710-45.6310-31.2910-2表2人工神经网络模型对验证集判别结果/n预测类别肿瘤组织
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 人工 神经网络 技术 联合 表观 基因组 肝癌 诊断 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。