基于生物信息学的胰腺导管腺癌核心风险基因筛选和分析_景晓莹.pdf
《基于生物信息学的胰腺导管腺癌核心风险基因筛选和分析_景晓莹.pdf》由会员分享,可在线阅读,更多相关《基于生物信息学的胰腺导管腺癌核心风险基因筛选和分析_景晓莹.pdf(11页珍藏版)》请在咨信网上搜索。
1、宁夏医科大学学报45卷胰腺导管腺癌(pancreatic ductal adenocarcinoma,PDAC)是一种恶性程度极高并具有高度侵袭性的消化道恶性肿瘤。因其 5 年生存率不足7%,是恶性肿瘤中预后最差的1-2。PDAC 早期的症状隐匿、不典型3,约 80%的患者被确诊时为中晚期或出现转移,已错失最佳手术根治的窗口和机会。即使成功实施手术干预,术后 12 个月内的复发率和转移率仍高达 60%4。因此,准确有效的生物标记物筛选及其分子机制研究对于 PDAC的诊断、治疗和不良预后改善具有十分重要的临床意义和研究价值。加权基因共表达网络(weighted gene co-expressio
2、n network analysis,WGCNA)已被广泛用于寻找各种癌症中的枢纽基因。癌症基因组图谱(the cancer genome atlas,TCGA)数据库中缺乏正常组织的 PDAC 样本,差异表达数据不完整。因此,本研究整合基因型-组织表达数据库(genotype-tissue expression,GTEx)数据库中正常对照组织的表达数据,有效地克服 TCGA 数据库对照样本不足的问题。通过差异表达分析,获得PDAC 原发癌全面的转录组表达谱,并使用 WGCNA、蛋白质相互作用网络(protein-protein interaction,PPI)网络分析结合表达生存分析,获得核
3、心风险基因,以识别潜在准确的 PDAC 生物标记物。1材料与方法1.1数据获取与处理PDAC 组织的 RNA-seq 数据来自 TCGA,匹配的正常组织表达数据来自 GTEx5。过滤去除基因表达值低于 lcpm 剪切阈值 80%以上的样本,通过 filterByExpr 函数去除表达矩阵中不表达或低表达的基因。最后纳入共 312 个样本,包含147 例原发肿瘤组织,165 例正常组织(图 1)。1.2差异表达分析使用 edgeR 包筛选差异表达基因(differentialexpression genes,DEGs),以 log2(Fold Change)1且调整 P0.8 和 cor.gen
4、e Trait Significance0.2,从而识别和鉴定出模块基因。1.5PPI 的构建和核心基因筛选获得候选核心风险基因,利用 CytoscapeGene MINIA 插件,构建 PPI 网络和 MCODE 插件筛选网络核心基因。采用默认参数,聚类算法为MCC。1.6核心风险基因的功能分析使用 GEPIA2 在线数据库(http:/gepia2.cancer- PDAC 核心风险基因进行表达、生存分析,其生存分析主要包括生存率和风险比(hazard ratio,HR)。P0.05 为差异有统计学意义。1.7核心风险基因的临床诊断价值评价使用 SPSS 25.0 统计学软件绘制受试者工作
5、特征(receiver operating characteristic curve,ROC)曲线,并计算 ROC 曲线下的面积(area under curve,AUC),评估对肿瘤和正常组织的区分能力。2结果2.1DEGs 的筛选经选取上调和下调各 Top 50 的基因进行无监督垂直聚类分析,结果显示,DEGs 能够显著区分 PDAC 组织和正常组织(图 2A)。经差异表达分析,共筛选出 4 346 个 DEGs,其中包含 2 284个上调基因和 2 062 个下调基因(图 2B)。A.Top 100 DEGs 无监督聚类热图;B.全部 DEGs 火山图。图 2差异表达基因聚类热图和火山图
6、AB250200150100500-Log(FDR)Log2 Fold Change-6-3036Up2284NoChange10738Down2062景晓莹,等.基于生物信息学的胰腺导管腺癌核心风险基因筛选和分析下载 TCGA+GTEx 表达数据库(Tumor=147,Normal=165)差异表达分析(获得 DEGs)GO 和 KEGG 富集分析WGCNA 分析核心基因的表达验证核心基因的生存趋势交叉选择模块基因PPI 网络(Cytoscape)选择核心特征基因259宁夏医科大学学报45卷2.2DEGs 的 GO 功能富集分析和 KEGG 通路分析为进一步分析 DEGs 的功能,将 DEG
7、s 输入FunRich 进行 GO 和 KEGG 富集分析。DEGs 中BP 主要包括细胞外和质膜整体等(图 3A);CC主要包括细胞通讯和细胞生长等(图 3B);MF 主要包括细胞黏附分子活性和受体活性等(图3C)。KEGG 通路富集分析 PDAC 中的 DEGs 与间充质向上皮细胞转变(EMT)、上皮细胞向间充质转变(MET)和整合素细胞表面相互作用等信号通路密切相关(图 3D)。2.3WGCNA 的构建及分析通过绘制样本聚类树,设定剪切高度为 90,去除异常值(图 4A),进行样本聚类和表型关联分析(图 4B)。根据无尺度网络拟合指数和平均连接度计算软阈值(图 4C),根据基因模块连通性
8、确定软阈值(图 4D),选取 =10(无标度 R2=0.8,斜率=-2.11)作为网络构建软阈值(图 4E),并根据 TOM 矩阵构建基因间的分层聚类树(图4F)。表型-模块关联分析结果显示,lightgreen 模块与 TNM 分期有相关性(r=0.33,P=0.02),magenta模块与肿瘤大小程度有相关性(r=0.3,P=0.03),grey 模块与组织学分级有相关性(r=0.34,P=0.02)(图 5A图 5C),且能够较好区分肿瘤组织和正常对照(图 5D)。进一步将 lightgreen、magenta 和grey 模块分别作为关键模块进行 GS 和 MM 分析,lightgre
9、en 模块的 GS 与 MM 有相关关系(r=A.GO 生物过程富集上调的前 10 个条目;B.GO 细胞组成富集上调的前 10 个条目;C.GO 分子功能富集上调的前 10 个条目;D.前 10 个显著富集的 KEGG 通路。图 3DEGs 的 GO 和 KEGG 富集分析ABCD-log10(P-value)-log10(P-value)-log10(P-value)-log10(P-value)Percentage of genesPercentage of genesPercentage of genesPercentage of genesPercentage of genesP=0
10、.05 referenceP-value024680123402468101214024681012140510152025051015200510152025303505101520253035Cell surfaceIntegrin complexProteinaceous extracellular matrixExosomesExtracellular matrixExtracellular regionExtracellular spaceIntegral to plasma membraneExtracellularPlasma membraneCatalytic activity
11、Cytoskeletal protein bindingMetallopeptidase activityReceptor bindingChemokine activityCell adhesion molecule activityMHC class II receptor activityMHC class I receptor activityReceptor activityExtracellular matrix structural constituentCell adhesionSpindle assemblyXenobiotic metabolismCell surface
12、receptor linked signal transductionEnergy pathwaysMetabolismCell communicationSignal transductionCell growth and/or maintenanceImmune responseValidated transcriptional targets of AP1 family membersFra1 and Fra2Interferon gamma signalingEndosomal/Vacuolar pathwayLipid digestion,mobilization,and trans
13、portCell surface interactions at the vascular wallChemokine receptors bind chemokinesBeta5 beta6 beta7 and beta8 integrin cell surfaceinteractionsImmunoregulatory interactions between a lymphold and anon-lymphoid cellMesenchymal-to-epithelial transitionEpithelial-to-mesenchymal transition2.1%p=0.035
14、0.5%p=0.0011.2%p0.00117.5%p0.001p0.001p0.001p0.001p0.001p0.001p0.0011.9%5.1%4.7%9.8%19%32.3%0.4%p=10%p=10.1%p=10.1%p=1p=1p=1p0.001p0.001p0.001p0.0019.9%10.2%23%24.3%8.7%5.5%3.3%p=0.3571.5%p=0.2390.5%p=0.2051.5%p=0.154p=0.086p=0.079p=0.025p=0.019p0.001p0.0012.1%1.4%0.8%1.7%6.7%6.2%3.9%p=0.0151.9%p=0.
15、0021%p=0.0021.3%p=0.002p0.001p0.001p0.001p0.001p0.0010.7%2.9%0.6%0.6%3.5%2.1%p0.0012603期基因模块log2fcP 值调整后 P 值TOP2Agrey6.150.0010.001TPX2grey6.100.0010.001NUSAP1grey3.970.0010.001ARNTL2grey3.930.0010.001MAD2L1grey3.690.0010.001KIF23grey3.490.0010.001PLK1grey3.120.0010.001CENPUgrey3.090.0010.001RACGAP1
16、grey3.040.0010.001CITgrey3.000.0010.001CKAP2grey2.890.0010.001TUBA1Cgrey2.770.0010.001SPAG5grey2.720.0010.001STILgrey2.570.0010.001HMGB2grey2.430.0010.001PRC1grey2.230.0010.001CDC6grey2.210.0010.001TYMSgrey2.190.0010.001CENPNgrey2.030.0010.001FEN1grey2.030.0010.001NCAPG2grey2.020.0010.001ATAD2grey1.
17、920.0010.001PCNAgrey1.740.0010.001FGD6grey1.720.0010.001CBX3grey1.700.0010.001CCT5grey1.680.0010.001PRIM2grey1.610.0010.001THOC3grey1.550.0010.001C1orf112grey1.540.0010.001KNSTRNgrey1.540.0010.001SMC4grey1.520.0010.001PDCD10grey1.510.0010.001NFE2L3grey1.510.0010.001NDC1grey1.500.0010.001CHEK1grey1.5
18、00.0010.001ARHGAP11Agrey1.450.0010.001RRM1grey1.450.0010.001INCENPgrey1.440.0010.001FBXO45grey1.400.0010.001RCC1grey1.360.0010.001NCBP2grey1.230.0010.001ACTL6Agrey1.190.0010.001RHNO1lightgreen1.880.0010.001AP2B1lightgreen1.860.0010.001DERAlightgreen1.350.0010.001CCDC43lightgreen1.320.0010.001PCTPlig
19、htgreen1.230.0010.001PLAUmegenta4.990.0010.001PYGLmegenta2.320.0010.001PANX1megenta2.100.0010.0010.27,P0.001)(图 6A);magenta 模块的 GS 与MM 有相关关系(r=0.39,P0.001)(图 6B);grey模块的 GS 与 MM 有相关关系(r=0.54,P0.001)(图 6C)。对各颜色模块的连通性进行分析,发现lightgreen 模块的基因显著性与连通性有相关关系(r=0.33,P=0.001 3);magenta 模块的基因显著性与连通性有相关关系(r=0.1
20、2,P=0.046);grey模块的基因显著性与连通性有相关关系(r=-0.26,P=0.006 8)(图 6D)。最后,经过多重检验矫正后P0.8 和 cor.gene Trait Significance0.2 用于筛选模块中的核心基因。共获得 36 个候选基因,采用聚类分析方法和 MCC 算法,最后获得 22 个核心基 因(TOP2A、MAD2L1、TPX2、RACGAP1、PRC1、KIF23、NUSAP1、PLK1、SMC4、CHEK1、CENPU、CENPN、TYMS、FEN1、PCNA、CDC6、INCENP、ARHGAP11A、SPAG5、ATAD2、RRM1、NCAPG2)(
21、图 7)。PPI 网络中颜色是 MCC 分析的度量值映射,圈的大小是 PPI 得分映射。A.通过样本聚类来检测离群值;B.去除离群值样本后的样本树状图及其特征热图;C.最佳软阈值拟合分析;D.不同软阈值的平均连通性分析;E.在=10 时检查无标度拓扑结构;F.基于不同相似性度量(1-TOM)的 PDAC 模块内的树状图和关系热图。图 4加权基因共表达网络的构建Sample Clustering to Detect Sample OutliersABCDEFHeight12010080604020SFTMF Value0.80.60.40.20.0Mean Connectivity5 0004
22、0003 0002 0001 000051015205101520dist(dataExpr3)Scale independenceMean ConnectivitySoft Threshold(power)Scale Free Plot(Pearson),sft=10scale R2=0.8,slope=-2.11Soft Threshold(power)Network_heatmap_plot,Random Selected Genes1.61.82.02.22.4log10(k)log10(p(k)-0.5-1.0-1.5-2.0-2.52623期2.5核心风险基因的表达和生存分析通过在
23、线网站 GEIPA 搜寻 PPI 网络得分前10 个的核心风险基因在 PDAC 和正常组织中的表达趋势。结果显示,核心基因在 PDAC 样本中的表达量均高于正常对照组(P 均0.05)(图 8A图8J)。生存分析显示,TPX2(HR=2.2,P=0.000 26)、PRC1(HR=2,P=0.001 3)、KIF23(HR=1.9,P=0.002 9)、RACGAP1(HR=1.9,P=0.003 1)和 NUSAP1(HR=1.8,P=0.004 6)等核心基因高表达与 PDAC不良预后均相关(图 9A图 9J)。2.6核心风险基因的诊断价值10 个基因的 AUC 值(MAD2L:0.999
24、、TPX2:0.998、TOP2A:0.997、RACGGAP1:0.995、KIF23:0.995、NUSAP1:0.995、PLK1:0.992、PRC1:0.989、SMC4:0.986、CHEK1:0.986)均0.5,表明核心风险基因对肿瘤和正常组织具有良好的区分和诊断能力(表 2)。3讨论PDAC 是一种病死率高、诊疗困难的消化道恶性肿瘤,预后极差。对于肿瘤发生潜在机制的研究可能是 PDAC 诊断、治疗和延长患者生存时间的关键。高通量测序技术的发展为其分子病理、临床诊断和靶向治疗提供了新的希望11。WGCNA 作为有效的基于表型-基因表达权重关联分析的方法,能够有效提取高维基因表达
25、数据中有效的模块信息,已被广泛用于疾病相关基因的挖掘12。在本研究中,通过联合 GTEx 中正常组织数据,有效克服 TCGA 数据库中 PDAC 正常对照缺乏的问题,剔除异常和低表达样本,通过差异表达分析,最终获得了 PDAC 全面的转录组表达谱,为 PDAC 基因表达和功能研究提供了较好的数据集。经差异表达分析,本研究共筛选出 4 346 个DEGs,其中上调基因 2 284 个,下调基因 2 062A.PDAC 基因划分的层次聚类图;B.模块内的层次聚类树和关系热图;C.PDAC 模块特征基因与临床信息相关系数矩阵热图;D.PDAC 特征基因垂直聚类热图。图 5共表达模块与临床表型的相关性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 生物 信息学 胰腺 导管 腺癌 核心 风险 基因 筛选 分析 景晓莹
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。