基于边权重信息深度网络嵌入的PPIN功能模块检测.pdf
《基于边权重信息深度网络嵌入的PPIN功能模块检测.pdf》由会员分享,可在线阅读,更多相关《基于边权重信息深度网络嵌入的PPIN功能模块检测.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于边权重信息深度网络嵌入的 PPIN功能模块检测李泽水,冀俊忠,杨翠翠(北京工业大学 多媒体与智能软件技术北京市重点实验室,北京 100124)摘要:现有基于网络嵌入的蛋白质相互作用网络(PPIN)功能模块检测方法通常仅对蛋白质节点信息进行网络嵌入,并未对蛋白质间的边权重信息进行网络嵌入,导致蛋白质功能模块检测质量不理想。针对该问题,提出一种基于边权重信息深度网络嵌入的 PPIN 功能模块检测方法。结合 PPIN 的拓扑结构以及基因本体的属性信息,通过图注意力网络的注意力系数来衡量蛋白质间的一阶边权重信息
2、,基于邻域聚合对蛋白质的一阶边权重信息进行嵌入。利用长短期记忆网络的遗忘门和输入门来衡量蛋白质间的高阶边权重信息,并对蛋白质的高阶边权重信息进行嵌入。根据网络嵌入得到的低维向量,通过核心附属聚类算法挖掘出核心团并添加附属蛋白质,从而获得最终的蛋白质功能模块。在 Collins、Gavin 和 Krogan 蛋白质数据集上的实验结果表明,该方法相较于基于核心附属聚类的蛋白质功能模块检测等方法在准确率和 F1值上最高提升了 18.1和 12.9个百分点。关键词:蛋白质相互作用网络;功能模块检测;深度学习;网络嵌入;核心附属聚类开放科学(资源服务)标志码(OSID):源代码链接:https:/ PP
3、IN 功能模块检测 J.计算机工程,2023,49(8):69-76.英文引用格式:LI Z S,JI J Z,YANG C C.Functional module detection based on deep network embedding of edge weighing information in PPIN J.Computer Engineering,2023,49(8):69-76.Functional Module Detection Based on Deep Network Embedding of Edge Weighing Information in PPINLI
4、 Zeshui,JI Junzhong,YANG Cuicui(Beijing Municipal Key Laboratory of Multimedia and Intelligent Software Technology,Beijing University of Technology,Beijing 100124,China)【Abstract】The existing functional module detection methods of Protein-Protein Interaction Network(PPIN),which are based on network
5、embedding,usually only embed the information of protein nodes and do not embed the information of edge weights between proteins,which deteriorates the quality of protein functional module detection.To solve this problem,a functional module detection method based on deep network embedding of edge wei
6、ghing information in PPIN is proposed.Combined with the topological structure of PPIN and attribute information of Gene Ontology(GO),the first-order edge weight information between proteins is measured using the attention coefficient of Graph ATtention(GAT)network,and the first-order edge weight inf
7、ormation of proteins is embedded based on neighborhood aggregation.The forget and input gates of a Long Short-Term Memory(LSTM)network are used to measure the high-order edge weight information between proteins,whereby this information is embedded.According to the low-dimensional vector obtained by
8、network embedding,the core clique is mined by the core attachment clustering algorithm,and the affiliate proteins are added to obtain the final protein functional module.Experimental results on the Collins,Gavin,and Krogan datasets show that the proposed method improves the accuracy and F1 score by
9、up to 18.1 and 12.9 percentage points,respectively,compared with the methods such as COACH.【Key words】Protein-Protein Interaction Network(PPIN);functional module detection;deep learning;network embedding;core attachment clusteringDOI:10.19678/j.issn.1000-3428.0065072基金项目:国家自然科学基金(61375059)。作者简介:李泽水(
10、1997),男,硕士研究生,主研方向为机器学习、生物信息;冀俊忠(通信作者),教授、博士、博士生导师;杨翠翠,副教授、博士。收稿日期:2022-06-24 修回日期:2022-09-08 Email:人工智能与模式识别文章编号:1000-3428(2023)08-0069-08 文献标志码:A 中图分类号:TP301.62023年 8月 15日Computer Engineering 计算机工程0概述 随着后基因组时代的到来,生命科学研究的重心已从基因组学转向蛋白质组学1。蛋白质组学的一项重要任务是从蛋白质相互作用网络(Protein-Protein Interaction Network,P
11、PIN)中进行蛋白质功能模块检测。检测到的蛋白质功能模块不仅可以揭示细胞组织和功能原理,为特定细胞生命活动提供理论依据2,而且有助于预测疾病、研制新型药物3。为了挖掘 PPIN 中的蛋白质功能模块,学者们起初提出了生物实验技术,但是随着高通量技术的发展,产生了大量的 PPIN数据4,生物实验技术由于存在时间消耗大等问题,因此越来越难以满足时代的需要,而基于机器学习的聚类方法具有效率高的特点5-6,逐渐被学者们应用到蛋白质功能模块检测领域7-9,然而由于 PPIN 结构的高维复杂性,直接对PPIN 进行聚类的方法不能够有效利用 PPIN 中蕴含的信息。网络嵌入方法可以把 PPIN 从高维空间嵌入
12、低维向量空间,降维后的低维向量有着丰富的PPIN 结 构 信 息 和 蛋 白 质 的 基 因 本 体(Gene Ontology,GO)属性信息。因此,有一些研究开始探索先通过网络嵌入对 PPIN 进行降维再进行聚类得到蛋白质功能模块的方法,主要包括以下 3种:1)基于矩阵分解的网络嵌入方法,将 PPIN 以矩阵的形式表示节点之间的连接,并对该矩阵进行分解以获得PPIN 的低维向量表示,再聚类获得蛋白质功能模块检测结果10-11;2)基于随机游走的网络嵌入方法,通过模拟两个蛋白质在 PPIN 上进行随机游走,如果两个蛋白质在 PPIN 上的随机游走路径有所重叠,那么两者之间拥有相近的低维向量表
13、示12-13;3)基于深度学习的网络嵌入方法,先通过深度学习模型获得PPIN 中的深层次特征,例如基于多层感知机的自编码器14、基于图卷积神经网络的自编码器15-16等对PPIN 中的信息进行深层次刻画,再进行聚类得到蛋白质功能模块检测结果。尽管现有基于网络嵌入的 PPIN 功能模块检测方法已经取得了较好的检测结果,但是仅对 PPIN 中的蛋白质节点信息进行网络嵌入,忽略了 PPIN 中的边权重信息。根据 GOYAL等17的研究发现,如果将节点间的边权重信息嵌入低维向量,那么低维向量将更准确地反映网络信息。更重要的是 PPIN 中相连的蛋白质发挥的生物功能和执行的生物过程相似程度不同,两者间功
14、能相似性有所差异,因此边的权重大小不一18。为了能够对 PPIN 中蛋白质间的边权重信息进行网络嵌入,本文提出基于边权重信息深度网络嵌入的蛋白质功能模块检测方法(EWNE)。该方法首先结合 PPIN 的拓扑结构和 GO 属性信息,通过图注意力(Graph ATtention,GAT)网络的注意力系数对蛋白质的一阶边权重信息进行嵌入;然后通过长短期记忆(Long Short-Term Memory,LSTM)网络的遗忘门和输入门对蛋白质的高阶边权重信息进行嵌入;最后通过核心附属聚类算法得到最终的蛋白质功能模块。1相关工作 1.1网络嵌入方法网络嵌入是指通过学习网络中每个节点的低维向量,将高维且稀
15、疏的网络数据映射为低维且稠密的向量数据的技术19。通常该映射需要不断优化,以便使低维向量能够更好地反映原始网络中的信息。通过网络嵌入手段,节点分类、推荐系统、欺诈检测、网络聚类等现有网络分析任务都可以得到更有效的解决方案20。迄今为止,网络嵌入方法主要分为基于矩阵分解、基于随机游走和基于深度学习3类。由于前 2种方法存在参数无法共享、无法利用节点属性信息、泛化能力较差等问题,因此基于深度学习的网络嵌入方法更受学者们的青睐21。例如,VELIKOVI 等22提出的图注意力网络是一种基于深度学习的网络嵌入方法,它使用注意力机制为节点的一阶邻居分配权重,再根据权重来聚合周围邻居特征,从而将一阶边权重
16、信息融入低维向量,但是堆叠多层的 GAT也只可对一阶边权重信息进行网络嵌入,无法对高阶边权重信息进行网络嵌入。长短期记忆网络23属于基于深度学习的网络嵌入方法,具有输入门和遗忘门这 2种门控机制,可以用于衡量节点与其高阶邻居间的权重。1.2PPIN功能模块检测方法蛋白质相互作用网络功能模块检测是一种挖掘PPIN 中由蛋白质组成的功能模块的技术,功能模块的检测有助于揭示细胞的组织和功能原理24,推动蛋白质组学研究的进步和发展。伴随机器学习技术的应用及推广,学者们提出了一系列机器学习方法进行蛋白质功能模块检测。WU 等5提出基于核心附属聚类的蛋白质功能模块检测方法(COACH),该方法首先从 PP
17、IN 中检测出连接紧密的核心团,然后将剩余蛋白质逐个添加到核心团的附属蛋白质,以形 成 具 有 生 物 学 意 义 的 蛋 白 质 功 能 模 块。ALDECOA 等6提出基于层次聚类思想的蛋白质功能模块检测方法(Jerarca),该方法首先计算蛋白质节点之间的距离权重,然后通过权重来构建层次树,最后根据层次树进行划分得到蛋白质功能模块。BADER 等7提出基于密度聚类的蛋白质功能模块检测方法(MCODE),该方法首先计算蛋白质节点的局部密度,从而决定每个节点权重,使权重高的节点作为种子节点,再向外扩张形成最后的功能模块。KING 等8提出基于聚类划分的蛋白质功能模块检测方法(RNSC),该方
18、法首先对 PPIN 进行随机分区,然后迭代地将各个分区边界上的蛋白质节点移动到相邻的分区中,根据代价函数以最低的代价划分出更好的蛋白质功能模块。JI等9提出基于群智能聚类的蛋白质功能模块检测方法(NACO-FMD),该方70第 49卷 第 8期李泽水,冀俊忠,杨翠翠:基于边权重信息深度网络嵌入的 PPIN功能模块检测法通过结合 PPIN 的拓扑结构信息以及生物属性信息,利用蚁群优化算法进行功能模块检测,并通过一系列启发式策略以及后处理方法来优化检测结果。近年来,学者们开始探索先通过网络嵌入方法将 PPIN 嵌入低维向量空间再对低维向量进行聚类的 PPIN 功能模块检测方法。XU 等10提出一种
19、蛋白质 功 能 模 块 检 测 方 法(GANE),该 方 法 首 先 使 用AANE 矩阵分解网络嵌入方法来获得 PPIN 的低维向量表示,然后使用核心附属聚类方法来获得蛋白质功能模块。XU 等11又提出一种蛋白质功能模块检测方法(GLONE),先通过使用 TADW 矩阵分解网络嵌入方法获得融合结构信息与属性信息的 PPIN的低维向量表示,再使用种子扩散聚类方法来获得蛋白质功能模块。LIU 等12通过结合矫形信息将多个 PPIN 连接为一个网络,然后通过随机游走网络嵌入方法得到每个蛋白质节点的低维向量表示,接着通过种子扩散方法得到最后的蛋白质功能模块。YAO 等13首先使用随机游走网络嵌入方
20、法得到拓扑相似性矩阵,然后通过 GO属性信息得到功能相似性矩阵,接着将两者合并,通过合并得到的相似性矩阵对 PPIN 进行聚类,得到一些蛋白质簇,最后合并重叠的蛋白质簇得到最终预测的蛋白质功能模块。上述基于矩阵分解和随机游走的网络嵌入方法获得的低维向量表示多数是浅层和线性的,往往不能很好地捕获并结合非线性的属性信息和结构信息25。这也促使了基于深度学习网络嵌入的 PPIN 功能模块检测的发展。ZHANG 等14提出一种蛋白质功能模块检测方法(DANE),该方法首先使用一种半监督深度学习模型来实现网络嵌入,获得融合结构信息与属性信息的低维向量表示,然后使用核心附属方法来获得蛋白质功能模块。ZHU
21、 等16提出一种仅使用 PPIN 结构信息的网络嵌入方法,该方法首先使用 DeepWalk获得每个蛋白质的低维向量表示,通过邻居节点选择算法,将邻居节点当作属性特征;然后使用基于 GCN 的半监督模型来训练获得最终的蛋白质低维向量表示;最后使用 COACH 方法来获得蛋白质功能模块。2基于边权重信息深度网络嵌入的 PPIN 功能模块检测方法 为了充分利用边权重信息,本文提出一种基于边权重信息深度网络嵌入的 PPIN 功能模块检测方法。该方法通过 GAT 和 LSTM 将 PPIN 中的边权重信息嵌入低维向量空间,并利用核心附属聚类完成蛋白质功能模块检测,具体步骤为:1)为了将蛋白质的一阶边权重
22、信息嵌入低维向量空间,使用 GAT 注意力系数来衡量蛋白质与其直接邻居间的一阶边权重,并根据该权重进行特征融合,使低维向量蕴含一阶边权重信息;2)为了将蛋白质的高阶边权重信息嵌入低维向量空间,使用 LSTM 遗忘门和输入门来衡量蛋白质与其间接邻居的高阶边权重,并根据该权重进行特征的提取和过滤,从而使低维向量能够蕴含高阶边权重信息;3)基于网络嵌入得到的低维向量信息,利用核心附属聚类方法得到蛋白质功能模块检测结果。EWNE方法框架如图 1所示。输入为 PPIN网络及其蛋白质具有的 GO 属性信息,首先由 GAT 计算出每个蛋白质与其邻居间的一阶边权重,并根据此权重对周围邻居进行特征聚合,从而将一
23、阶边权重信息嵌入低维向量。然后由 LSTM 的输入门和遗忘门计算出蛋白质与其高阶邻居间的权重,并根据此权重对高阶邻居进行特征的过滤和提取,从而将高阶边权重嵌入到低维向量中。经过 GAT与 LSTM 多次堆叠后,得到整个网络嵌入后的低维向量。最后根据该低维向量挖掘出蛋白质核心团,添加附属蛋白质从而得到蛋白质功能模块集合。图 1EWNE方法框架Fig.1Framework of EWNE method712023年 8月 15日Computer Engineering 计算机工程2.1基于 GAT的一阶边权重信息嵌入PPIN 中直接相连的两个蛋白质间的边权重,称为一阶边权重。为了能够将 PPIN
24、中的一阶边权重信息融入网络嵌入结果,首先通过 GAT 的注意力系数来衡量一阶边权重的大小,然后根据一阶边权重的大小将蛋白质邻居的信息聚合到蛋白质上,此时网络嵌入后得到的低维向量中就融合了一阶边权重信息。由于 GAT 的注意力系数与两个蛋白质的 GO 属性相似度成正相关,因此首先需要将 PPIN 的邻接矩阵A Rn n(其中,n是 PPIN中的蛋白质节点总数)和GO 属性矩阵X Rn m(其中,m 是 GO 属性种类总数)输入 GAT 层,由 GAT 根据蛋白质节点间属性的相似程度来衡量蛋白质间的一阶边权重信息aij:aij=exp(LeakyReLU(aTWhi|Whj)k Niexp(Lea
25、kyReLU(aTWhi|Whk)(1)其中:i为蛋白质节点;j为蛋白质 i的邻居节点;hi和hj分别为蛋白质节点 i和 j的 GO属性信息;W表示为每个属性信息分配的权重矩阵;|用于拼接左右两侧的数据,之后再与权重向量aT相乘;LeakyReLU为激活函数。当 GAT 为蛋白质节点 i与其所有的邻居节点计算完一阶边权重后,根据一阶边权重将邻居节点的特征聚合到蛋白质节点 i得到hi1:hi1=tanh()j Ni iaijWhj(2)其中:W表示为蛋白质节点 j 分配的权重矩阵;tanh为激活函数;hi1为蛋白质节点 i根据一阶边权重信息融合邻居信息后的低维向量。当经过 t层 GAT 后,蛋白
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 权重 信息 深度 网络 嵌入 PPIN 功能模块 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。