基于图神经网络的实体对齐表示学习方法比较研究.pdf
《基于图神经网络的实体对齐表示学习方法比较研究.pdf》由会员分享,可在线阅读,更多相关《基于图神经网络的实体对齐表示学习方法比较研究.pdf(15页珍藏版)》请在咨信网上搜索。
1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(10)-2343-15doi:10.3778/j.issn.1673-9418.2307053基于图神经网络的实体对齐表示学习方法比较研究彭鐄,曾维新,周杰,唐九阳,赵翔+国防科技大学 大数据与决策实验室,长沙 410073+通信作者 E-mail:摘要:实体对齐是知识融合的一个重要步骤,其目的在于识别不同知识图谱中的等价实体。为准确判断出对等的实体,现有方法首先进行表示学习,将实体映射到低维向量空间中,接着通过向量间的相似度推断实体
2、的等价性。而近期实体对齐的相关工作也大都聚焦于表示学习方法的改进上。为了能够更好地理解这些模型的机理,挖掘有价值的设计思路,并为后续的优化改进工作提供参考,对实体对齐表示学习方法进行了研究综述。首先基于现有方法,提出了一个通用的表示学习框架,并用该框架对几个具有代表性的工作进行了归纳概括以及分析解构。接着通过实验对这些工作进行了对比分析,并对框架中各个模块的常见方法进行了比较。根据实验结果,总结了各种方法的优劣,并提出了使用建议。最后初步讨论了大规模语言模型与知识图谱对齐融合的可行性,并分析了存在的问题以及潜在的挑战。关键词:知识融合;实体对齐;表示学习;图神经网络;语言大模型文献标志码:A中
3、图分类号:TP391Contrast Research of Representation Learning in Entity Alignment Based on GraphNeural NetworkPENG Huang,ZENG Weixin,ZHOU Jie,TANG Jiuyang,ZHAO Xiang+Laboratory for Big Data and Decision,National University of Defense Technology,Changsha 410073,ChinaAbstract:Entity alignment is an important
4、 step in knowledge fusion,which aims to identify equivalent entities indifferent knowledge graphs.In order to accurately determine the equivalent entities,the existing methods firstperform representation learning to map the entities into a low-dimensional vector space,and then infer the equivalenceo
5、f the entities by the similarity between the vectors.Recent works on entity alignment focus on the improvement ofrepresentation learning methods.In order to better understand the mechanism of these models,mine valuable designdirections,and provide reference for subsequent optimization and improvemen
6、t work,this paper reviews the researchon representation learning methods for entity alignment.Firstly,based on the existing methods,a general frameworkfor representation learning is proposed,and several representative works are summarized and analyzed.Then,theseworks are compared and analyzed throug
7、h experiments,and the common methods of each module in the frameworkare compared.Through the results,the advantages and disadvantages of various methods are summarized,and the usesuggestions are put forward.Finally,the feasibility of the alignment and fusion of large language models andknowledge gra
8、phs is preliminarily discussed,and the existing problems and challenges are analyzed.Key words:knowledge fusion;entity alignment;representation learning;graph neural network;large language model基金项目:国家自然科学基金(62272469,61872446,71971212)。This work was supported by the National Natural Science Foundati
9、on of China(62272469,61872446,71971212).收稿日期:2023-07-14修回日期:2023-09-29Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(10)知识图谱(knowledge graphs,KG)是以三元组的形式(头实体、关系、尾实体)存储和表示知识的一种图数据库,其中每个节点都代表真实世界中的某个唯一的对象,而边则表示这些对象之间的关系。知识图谱已被广泛用于改进各种下游任务,例如语义搜索1、推荐系统2-3和自然语言问答4-5。在实际应用中,不同的知识图
10、谱通常是从不同数据来源独立构建而得,因此难以覆盖某一领域的全部知识6。为提高知识图谱的完备性,一种常用的做法是将其他知识图谱融合进来,因为这些知识图谱可能包含额外的或者互补的信息7。在这一过程中,一个关键的步骤是识别出两个不同知识图谱(分别被称为源知识图谱和目标知识图谱)中的等价实体,即指向真实世界中相同对象的实体8。这一任务被称为实体对齐(entity alignment,EA)。当前的实体对齐方法大都假设不同知识图谱中的相同实体具有相似的邻接结构信息,然后通过表示学习和对齐推理两个步骤完成实体对齐任务9。其中,表示学习旨在将知识图谱表示为低维向量,根据向量之间的关联建立不同知识图谱中实体的
11、关联。表示学习的效果对最终对齐的结果有着较大影响,因此当前的大多数研究都致力于提升表示学习的准确性。实体对齐中表示学习的早期代表方法为TransE10,该方法假设每个三元组(h,r,t)满足近似等式h+r t,并根据该假设学习三元组的表示。后续提出的改进方法 TransH11、BootEA12、MTransE13等也都是对该假设的变换。而近期的实体对齐工作,大多都采用图神经网络(graph neural network,GNN)14来学习知识图谱的表示,主要通过建模实体的邻居特征来生成实体的向量表示。具体地,基于图神经网络的方法通过消息的传递与聚合,使得每个实体的表示都融合了其邻居实体、关系或
12、其他类型的特征信息,从而生成准确的实体表示15。目前基于图神经网络的方法已从初始的一跳邻居实体特征的学习,发展到了对更大范围的多种特征的学习,并且附加了辅助增强学习效果的模块16-19。图神经网络由于模型结构与知识图谱的相容性和强大的图结构信息的学习能力,在实体对齐的表示学习中得到了广泛的应用,发展出了结构纷杂多样的各种方法。为了以一个统一的便于理解的框架描述这些方法,剖析其内部结构和工作原理,并为未来方法的优化改进提供参考,本文对这些模型进行了归纳与比较研究。本文的主要工作可以总结为以下三点:(1)提出了一种描述这类表示学习方法的通用框架,并选取了近期具有代表性的工作进行总结和对比,根据该通
13、用框架对这些工作中的表示学习模型的各个部分进行了解构和归纳。(2)进行了这些模型之间的对比实验和表示学习模型内部结构的消融和替换实验,揭示了当前方法的优缺点,为后续的研究提供参考。(3)针对当下兴起的语言大模型与知识图谱结合的研究方向,通过初步的实验指出了该场景下现有表示学习方法的问题以及下一步需要研究的方向。1模型概述1.1通用框架为更好地理解当前基于图神经网络的表示学习方法,本文提出一个通用框架来描述这些方法,如图1所示。该框架包括六部分:预处理模块、消息传递模块、注意力模块、聚合模块、后处理模块和损失函数。首先是预处理阶段,旨在对原始知识图谱的三元组信息进行处理,以生成初始的实体或关系向
14、量图1表示学习通用框架Fig.1Universal framework of representation learning2344彭鐄 等:基于图神经网络的实体对齐表示学习方法比较研究表示;然后通过一个或若干基于图神经网络的模型获得更好的表示。一个图神经网络通常包含三个步骤,即消息传递、注意力和聚合。消息传递过程基于图谱的结构、属性和语义等信息,提取邻居实体或关系的特征,用于后续的特征整合与更新;注意力模块旨在计算不同特征的权重来进而优化邻接信息的整合过程20-21;聚合模块则基于前述所提取的邻接特征以及注意力机制计算出的权重来聚合特征,并得到更新后的向量表示22-23。一些方法还通过后处理
15、操作,增强得到的最终表示。在训练阶段,损失函数决定了表示学习模型训练的方向。1.2结构比较按照上述通用框架,本文选取了十种近期实体对齐工作中的表示学习模型,并总结如表1所示。下面分别阐述这六部分的现状:(1)预处理模块。部分方法未进行预处理操作,直接采用随机的初始化方法。其他方法主要分为两类:一类是使用预训练模型,输入名称或文本描述来生成初始表示;另一类则是使用较为简单的 GNN学习结构信息来生成初始表示。(2)消息传递模块。从表1中可以看出大部分模型采用了线性变换的方法,即用一个可学习的参数矩阵乘以邻居特征。其他消息传递的方法则包括多头邻居消息的拼接,直接使用邻居特征等。(3)注意力模块。根
16、据计算公式中相似度的计算方式,可对这些模型进行分类。其中大部分模型采用了拼接乘积的形式计算中心实体和邻居的相似度。具体而言,便是将中心实体与邻居的特征进行拼接,然后乘以一个可学习的参数向量。还有部分模型采用了内积的形式,通过计算中心实体与邻居特征的内积来得到两者的相似度。(4)聚合模块。按照计算公式中聚合的对象对这些模型进行了分类。从表 1中可以看到几乎所有模型都聚合了1跳邻居实体或者关系的信息,同时也有个别模型结合了多跳邻居的信息。(5)后处理模块。大多数模型采用了拼接 GNN中各隐藏层的中间结果来强化最终的表示,还有一些模型使用了如门控机制34的自适应策略来结合不同特征,获得最终的表示。(
17、6)损失函数。当前绝大多数模型均在训练时使用基于边缘的损失函数,使表示学习模型生成的正例样本对距离尽可能近,且负例样本对距离尽可能远。有的模型在此基础上加上了TransE损失函数,有的则利用归一化和LogSumExp操作35进行改进。2模型详述为了更详细地解析当前表示学习模型的结构,本文将对表 1中十种模型的各个部分进行阐述。其中图神经网络中的各个步骤可概括为如下公式:eli=AggregatejNi(Attention(i,j)Messaging(i,j)(1)其 中eli表 示 实 体ei在 网 络 中 第l层 的 表 示,Messaging表示用于提取邻居特征的消息传递函数,Attent
18、ion表示计算不同邻居权重的注意力函数,Aggregate则是聚合邻居信息和注意力权重的聚合函数。接下来将以该过程为核心解析不同模型的结构。2.1基于门控多跳邻接聚合的对齐模型AliNetAliNet利用了多跳邻居实体来进行实体表示24,其方法如下。在聚合模块,使用了多跳的聚合策略。对于两跳的聚合,公式为:hli,2=jN2 iAttention(i,j)Messaging(i,j)(2)表1模型总体比较Table 1Overview and comparison of models模型AliNet24MRAEA25RREA26RPR-RHGT27NMN28RAGA29AttrGNN30PSR
19、31Dual-AMN32SDEA33预处理GNN预训练预训练&GNN预训练&GNN预训练预训练消息传递线性变换不变换线性变换拼接线性变换线性变换线性变换线性变换线性变换GRU注意力内积拼接乘积拼接乘积拼接乘积内积拼接乘积拼接乘积拼接乘积乘积&余弦内积聚合1跳&2跳实体1跳实体1跳实体1跳实体&关系跨图谱实体1跳实体&关系1跳实体&关系1跳实体&关系1跳实体&关系&代理向量1跳实体后处理拼接拼接拼接自适应拼接&自适应拼接拼接拼接&自适应拼接损失函数TransE&边缘损失边缘损失边缘损失边缘损失边缘损失边缘损失边缘损失无负采样损失改进的边缘损失边缘损失2345Journal of Frontier
20、s of Computer Science and Technology计算机科学与探索2023,17(10)其中N2表示两跳邻居。之后将多跳的聚合结果合成实体表示,一跳和两跳信息聚合如下:hi=g(hli,2)hli,1+(1-g(hli,2)hli,2(3)其中g(hli,2)=(Mhli,2+b)是控制不同跳影响的门,M和b是可学习的参数。对于注意力部分,该模型使用中心实体与邻居实体表示的内积来计算不同邻居的注意力权重:Attention(i,j)=lij=softmax(clij)=exp(clij)nN2(i)iexp(clin)(4)其中clij=LeakyReLU(Ml1hli)
21、TMl2hlj),M1和M2为两个可学习的参数矩阵。在消息传递模块,该模型中邻居实体特征的提取是通过一个简单的线性变换实现的,即Messaging(i,j)=Wlqhl-1j,其中Wq表示第q跳邻居的变换矩阵。后处理部分,最终的实体表示由 GNN中所有层的输出拼接而成:hi=Ll=1norm(hli)(5)其中表示拼接操作,norm()为L2归一化函数。其损失函数定义为:L=(i,j)A+|hi-hj|+(i,j)A-1-|hi-hj|+(6)其中A-是随机采样的负样本的集合,|表示L2范数,+=max(0,)。2.2面向跨语言知识图谱的实体对齐方法MRAEA该工作提出利用关系信息促进实体表示
22、学习过程的模型MRAEA(meta relation aware entity alignment)25。对于预处理模块,首先为每个关系生成一个反向关系,得到扩充的关系集合R,然后通过平均和拼接邻居实体和邻居关系的嵌入得到初始的实体特征:hinei=1|Nei|+1ejNei eihej|1|Nri|rkNrihrk(7)其中实体和关系的嵌入均为随机初始化得到。在聚合模块,类似式(1),聚合对象为一跳邻居实体Nei。注意力部分,该模型使用常见的自注意力机制来结合关系特征,其中实体与邻居实体之间的相似度计算公式为:aij=vThinei|hinej|1|Mi,j|rkMi,jhrk(8)其中Mi
23、,j表示由ei指向ej的关系,为 LeakyReLU激活函数。值得注意的是,该方法同样也可以用于多头注意力机制。对于消息传递,这一过程中的邻居实体特征即为预处理阶段对应的特征。后处理部分,最终实体表示由不同层的输出拼接而成:houtei=hout(0)ei|hout(1)ei|hout(l)ei损失函数定义为:L=(ei,ej)PReLU(dis(ei,ej)-dis(ei,ej)+)+ReLU(dis(ei,ej)-dis(ei,ej)+)(9)其中dis(,)为两实体表示间的曼哈顿距离,ei和ej表示负样本。2.3基于关系镜像变换的实体对齐RREA该工作提出了使用关系镜像变换聚合特征来学习
24、实体表示的模型 RREA(relational reflection entityalignment)26。在聚合模块,实体表示计算公式如下:hl+1ei=ejNeeirkRijAtt(i,j,k)Msg(i,j,k)(10)其中Neei和Rij分别表示邻居实体集和关系集,为ReLU激活函数。注意力部分,实体与邻居的相似度计算方式为lijk=vThlei|Mrkhlej|hrk,v是可学习向量,Mrk是关系rk的镜像变换矩阵,其具体含义和细节参见文献26第5.1节。对于消息传递,这一过程中的邻居实体特征即为预处理阶段对应的特征,即Msg(i,j,k)=Mrkhlej。后处理阶段,与前述方法类似
25、,网络中不同层的输出被拼接在一起形成表示houtei,然后将实体表示与其邻居关系的嵌入拼接在一起得到最终的实体表示:hMulei=houtei|1|Nrei|rjNreihrj(11)损失函数定义为:L=(ei,ej)Pmax(dis(ei,ej)-dis(ei,ej)+,0)(12)其中dis(,)是两个实体表示之间的曼哈顿距离,ei和ej表示通过最近邻居采样得到的负样本36。2.4基于可靠路径推理和关系感知异构图转换的实体对齐RPR-RHGTRPR-RHGT(reliablepathreasoning-relationawarehete-rogeneous graph transforme
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 神经网络 实体 对齐 表示 学习方法 比较 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。