球面坐标下基于语义分层的知识图谱补全方法.pdf
《球面坐标下基于语义分层的知识图谱补全方法.pdf》由会员分享,可在线阅读,更多相关《球面坐标下基于语义分层的知识图谱补全方法.pdf(15页珍藏版)》请在咨信网上搜索。
1、第42卷 第1期2024年1月应用科学学报JOURNAL OF APPLIED SCIENCESElectronics and Information EngineeringVol.42 No.1Jan.2024DOI:10.3969/j.issn.0255-8297.2024.01.010球面坐标下基于语义分层的知识图谱补全方法郭子溢,朱桐,林广艳,谭火彬北京航空航天大学 软件学院,北京 100191摘摘摘要要要:大多现有知识图谱补全方法普遍忽略了实体间客观存在的语义层次差异,为解决该问题,提出一种在球面坐标系下基于语义分层信息的知识图谱补全(knowledge graphcompletio
2、n on semantic hierarchy in spherical coordinates,SpHKC)模型。该方法将实体映射到球面坐标,位于不同球面的实体处于不同语义层级,球的半径越大,该球面上的实体所位于的语义层级越低。而关系则被建模为一个球面的实体向另一实体(位于相同球面或不同球面)的移动,包含旋转与定位操作,以处理实体语义层级异同的两种情况。球面坐标的极角和方位角也给予实体更丰富的表达形式。实验表明,SpHKC 与当前主流方法在 FB15k-237和 WN18RR 数据集上的效果基本持平,并且它在 YAGO3-10 数据集的平均倒数排名(meanreciprocal rankin
3、g,MRR)、Hits10 等重要指标上比相关研究的最新算法稳定提升约 1%,证明了语义分层信息的有效性。关键词:知识图谱;知识图谱补全;知识图谱嵌入;语义层级信息;语义分层结构;球坐标中图分类号:TP391文章编号:0255-8297(2024)01-0119-15Knowledge Graph Completion Method Based onSemantic Hierarchy in Spherical CoordinatesGUO Ziyi,ZHU Tong,LIN Guangyan,TAN HuobinSchool of Software,Beihang University,Be
4、ijing 100191,ChinaAbstract:Most of existing knowledge graph completion methods often neglect the se-mantic hierarchical differences that objectively exist between entities.To address theselimitations,we propose a knowledge graph completion method named spherical hierarchi-cal knowledge completion(Sp
5、HKC),which models semantic hierarchical phenomena usingspherical coordinates.In this method,entities are mapped to points on a spherical sur-face,and entities located on different spheres correspond to different semantic hierarchylevels.The radius of the sphere determines the level of the semantic h
6、ierarchy for entitieson that sphere,with larger spheres representing lower levels.Relationships are modeledas movements from one entity on the spherical surface to another entity(on the same ordifferent spheres),involving rotation and positioning operations to handle both similar anddifferent semant
7、ic hierarchy levels between entities.The polar angle and azimuth angle inspherical coordinates provide entities with richer expressions.Experimental results demon-strate that SpHKC achieves comparable performance to state-of-the-art methods on the收稿日期:2023-06-29基金项目:国家重点研发计划项目(No.2021YFB3500700)资助通信
8、作者:谭火彬,副教授,研究方向为软件工程、大数据。E-mail:120应用科学学报第42卷FB15k-237 and WN18RR datasets.Moreover,it consistently improves important metricssuch as MRR(mean reciprocal ranking)and Hits10 by approximately 1%compared torecent algorithms on the YAGO3-10 dataset,showcasing the effectiveness of incorporatingsemantic h
9、ierarchical information.Keywords:knowledge graph,knowledge graph completion,knowledge graph embedding,semantic hierarchical information,semantic hierarchy structure,spherical coordinate知识图谱(knowledge graph,KG)概念的定义1随 2012 年谷歌知识图谱2的发布而确立。知识图谱由描述事实(fact)的三元组(头实体,关系,尾实体)组成。目前学术界如WordNet3、Freebase4、YAGO
10、5、Wikidata6、DBpedia7等开放知识图谱,为 Q&A8和推荐系统9等上层应用提供底层数据支持。但现有知识图谱并不完善,缺少许多有效三元组,即语义含义在现实中成立,却不存在于知识图谱中的事实。为保证向上层应用提供更完善的服务,知识图谱补全(knowledge graph completion,KGC)便成为了知识图谱领域的一个主要研究方向。该任务旨在根据图中已知的边的信息,对图中缺失的边进行预测,即链路预测任务。当前的主流思路是通过知识表示学习,将知识图谱中的实体和关系嵌入到连续低维的向量空间中进行运算,因此知识图谱补全任务方法也被称为知识图谱嵌入(knowledge graph
11、embedding,KGE)。目前主流的知识图谱嵌入模型类别大致可以分为:基于翻译的方法10-14,基于张量分解的方法15-19和基于神经网络的方法20-32。现阶段基于翻译模型也衍生出了使用几何工具的拓展方法,包括 RotatE33、HAKE34、Rotate3D35等。但是大多上述现有知识图谱嵌入模型忽略了关系带来的语义层次信息。例如三元组 h 苹果树,所属类别,植物 i,其中的尾实体“植物”属于更泛化的类别,其所处的语义层级显然高于“苹果树”,这种实体间的语义层次差异是客观存在的,对此类信息的丢失也会一定程度地影响最终结果。一般情况下,想要直接捕获这种差异信息比较困难,但是在知识图谱中,
12、连结两个实体间的关系可以通过关系自身的语义信息,直观地将这种层次结构展现出来,例如对于一个未知的三元组 hA,所属类别,Xi,通过对关系“所属类别”语义的直接理解,不难判断未知实体 A 属于未知实体 X 的“子类”,因此如何通过对关系语义层面的建模,从而获取并充分利用实体间层次结构的差异信息便成为了关键问题。对知识图谱中的语义分层现象进行建模是知识图谱补全的一种新方法,起源于 2016 年提出的类型化知识表示学习(type-embodied knowledge representation learning,TKRL)36模型,其思想是利用实体的类型信息对语义分层现象进行建模。但并非所有数据集
13、都包含实体类型数据,若数据集不直接存放此类信息,则需要通过维基百科进行额外的检索操作。文献37-38 通过在关系集合中划分关系的层次结构,再以聚类方式学习关系的语义层级,该方法弱化了更为重要的实体语义层级信息。HAKE 模型则是重新聚焦于实体的语义层级差异,通过极坐标系对这种差异信息进行建模,比 TKRL 更加直观且简易,但 HAKE 对关系语义部分的建模仍不够充分,模型使用的几何方法无法合理地建模逆关系。本文提出一种在球面坐标系下基于语义分层信息的知识图谱补全(knowledge graphcompletion on semantic hierarchy in spherical coord
14、inates,SpHKC)模型,旨在捕获关系在语义层面对实体语义层级的描述信息,提高了模型的直观性以及可解释性,丰富了嵌入的表达能力。SpHKC 模型继承了 HAKE 模型的优势,可基于知识图谱原本的三元组信息进行训练,且不需要额外进行聚类操作。SpHKC 模型将关系视为从头实体到尾实体的移动,并且从“处于同一层级”和“处于不同层级”两方面考虑实体间的关系,具体讲,就是在球坐标系第1期郭子溢,等:球面坐标下基于语义分层的知识图谱补全方法121下,将实体所处的语义层级建模为该点位的极径,将关系的“移动”操作拆解为缩放和旋转:通过缩放操作控制实体的极径,对关系语义中蕴含的层次信息进行建模;通过对处
15、于同一语义层级的实体进行旋转,对关系所反映出的不同实体语义之间的差异进行建模。实验表明,相较于目前主流方法,SpHKC 在当前大部分数据集上的性能指标都有一定提升,证明了方法的有效性。1基本原理1.1建模思路实体的语义分层是知识图谱中客观存在的现象,实体所处的语义层级也属于实体自身的属性,在理论上通过获取实体语义层级信息可以更精确地对实体进行表示。一般情况下,获取实体的语义信息往往需要使用自然语言学习等方法进行大量的预训练,成本较高。但在知识图谱中,实体之间的语义层次差异能够通过实体之间的关系得到更为显式地表达。如图 1 所示,在三元组 hDog,belong_to,Animali 中,Ani
16、mal 和 Dog 在语义上的层级信息是它们各自的固有属性,但是这种语义层级的差异通过关系 belong_to 直观地反映了出来,并且上层实体 Organism 也通过另一种关系与 Animal 相连,这种通过关系路径彼此连结的且有语义层次差异的实体共同组成了树状结构,在路径上越靠近根节点的实体越抽象,反之越靠近叶子节点的实体越具体。AnimalOrganismbelong_tolocated_inlocated_inChinaPlantNationDogMouseRoseBeijingThe Great Wall图 1 知识图谱语义层次树状结构Figure 1 Tree structure
17、of semantic hierarchy in knowledge graph另外,若连结实体的关系不同,则头实体和尾实体所展现出来的语义层次差异也会变化,但是通过单个关系无法判断单个实体所处的语义层级。以图 1 中另一个三元组 hBeijing,located_in,Chinai 为例,如果只观察关系 belong_to 和 located_in 的差别,则无法确定实体 Animal、Dog、China 和 Beijing 分别处于哪一语义层级,关系所展现出来的语义层次差异只是相对的概念,因此把关系视为从一个实体到另一个实体的移动来展现实体的语义层级差别,而不是通过对关系本身语义的学习去定
18、性实体的语义层级,是本文的根本建模理念。为了对上述语义层次的树状结构进行建模,我们将其映射到球坐标系中,如图 2 所示。严格来说是将树结构的节点映射到球坐标系内围绕极点存在的无限个同心球面上,不同球面代表实体所处的不同语义层级,球面半径对应路径长度,半径越小,语义层级越高。在球坐标系中,SpHKC 从两个方面考虑对实体和关系的建模,即处于同一层级的实体和处于不同层级的实体。对关系的建模则从这两部分入手。传统基于翻译的方法往往将关系视为从一个实体到另一个实体的“一次操作”,采用的方式是“平移”和“旋转”,本方法将关系所代表的移动操作拆分为两个主要部分:1)通过控制球面半径以表达实体语义结构层次差
19、异122应用科学学报第42卷的“缩放”操作;2)同一语义层级内通过控制实体点位三维角度以表达实体语义内容含义差异的“定位”操作,如图 3 所示。MouseAnimalDog图 2 语义树状结构到球面坐标系的映射Figure 2 Mapping from tree structure of semantic to spherical coordinate system(a)?(a)Rotational positioning(b)?(b)Scalerrhhhttrrmhhtttt图 3 关系在球面坐标系的建模Figure 3 Modeling of relation in spherical c
20、oordinate system图 3 中的 h 和 t 分别代表三元组 hh,r,ti 内头尾实体在球面坐标中的映射向量。在预测过程中,图 3(a)表示关系的定位操作,通过球面坐标中的极角 r和方位角 r调整头实体在球面的位置,使头实体与尾实体在语义含义层面趋近。图 3(b)表示关系的缩放操作,通过对球面坐标中极径 rm的缩放,试图缩小头实体与尾实体在语义层次层面的差距。将两种操作视为第1期郭子溢,等:球面坐标下基于语义分层的知识图谱补全方法123整体,共同表示关系的移动操作,从而得到预测尾实体的嵌入 t0。最后利用 h 和 t0计算距离函数,对模型的预测效果进行打分。1.2球面坐标系及相关
21、符号说明本文引入球面坐标系对知识图谱中的语义分层现象进行建模,球面坐标系中各参数如图4 所示,每个点所处的空间方位用极径 r、极角、方位角 进行描述。由于关系需要通过控制上述 3 个参数来描述两个实体间语义层次和语义含义之间的差异,因此对关系的建模将从极径部分 rm、极角部分 r、方位角部分 r这 3 个维度进行。同理,实体嵌入也分为 hm、h和 h,上述嵌入均为 k 维向量,公式为h ri=hi ri(1)式中:hi为向量 h 的第 i 个分量;向量运算“”表示哈达玛积,即两个向量的元素积。(r,)r图 4 球坐标系示意图Figure 4 Diagram of spherical coord
22、inate system2方法2.1极径部分该部分旨在对不同实体的语义层次差异信息进行建模,在极径维度上,关系将进行缩放操作,以表示实体在不同语义层级的跃迁。通过这种方式,每个实体在球坐标系的极径参数便可以表达实体的语义层级,即将 hm和 tm中的每一个分量 hmi和 tmi视为描述实体 hm和 tm语义层次的组成部分,即为极径;将 rm中的每一个分量 rmi视为在第 i 个分量上对头实体进行缩放操作。于是我们可以得到不同的头实体在同一条关系的作用下进行相同缩放的公式,为hm rm=tm(2)式中:rm表示对头实体嵌入 hm的每一个分量分别进行缩放操作。进一步可以得到初步的极径部分距离函数,公
23、式为dr,m(hm,tm)=khm rm tmk2(3)124应用科学学报第42卷式中:hm和 tm的每一个分量 hmi和 tmi的取值范围为实数域。这是因为通过模型的训练后,正样本的 hm和 tm计算出来的距离函数偏小,使 hmi和 tmi更倾向于享有相同的符号;而对于负样本,不同的符号会导致距离函数的计算结果明显偏大。于是通过符号的差异可以更方便地对三元组的存在性进行判断。rm的每一个分量 rmi的取值范围为非零实数域,因为在球面坐标中约定极径不取负值,即不会对“向后”的距离进行测量。异符号是用于辅助区分负样本,因此在本方法中用于训练的关系数据不存在负样本,若 rmi可以取到负值,则可能发
24、生正样本头实体在正确关系的作用下靠近负样本的现象,这显然是不合理的。但是上述对实体和关系的建模仍存在问题,从图 1 可以看到,实体 Beijing 和实体 TheGreat Wall 均通过同一条关系 located_in 与实体 China 相连,但是很难认为 Beijing 和 TheGreat Wall 处于同一语义层级。由于知识图谱具有人为可修改性,管理者后续向其中添加三元组 hThe Great Wall,located_in,Beijingi 也是合理的,因此在极径部分对关系建模时还需要进行补充,修改后的距离函数为dr,m(hm,tm)=khm rm tm+(hm+tm)rmixk
25、2(4)在原距离函数的基础上对关系嵌入额外添加了 rmix部分,该部分融合头尾实体的信息之后进行训练,使模型结合了关系前后实体的信息从而对关系进行更为精确的建模。考虑到设计 rmix的初衷是对头尾实体部分进行信息的补足,不能造成 hm和 tm符号的反转,因此rmixi的取值范围规定为 rmi,1。2.2极角部分解决了对实体不同语义层级差异信息的建模问题后,即可利用极角部分对相同语义层级下不同实体的语义含义差别信息进行建模,例如三元组 h小明,朋友,小王i。这部分思想更贴近传统的翻译模型,如 RotatE,将关系 r建模为实体 h到实体 t的旋转操作,公式为(h+r)mod2=t(5)由于是在球
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 球面 坐标 基于 语义 分层 知识 图谱 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。