结合静态事实和重复历史事实的动态知识图谱推理方法.pdf
《结合静态事实和重复历史事实的动态知识图谱推理方法.pdf》由会员分享,可在线阅读,更多相关《结合静态事实和重复历史事实的动态知识图谱推理方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、DOI:10.3785/j.issn.1008-973X.2023.10.001结合静态事实和重复历史事实的动态知识图谱推理方法林栋1,李永强1,仇翔1,冯远静1,谢碧峰2(1.浙江工业大学信息工程学院,浙江杭州310012;2.杭州峰景科技有限公司,浙江杭州310000)摘要:针对现有的动态知识图谱推理方法容易忽略动态知识图谱中存在着大量静态信息和重复历史事实的问题,提出结合静态事实和重复历史事实的动态知识图谱网络方法.该方法利用动态知识图谱中实体间隐藏的静态联系来构成静态事实,并协助动态知识图谱推理;利用历史事实构建历史词表,在预测未来时对历史词表进行查询;对历史中未发生的事实进行惩罚,提
2、高重复历史事实的预测概率.在 2 个公开的数据集上进行动态知识图谱推理实验,对比实验时选用目前主流的 5 个模型作为基线.在实体预测实验中,平均倒数排名(MRR)达到 0.4891和 0.5303,Hits10 达到 0.5887 和 0.6165,证明了所提方法的有效性.关键词:动态知识图谱;静态事实;重复历史事实;历史惩罚;实体预测中图分类号:TP391文献标志码:A文章编号:1008973X(2023)10191508Dynamic knowledge graph inference method combining static factsand repeated historical
3、 factsLINDong1,LIYong-qiang1,QIUXiang1,FENGYuan-jing1,XIEBi-feng2(1.School of Information Engineering,Zhejiang University of Technology,Hangzhou 310012,China;2.Hangzhou Fengjing Technology Company,Hangzhou 310000,China)Abstract:Astatic-historicalnetwork(Sta-HisNet)methodcombiningstaticfactsandrepeat
4、inghistoricalfactswasproposed,aimingattheproblemthatexistingdynamicknowledgegraphreasoningmethodstendtooverlookthevastamountofstaticinformationandrepeatinghistoricalfactspresentinthedynamicknowledgegraphs.Thehiddenstaticconnectionsbetweenentitiesinthedynamicknowledgegraphwereusedtoformstaticfacts,as
5、sistingintheinferenceofthedynamicknowledgegraph.Historicalfactswereemployedtoconstructahistoricalvocabulary,andthe historical vocabulary was queried when predicting the future.Facts that had not occurred in history werepunished,andtheprobabilityofpredictingduplicatehistoricalfactswasincreased.Experi
6、mentswereconductedontwopublicdatasetsfordynamicknowledgegraphreasoning.Comparativeexperimentswereperformedusingfivemainstreammodelsasbaselines.Inentitypredictionexperiments,themeanreciprocalrank(MRR)was0.4891and0.5303,andHits10reached0.5887and0.6165respectively,demonstratingtheeffectivenessoftheprop
7、osedmethod.Key words:dynamicknowledgegraph;staticfacts;repeatinghistoricalfacts;historypunishment;entitypre-diction知识图谱是广泛用于现实世界事实知识表示的资源,它支持信息检索领域的无数知识驱动任务1.知识图谱是图结构的知识库以及储存事实(h,r,t)h、r、t信息的普遍方法构建三元组,其中分别为头实体、关系和尾实体.头实体和尾实体构成知识图谱中的节点,头、尾实体间的关系则用收稿日期:20221017.网址: 2 个元素,推理出剩下的元素,这样可以有效填充知识图谱不足的信息,大多数
8、知识图模型都假设底层图为静态.在现实世界中,事实和知识可以随着时间的推移而改变.例如(奥巴马,访问,中国)这个三元组因为没有具体的时间信息,无法确定奥巴马哪一次访问中国.为了适应时间变化的多关系数据,引入动态知识图谱,它通过在静态三元组增加时间戳以构成四元组2,如通过(奥巴马,访问,中国,2009)这一四元组便可以清晰的知道是在 2009 年奥巴马访问了中国.动态知识图谱推理是根据过去的事件来推断未来的事件.本研究重点专注于预测动态知识图谱,通过预测动态知识图谱中缺失的知识可以改善大量的下游应用程序,如金融中的决策支持.在动态知识图谱中存在大量的不随时间变化的静态知识信息,提取这些信息特征对动
9、态知识图谱推理有很大的帮助.现实中大量历史事实是重复发生的,如金融危机、外交事件,然而目前的方法都无法对重复历史进行筛选以及对历史重复度大的时序知识进行更好的预测,这使得它们不太适合用于许多现实世界的应用程序.为了更好地利用静态事实和重复历史事实,本研究结合静态事实,获取动态知识图谱中事实的静态信息,挖掘实体之间更深层次的联系.结合重复历史事实,通过历史词表对历史事实进行筛选,对历史中未出现的事实做出历史惩罚,提高重复事实的预测概率.在 2 个公开数据集上进行动态知识图谱推理,验证所提方法在动态知识图谱推理准确性上的表现.1相关工作目前静态知识图谱推理已有深入的研究.最初 Bordes 等3提
10、出先将关系视为嵌入空间中实体之间转换的静态知识图谱推理,随后设计几个变体.Wang 等4在一个关系特定的超平面上添加投影.Dai 等5将实体映射到较低级别的关系特定空间,但是基于翻译方法不能建立对称模型.Trouil-lon 等6通过学习一个双线性目标解决了这个问题.Socher 等7则将关系视为复杂向量空间中的旋转.Schlichtkrull 等8将事实放入图中,通过图卷积神经网络(graphconvolutionnetwork,GCN)9建模多种关系类型.传统知识图谱只有静态的事实,缺乏时间信息.随着数据的快速发展,现在的知识图谱展现出复杂的时间动态,静态知识图谱无法满足现实要求,因此需要
11、新的方法为这种事实进行时序建模.近年来,通过在知识图谱中加入时间信息来构成动态知识图谱,这已经成为知识图谱推理的重要分支.Leblay 等10把时间戳与实体和关系一样作为嵌入,同时改变 TransE3的评分.Dasgupta 等11将实体和关系的表征映射到时间戳的超平面上.上述方法没有考虑到现实中的时间也会影响实体的状态以及对应关系.为了改善时间范围推理,Trivedi 等12通过深度进化知识网络,研究实体在动态知识图谱中的演化以及它们演化之后的关系.为了捕捉实体间的交互,Jin 等13基于邻居聚合器和循环神经网络(recurrentneuralnetwork,RNN)来构建包含一跳事实的子图
12、序列,使用逻辑规则进行动态知识图谱推理.Li 等14使用长度感知卷积神经网络,通过易于学习的课程学习策略来处理不同长度的进化模式.Li 等15通过对动态知识图谱的循环建模来学习每个时间戳上实体和关系的进化表示,并利用静态实体嵌入来限制动态知识图谱推理.Zhu 等16通过复制模式和生成模式,分别对重复出现历史事实和未曾出现的历史事实进行学习和预测.重复历史事实过于繁琐且绝对,无法很好地利用知识图谱中的静态事实,因此 Zhu 等16提出结合静态事实和重复历史事实的动态知识图谱网络(static-historicalnet-work,Sta-HisNet)进行推理.Li 等15只是将静态事实作为动态
13、知识图谱的限制.Sta-HisNet 模型通过挖掘知识图谱中的静态事实信息,协助实现对动态知识图谱的推理,同时改进历史模式,对重复历史事实进行更好的学习和利用.2结合静态事实和重复历史事实的动态知识图谱推理方法为了更好地利用历史事实对动态知识图谱推理的帮助,提出结合静态事实和重复历史事实的动态知识图谱.如图 1 所示,从静态知识图谱中获取不随时间变化的静态事实,通过关系图卷积神经网络(relationgraphconvolutionnetwork,R-1916浙江大学学报(工学版)第57卷GCN)8提取实体的内在特征并得到静态嵌入.从动态知识图谱中抽取事件四元组,并且生成基于时间序列的实体嵌入
14、、关系嵌入和时间嵌入,然后将 4 个嵌入拼接后经过历史模式来训练模型,其中通过二维卷积提取嵌入特征,再通过长短期记忆网络预测未来事实特征;通过历史惩罚降低历史中没有出现过事实的预测得分,最后利用实体预测完成动态知识图谱推理,得到实体预测概率.2.1 动态知识图谱背景(h,r,t,)动态知识图谱在传统的知识图谱上添加了时间信息.在动态知识图谱中,每个事实是在时间戳中获得头实体、尾实体和其对应的关系.将动态知识图谱中的事实定义成四元组的形式:.一般动态知识图谱的推理基于四元组的形式,在已知时间戳下,给定任意 3 个元素推测另一个元素.根据动态知识图谱推理方法,分为实体预测和关系预测.其中实体预测又
15、可分为头实体预测和尾实体预测,尾实体预测是在已知 h、r 和 的情况下来预测 t;而头实体预测是在已知 r、t 和 的情况下来预测 h.2.2 基于时间序列的实体嵌入由于实体随着时间的变化,含义将会发生变化,同时实体也有着时不变的特性.为了同时满足实体嵌入的时变和时不变特征,本研究的实体h嵌入计算式为h=e|()RO+D.(1)eOe|()D()()式中:为时常嵌入,它捕获时常特征和对动态知识图谱的全局依赖性;为的嵌入维度;为拼接操作;为捕获实体之间的时间依赖性的时间编码,采用正弦的形式使得实体与每个时间戳相结合,可以更好地让实体嵌入学习到时间信息;为的嵌入维度.的表达式为()=d1/2sin
16、(1+1),sin(d+d).(2)d式中:为时间序列长度,和为可学习的参数.2.3 基于静态事实的静态嵌入实体中包含有大量的静态属性,将这些属性组成一个静态知识图谱,可以看作是动态知识图谱的背景知识,有助于模型学习到更准确的实体信息.在 ICEWS1817数据集中的实体有(公民)菲律宾、(政府)菲律宾、(城市)菲律宾、菲律宾、(公民)美国、(公民)俄罗斯、公民,他们之间存 在 一 定 的 关 系,可 以 构 成 这 样 的 事 实 三 元组(公民)菲律宾,隶属,菲律宾)、(政府)菲律宾,隶属,菲律宾)、(城市)菲律宾,隶属,菲律宾)、(公民)菲律宾,是,公民)、(公民)美国,是,公民)、(公
17、民)俄罗斯,是,公民),如图 2 所示.若直接将公民(菲律宾)视为一个嵌入,则会丢失其与公民和菲律宾之间的联系,因此通过挖掘实体间隐藏的联系构成新的静态事实,从而构基于时间序列的实体嵌入时间嵌入数据预处理关系嵌入动态知识图谱静态知识图谱静态嵌入关系图卷积神经网络二维卷积长短期记忆网络历史惩罚实体预测知识图谱推理历史模式图 1 Sta-HisNet 框架图Fig.1FrameworkofSta-HisNet菲律宾公民(菲律宾)政府(菲律宾)城市(菲律宾)军人(菲律宾)菲律宾隶属隶属隶属隶属军人(菲律宾)政府(菲律宾)城市(菲律宾)公民(菲律宾)公民(美国)公民(俄罗斯)公民(美国)公民(俄罗斯)
18、公民公民是是是图 2 ICEWS18 数据集的部分静态知识图谱Fig.2PartialstaticknowledgegraphofICEWS18dataset第10期林栋,等:结合静态事实和重复历史事实的动态知识图谱推理方法J.浙江大学学报:工学版,2023,57(10):19151922.1917建成新的静态知识图谱.由于获得的静态知识图谱是多关系图,R-GCN8采用一层没有自循环的R-GCN 来获得静态知识图谱中实体的静态嵌入,这样可以在建立多关系图时,不需要额外的关系嵌入.R-GCN 的更新规则定义为hs=1cirRjNWrhj.(3)hshjciiNWrr()式中:、分别为输出和随机初
19、始化的输入嵌入矩阵;为归一化常数,是与实体连接的实体数量;为所有实体的数量;为关系的可训练矩阵;为 ReLu 激活函数.2.4 历史模式在特定的数据集中有许多历史事实是重复的,一个模型可能会从历史上出现的已知事实中学到很多东西.历史模式旨在识别重复的事实,并通过惩罚历史上未知的事实来预测未来的事实.历史模式的流程如下:传统的一维卷积可以提取的特征信息十分有限,因此采用卷积的方式提取特征.为了更好地提取实体、关系、时间和静态嵌入特征,采用基于卷积神经网络嵌入(convo-lutionembedding,ConvE)18模型中的二维卷积方法,利用长短期记忆(longshort-termmemory
20、,LSTM)19网络捕获时序信息,经过一层神经网络改变维度得到实体预测结果.通过历史事实构建历史词表,利用历史词表筛选出历史中未出现过的事实并对其进行惩罚,经过 softmax 函数得到历史模式的最终预测概率,流程如图 3 所示.(h,r,?,)mkkM假设给定头实体、关系、时间戳和预测尾实体,将基于时间序列的头实体嵌入、关系嵌入、时间戳嵌入和静态嵌入丢弃部分信息防止过拟合,再重塑成三维矩阵,然后将矩阵做卷积核为的二维卷积得到特征图,将其二维卷积后的特征图重塑成一维向量可得m=concat(Re(h);Re(r);Re();Re(hs).(4)M=Conv2d(m),(5)V=Re(M).(6
21、)Re1mnconcatmm R4mnConv2dkfMM Rfiji=4mk+1 j=nk+1 ReM式中:为把嵌入形状改成三维矩阵的运算符号;为拼接操作;为重塑后的三维矩阵,;为二维卷积函数,输入的通道为 1;为卷积核大小;为卷积核个数;为卷积后的特征图,其中,;为把特征图的形状改为向量的运VV RllVl=f i j算符号;为重塑后的特征向量,;为特征向量的长度,.VF将向量送入长短期记忆网络中捕获时间序列信息得到,随后经过一层神经网络输出长度为实体总个数的向量:F=LSTM(V),(7)S=WF+b.(8)FSWb式中:为经过长短期记忆网络训练后的时序特征向量,为尾实体得分,和均为可训
22、练参数.Ht(h,r)为了惩罚一些没有与历史中的头实体和关系形成已知事实的尾实体,通过历史词表判断历史中是否存在过三元组,如果历史中存在过三元组,历史词表向量为.最后用 softmax 函数来估计历史词表中预测尾实体的概率.H=MHt(h,r)abs(M),(9)P=softmax(H).(10)HMHt(h,r)H RN式中:为经过历史词表惩罚后,在不感兴趣的尾实体上赋予的较小数,;为控制实体关系时间重塑二维卷积LSTM一层神经网络Softmax函数嵌入二维矩阵m特征图M时序特征向量F模型训练得分S过滤后的得分H历史惩罚概率P0.200.90.1特征向量 V重塑静态图 3 Sta-HisNe
23、t 的历史模式流程图Fig.3HistoricalpatternflowchartforSta-HisNet1918浙江大学学报(工学版)第57卷absPP RN惩罚力度的超参数;为绝对值函数;为历史模式的预测概率,.2.5 学习目标实体预测的损失函数使用多分类的交叉熵损失函数来表示.尾实体预测损失函数为Lt=T(h,r,t,)DN1n=0tn,ln P(yn|h,r,).(11)TDP(yn|h,r,)tn,式中:为所有的时间戳;为全部训练集的四元组;为当第 n 个被预测尾实体为正确尾实体时,被预测为尾实体的概率.3实验及结果分析利用实体预测对 Sta-HisNet 进行评估,选用ConvE
24、17、RE-NET13、CEN14、RE-GCN15和CyGNET16模型作为基准方法来进行对比.3.1 实验数据实验性能分析中采用 ICEWS18 系统(integ-ratedcrisisearlywarningsystem)17和 GDELT(globaldatabaseofevents,language,andtone)20作为对比实验数据集,这 2 个数据集是动态知识图谱领域通用的数据集.其中 ICEWS18 是从 20181120181031 发生的所有政治事件,每个事件之间都是以 24h 的间隔作为时间戳;GDELT 是从新闻媒体中提取的人类社会规模行为和信念的目录,实验数据集的时
25、间跨度为 2018112018131,每个事件之间都是以 15min 的间隔作为时间戳.数据集都按照 811 的比例划分.数据集的详细统计情况如表 1 所示.表 1 不同知识图谱在公开数据集中的数量统计Tab.1Statisticalinformationonnumberofpubliclyavailabledatasetsbydifferentknowledgegraphs数据集实体数关系数训练集数验证集数测试集数ICEWS18230332563730184599569514GDELT769124017343992387653052413.2 评价标准使用知识图谱推理中常用的 2 个指标2即
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结合 静态 事实 重复 历史 动态 知识 图谱 推理 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。