基于张量分解嵌入的时序知识图谱推理.pdf

上传人：自信****多点

文档编号：3656888

上传时间：2024-07-12

格式：PDF

页数：6

大小：936.60KB

《基于张量分解嵌入的时序知识图谱推理.pdf》由会员分享，可在线阅读，更多相关《基于张量分解嵌入的时序知识图谱推理.pdf（6页珍藏版）》请在咨信网上搜索。

1、第卷第期年月北京信息科技大学学报（自然科学版）（）文章编号：（）：基于张量分解嵌入的时序知识图谱推理刘伟，谢璐钧，张智慧，陈亚繁（北京信息科技大学自动化学院，北京；北京航天智造科技发展有限公司，北京）摘要：针对现有时序知识图谱推理中外推方法没有充分利用时间信息的问题，受张量分解模型的启发，提出将关系嵌入分为静态和动态（时序）个部分，并通过头实体嵌入、关系嵌入和所有实体嵌入之间的双线性评分函数，计算得到对象实体的概率，从而预测对象实体。最后，在个数据集上的实验结果验证了该方法的有效性。关键词：时序知识图谱；表示学习；张量分解中图分类号：文献标志码：，（，；，）：，（），：；

2、收稿日期：基金项目：国家重点研发计划（）；北京信息科技大学校科研基金项目（）作者简介：第一作者通信作者：刘伟，女，博士，讲师。引言知识图谱可以看作是由多个三元组组成的语义网络，主要用于描述现实世界中实体、概念或事件之间的关系。传统用三元组表示的语义网络，其表达的关系往往是静态的，然而在实际使用场景中，实体之间的关系通常会随着时间的推移而变化。因此，学者们提出构建四元组形式的知识网络，也就是为原始三元组多分配一个额外的时间变量。加入时间属性的知识图谱被称为时序知识图谱（，）。关于时序知识图谱的推理，目前较为流行的方法是基于嵌入的推理方法，即将实体与关系转换为嵌入表示来进行推理。表示学习模型可

3、分为平移距离模型、语义匹配模型以及神经网络模型。其中，平移距离模型使知识图谱中的头实体、关系以及尾实体向量满足平移距离约束。典型的模型如，使用和范数衡量两实体之间的距离，实现使头实体向量和关系向量的和贴近尾实体向量的目的，在处理复杂关系时实体区分性较低。为解决这个问题，将头尾实体分别投影到关系所在的超平面。上述方法虽效果有所提升，然而因为引入空间投影，导致参数增多，复杂度变高。语义匹配模型使用基于相似度的评分函数来计算实体和关系的语义联系。典型的模型有，它通过低维的实体矩阵和低维的关系矩阵乘积的形式，来判断每个三元组成立北京信息科技大学学报（自然科学版）第卷的可能性。为克服模型过拟合

4、的问题，将原关系矩阵转化为对角矩阵。近来的模型，将一个三阶张量分解为一个核心张量每一维度乘上一个矩阵作为评分函数。神经网络模型是使用深度神经网络的表达能力，进行实体和关系的特征学习。典型的方法如，用一组神经网络的参数来表示关系。另外，对实体和关系的向量进行二维卷积操作，来建模实体间和关系间的交互；通过图卷积神经网络将实体的邻域信息进行聚合，来更新实体的嵌入表示。近几年提出的、以及等模型也是基于神经网络的方法。目前关于时序知识图谱嵌入方法的研究可分为内推与外推，其中内推是补全部分事实已知的时序知识图谱序列所缺失的事实，而外推更多关注于时序知识图谱的预测，即通过已知事实来预测未来的事实。

5、现有的时序知识图谱表示学习模型，如可以基于历史事实来识别可能重复发生的事实。然而，在类似方法中，中四元组的嵌入并没有充分利用时间信息。中的关系具有不同的时间特性，具体可以分为静态属性和动态属性。受其启发，本文将关系的张量嵌入分解为静态和动态（时序）部分，同时将上述关系和实体张量嵌入的乘积作为模型的评分函数，对模型进行训练，得到模型的各个张量嵌入表示，所提方法可称为分解张量嵌入序列网络（，）。最后，通过对比实验验证了该模型的有效性。分解张量嵌入序列网络时序知识图谱可以看作是四元组（头实体，关系，尾实体，时间戳）事实的集合，将四元组记为（，）。实体集合中，元素数量为

6、，张量嵌入的维度为。和分别对应头实体和尾实体，；对应关系，关系集合中元素的数量为，；对应时间戳，时间戳集合中的元素数量为，。定义是时刻时序知识图谱的事实集合，这样可定义整个时间范围的时序知识图谱，其中，。另外，对于在时间步骤的每个头实体和关系，定义了特定于（，）的实体集合子集，它包括了发生在之前的时序知识图谱集合，可作为尾实体，与头实体和关系及当时时间戳构成四元组事实的实体集合，通过对事实集合进行维多热（）向量表示，得到指示向量（，）称为历史词汇表。本文所提出的模型使用分解张量嵌入的双线性函数，同时结合历史词汇表的指导作为评分函数，通过训练四元组各元素的嵌入以及

7、相关网络参数，使有效的四元组比无效的四元组得分更高。训练完成后，使用上述评分函数来推断确定四元组事实的可能性。具体地，在四元组事实的有效性得分判定之后，通过分数排序确定在给定时间的事件中预测缺失实体的最大可能，例如（，？，）表示给定头实体、关系和时间戳，预测尾实体；或者（？，）表示给定关系、尾实体和时间戳预测头实体。对于预测缺失实体，该模型假设既可以从历史事件中得到结论，即已经发生过的事情可能重新发生；也可以从历史事实中推导结论，即发生以前没有的事实。对应地，模型中构建了种推理模式：复制模式和生成模式。前者实现从历史词汇表中预测出一个对象实体，后者则从整个实体集中预测出一个新的对象实体。历史

8、词汇表构建首先，通过检查在某时刻是否存在可与头实体和关系构成四元组事实的尾实体来构建历史词汇表。如果存在此事实，则将词汇表中对应的实体设为，否则设为，这将形成一个独热（）向量。在整个时间段上执行上述操作，可形成多个时刻的历史词汇集（，），（，），（，），（，）是一个维的多热指示向量，它包含了在事实集合中所有可与头实体和关系构成四元组事实的尾实体集合。本文按照时间顺序，与递归的方法类似，按照式（）所示的方式，通过增量维护历史以前所有时刻的词汇表。在训练过程中形成的历史词汇表，是包含了所有历史词汇（包含新生成的词汇）的新集合（，），它将被用于评估所提模型在验证集和测试集中的性能。该集合的构成

9、方式为（，）（，）（，）（，）（）四元组的分解张量嵌入时序知识图谱中，实体、关系和时间的张量嵌入维度分别为、和。设训练时一个批次的四元组数量为，为了便于对每个批次进行分解张量嵌入网络的训练进行介绍，将每个批次的张量嵌入的定义具体为该批次的张量值，即实体张量嵌入为、关系张量嵌入为和时第期刘伟等：基于张量分解嵌入的时序知识图谱推理间张量嵌入为。由于关系具有时间属性，可能会随着时间发生变化，即对于同一个对象实体，在不同的时间对应的关系和实体可能不同。因此，模型在评估实体间关系时，将关系视为时变的。然而，并非所有的关系都会随时间而变化，因此，模型将关系张量嵌入分解为静态关系张量嵌入和

10、动态时间关系张量嵌入的叠加。其中，动态时间关系张量嵌入可表示为动态关系张量嵌入与时间张量嵌入的哈达玛（）积，即。设时间基张量嵌入，令为和当前时间戳的乘积。则时序知识图谱的关系张量嵌入可计算如下：（）式中：第一部分是通过初始化静态关系张量嵌入并学习不同时间的事实集合得到的；第二部分是动态关系张量嵌入和时间张量嵌入的哈达玛积。它也需要先对模型进行初始化，并根据不同时间的事实集进行学习后获得。复制模式复制模式结合历史事实的发生概率来预测未来可能重复出现的事实。以预测缺失的尾实体为例，如果历史词汇表（，）中出现了某尾实体，则预测结果中该实体的估计概率将被增加。首先，利用双

11、线性评分函数得到头实体、关系矩阵和整个实体集之间的相关性。是一个维向量，表示对应于所有实体的嵌入张量，。（）由于复制模式需要考虑历史事实的影响，所以模型将历史事实中不太可能出现的对象实体的评分值修改为较小的数值。具体地，将评分函数加上（，），（，）是将历史词汇表（，）中未出现的实体的索引所对应的值改为一个无限小的数值（如），这是因为如果将该无限小数值设为，则通过归一化指数函数函数可计算出，出现实体和未出现实体的概率差异大于个数量级，这将对出现和未出现实体的概率实现有效区分。最后，使用函数获得历史词汇表中的尾实体的概率。（，）（）（）（）生成模式生成模式是复制模式的补充。由于待预

12、测实体也可能出现在历史词汇表中已存在的实体之外，因此需要构建新的模式来预测它们。与复制模式不同，生成模式的尾实体是整个实体词汇表，生成的预测实体不需要参考历史事实，可以直接视为新实体。生成模式同样使用双线性模型来获得头实体和关系矩阵和整个实体集间的相关性，用一个维向量表示。（）由于生成模式不考虑历史事实，所以无需对历史词汇表进行修改，直接通过函数得到从整个实体词汇表中生成尾实体的概率。（）（）学习目标给定预测范围的实体预测可以视为多分类任务，其中每个分类对应一个实体。因此，所提模型的学习目标是对训练期间存在的所有事实最小化以下交叉熵损失。（，）（）式中：表示时刻时序知识图谱中的第个

13、尾实体标签；（，）表示当尾实体标签为时，实体集中第个实体的预测概率值。推理为了对四元组（，？，）中缺失的尾实体进行预测，复制模式和生成模式都给出了相应的预测结果，但两者的预测对象都是整个实体集。因此，为了保证实体集中所有实体的概率之和等于，引入了一个系数，来调整复制和生成模式之间的权重，通过对种模式得到的概率值，如式（）和式（）所示，进行加权求和，得到整个实体集中所有实体的预测概率值。最终的预测对象将是组合概率（，）最高的实体。（，）（）（）实验实验在个公开数据集上验证该模型的有效性。首先阐明实验的配置，包括实验环境及实验参数设置，然后对实验结果进行讨论。实验配置本文实验使用

14、中央处理器为（）（），显卡为的硬件配置。所提出的模型使用相同的个基准数据集进行测试。这个数据集分别是：，一个关于时间、语言和语调的全球数据库；维基百科的子集和的子集北京信息科技大学学报（自然科学版）第卷。表展示了个数据集的统计量。个数据集根据时间顺序按的比例分为训练集、验证集和测试集。表不同数据集的统计量数据集实体数量关系数量训练集数量验证集数量测试集数量时间粒度时间戳数量将所提出的模型与目前较为流行的模型，如、等进行了性能对比。本文选取平均倒数排名（，）、和对模型的性能指标进行度量。其中，代表在链接预测中排名小于的三元组的平均占比。在测试时，针

15、对所提出的模型评测，还使用了常用的过滤评价约束，即从测试候选四元组中剔除真实的四元组所对应的尾实体，同时加入未在训练集中的尾实体，以获得相关性能指标。超参数的设置取决于每个验证集的性能，如式（）中的系数在范围之间以步长为进行调节取值。经实验测试，本文在集上的设置为，和上设置为。由于超参数的选择会影响模型性能，实验选取了不同超参数值来验证模型的有效性。由表可以看出，在数据集上，本文算法在为时的性能优于。表不同超参数在数据集上的性能对比除了超参数的选取，嵌入维度的选择也会对模型性能产生影响。实验对比了嵌入维度为和测试结果，如表所示。可以看出，在数据集上的效

16、果前者要比后者好。因此，本文选择嵌入维度为进行后续实验。另外，模型选用方法进行初始化，然后使用方法进行优化。学习率设为，批大小为，训练轮次设置为。表不同嵌入维度在数据集上的性能对比嵌入维度实验结果本文所提模型与其他种模型性能对比如表所示，其中最好的结果用加粗表示，次好的结果用下划线表示。由表可以看出，本文提出的模型性能优于目前几种流行的模型。这表明，在考虑实体之间的关系时，考虑关系的时间属性会带来性能的提升。表显示，在不同的数据集上，性能的提升是不同的。在数据集上，本文所提模型性能提升优于其他基准数据集。但是这并不意味着所有预测精度的提高。从表可以看到，数据集虽

17、然整体预测效果提高，但是和的值分别下降了和。表不同模型在个数据集上的性能对比模型（本文）第期刘伟等：基于张量分解嵌入的时序知识图谱推理表本文所提模型相比于模型的性能增量数据集该模型在数据集上的训练过程中，尾实体和头实体预测的损失函数变化如图所示。可以看出，针对头实体和尾实体，在训练初始阶段，该方法就可以达到较好的效果。尤其针对尾实体，该方法收敛更快。这是因为数据集中重复的头尾实体比例不平衡，经统计得到训练集中尾实体的历史重复率为，而头实体的历史重复率为，也就意味着在预测头实体过程中，本文所提模型的复制模式将无法对重复率过高（）的头实体相关事实进行有效筛选，也

18、将无法有效降低历史上未发生事实的预测概率，这时复制模式无法发挥优势。然而，对于没有达到非常高重复率的尾实体的预测，本文所提模型将会表现出其优势。图训练过程中损失函数的变化结束语时序知识图谱的表示和推理是一个具有挑战性的问题。本文根据关系的时变特性，将关系嵌入分解为静态和动态个部分来解决这个问题。同时，本文所提模型融合了复制模式和生成模式种推理模式，既可以从历史事件中得到结论，即已经发生过的事情可能重新发生，也可以从历史事实中推导结论，即发生以前没有的事实。实验结果表明，具有时间属性的关系嵌入矩阵在预测时序知识图谱中未来事实方面具有更好的性能。进一步地，可以对历史词汇表的构建进行改进，以

19、提高模型的性能。参考文献：田萱，陈杭雪推荐任务中知识图谱嵌入应用研究综述计算机科学与探索，（）：，（）：（），：，：，：，：，：，：，：，：，：，：，：，：，：，：，杜文倩，李弼程，王瑞融合实体描述及类型的知识图谱表示学习方法中文信息学报，（）：，（）：（），：，：苏丰龙，景宁基于关系聚合的时序知识图谱表示学习浙江大学学报（工学版），（）：，北京信息科技大学学报（自然科学版）第卷（），（）：（），：，：，：，：（），：，：，：，：封皓君，段立，张碧莹面向知识图谱的知识推理综述计算机系统应用，（）：，（）：（），：，（）：，：，：，：（），：，：（上接第页），：，：，：，：，：，：王岳，李雅文，李昂科技资源文本层次多标签分类方法计算机工程与应用，（）：，（）：（）

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于张量分解嵌入时序知识图谱推理

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。