基于带噪声数据集的强鲁棒性隐含三元组质检算法 (1).pdf
《基于带噪声数据集的强鲁棒性隐含三元组质检算法 (1).pdf》由会员分享,可在线阅读,更多相关《基于带噪声数据集的强鲁棒性隐含三元组质检算法 (1).pdf(6页珍藏版)》请在咨信网上搜索。
1、第 51 卷收稿日期:2022年11月3日,修回日期:2022年12月10日基金项目:辽宁省教育厅高等学校基本科研项目面上项目(编号:20220056);计算机体系结构国家重点实验室开放课题(编号:CARCH201921)资助。作者简介:王梓铭,男,硕士研究生,研究方向:知识图谱。张思佳,女,博士,副教授,研究方向:自然语言处理、海洋渔业领域知识与管理等。安宗诗,女,研究方向:自然语言处理。基于带噪声数据集的强鲁棒性隐含三元组质检算法王梓铭1张思佳1,2安宗诗1(1.大连海洋大学信息工程学院辽宁省海洋信息技术重点实验室大连116023)(2.设施渔业教育部重点试验室(大连海洋大学)大连1160
2、23)摘要知识图谱三元组质检的难点是区分真实三元组和噪声三元组,常用开源知识图谱不包含噪声三元组,目前已有三元组质检算法极少考虑到知识图谱中由于关系传递存在的大量隐含三元组对质检效果的影响,且没有有效利用实体之间的空间语义关联导致对实体特征提取不充分。针对以上问题,提出带噪声数据集的强鲁棒性隐含三元组质检算法(Implied triplet quality inspection,ITQI),首先基于开源数据集制作Neo4J知识图谱;然后基于有向图最长路径搜索算法搜索所有可能的搜索路径,根据知识图谱的关系传递性来构建具有隐含关系的三元组,对源三元组进行扩充能够极大增加有效三元组的个数;最后通过随
3、机采样构建三种类型的噪声三元组。采用TransR预训练得到扩充后的真实三元组的初始特征,然后使用残差网络提取三元组的静态特征、并使用多层BiLSTM提取三元组的内部关联特征,将以上三种特征聚合,得到三元组的融合特征对三元组进行二分类达到三元组质检的目的。论文算法在FB15K数据集上进行实验,实验结果表明论文算法质检效果优于对比算法且鲁棒性最强。关键词三元组质检;噪声数据集;知识图谱;预训练;特征融合中图分类号TP391DOI:10.3969/j.issn.1672-9722.2023.05.012Strong Robustness Implied Triplet Quality Inspect
4、ion AlgorithmBased on Noisy DatasetWANG Ziming1ZHANG Sijia1,2AN Zongshi1(1.Liaoning Provincial Key Laboratory of Marine Information Technology,College of Information Engineering,Dalian OceanUniversity,Dalian116023)(2.Key Laboratory of Environment Controlled Aquaculture(Dalian Ocean University),Minis
5、try of Education,Dalian116023)AbstractThe difficulty of knowledge graph triplet quality inspection is to distinguish between real triples and noise triples,commonly used open source knowledge graphs do not contain noise triples,at present,there are triples quality inspection algorithms that rarely c
6、onsider the impact of a large number of implicit triples on the quality inspection effect due to relationship transmission in the knowledge graph,and do not effectively use the spatial semantic association between entities to lead to insufficient extraction of entity features.To solve the above prob
7、lems,a robust triplet quality inspection(ITQI)algorithm with noisy dataset is proposed,and Neo4J knowledge graph is first made based on open source dataset.Then,based on the longest path search algorithm ofthe directed graph,all possible search paths are searched,and triples with implicit relationsh
8、ips are constructed according to the relational transitivity of the knowledge graph,and the expansion of the source triples can greatly increase the number of effective triples.Finally,three types of noise triples are constructed by random sampling.TransR pre-training is used to extract the static f
9、eatures of the triplet,and then the residual network is used to extract the static features of the triplet,and the internal association features of the triplet are extracted by using multi-layer BiLSTM,and the above three features are aggregated to obtain the fusion features of the triplet and class
10、ify the triplet to achieve the purpose of triplet quality inspection.The experimental results show that thequality inspection effect of the proposed algorithm is better than that of the comparison algorithm and has the strongest robustness.Key Wordstriplet quality inspection,noise dataset,knowledge
11、graph,pre-training,feature fusionClass NumberTP391总第 403 期2023 年第 5 期计算机与数字工程Computer&Digital EngineeringVol.51 No.510422023 年第 5 期计算机与数字工程1引言知识图谱的基本存储单元是三元组,三元组由头部实体、关系和尾部实体组成。三元组之间通过关系联系在一起从而构成一张巨大的有向图。DBpedia1、NELL2等大型知识库均是从多个网站上爬取,清洗制作得到的,其复杂的知识结构往往难以有效的进行质检和分析。制作知识图谱过程中往往会引入一些噪声数据,如虚假的关系,错误的实体,
12、甚至无中生有的三元组。由于制作知识图谱过程各种不可避免引入噪声三元组,这些三元组破坏了知识图谱的网络结构,使得知识难以得到有效的展示,基于知识图谱的知识推荐和搜索会产生致命错误。为对知识图谱进行有效质检,Ruobing Xie3等提出的三元组置信度算法,三元组的置信度可在图谱构建前后进行,置信度计算的结果隐含了知识图谱的内部特征和三元组之间的隐含信息。Shengbin Jia4等基于深度学习模型将三元组的内部语义特征、节点的全局语义依赖信息、以及三元组组成要素之间的可信度整合在一起,构建强鲁棒性的噪声三元组质检算法,其性能远远超出了传统的TransE5、TransR6等算法。Yu Zhao7等
13、将头尾结点实体词向量表示进行了一定的扩充,主要是考虑到实体本就包含了丰富的语义信息。Shengbin Jia和Yu Zhao等均将Trans系列算法作为基础算法,在多个层次上对实体和关系向量进行整合达到较好的结果。但是目前的知识图谱质检存在如下问题:1)大多数学者均是基于常见的开源知识图谱设计质检算法,人为构建噪声数据集,将知识图谱的质检转换成常见的分类任务,噪声数据集的构建缺乏有效的方法;2)复杂的知识图谱如 FB15K-237知识图谱包含237种关系,三元组之间具有复杂的关系传递8,仅以孤立的三元组作为正样本,会极大削弱知识图谱包含的知识。本文提出的算法能够有效解决以上问题,主要创新点如下
14、:1)提出基于搜索深度的关系强弱表征方法。复杂知识图谱节点之间通过关系进行链接,基于链接深度,本文将每个三元组赋予预置权重,表征三元组为真实的置信度;2)使用基于有向图的深度搜索算法,搜索所有可能的路径,基于搜索路径构建新的三元组,用以扩充源三元组的规模;3)基于扩充的三元组构建噪声三元组,本文构建的噪声三元组有三种,分别是替换头实体、替换关系和替换尾实体。由于本文已将源三元组进行了大量的扩充,能够极大避免构建的噪声三元组的任何一对实体之间不存在隐含的传递关系;4)本文使用基于TransR对扩充后的真实三元组进行预训练,得到实体和关系的初始表达,然后使用多种深度学习算法对三元组建模,特征融合最
15、后完成质检。2隐含三元组本文中隐含三元组是指复杂知识图谱中,实体之间的关系传递导致实体之间存在间接关系,基于关系传递构建的新三元组被称为隐含三元组。为更准确的挖掘知识图谱节点之间的隐含语义关系,本文首先对数据集进行预处理,得到隐含三元组数据集,对源图谱中的三元组进行扩充。首先基于 FB15K-237 数据集构建 Neo4J数据库。以实体为搜索起点,搜索以该实体为起点的最长有向路径。遍历数据集的所有实体,得到所有搜索路径,然后删除被包含的子路径,最终得到互不包含的所有路径,并构建实体-关系矩阵E。基于实体关系矩阵利用关系传递方向构建隐含三元组。实体-关系矩阵E如式(1)所示。E=sig00.si
16、g0Dsig10.sigD0.sigDDEntityEntityRD(1)其中,sigij=01,D是数据集中不重复实体的数目,sigij是实体Eni与Enj之间的关系,sigij=0,表示这两个实体之间无关联,sigij=1,表示这两个实体之间有关联。由于该矩阵是基于有向图搜索得到的,三元组与三元组被认为是不同的三元组。基于矩阵E可还原任何一条搜索路径,搜索路径表示如式(2)所示。DPath(2)由于每一条搜索路径均要求相邻节点之间存在有向边,且由头部实体指向尾部实体,故本文基于有向搜索路径构建基于搜索深度的三元组置信度矩阵,该置信度矩阵用来标识每一个三元组中头部和尾部实体关联强弱。考虑到某
17、些实体可能同时包含于多条搜索路径,且由于深度不同造成置信度计算混乱,为解决这个问题,本文只以矩阵E标1043第 51 卷识的最长搜索路径为基准计算构建的隐含三元组的置信度,每条最长搜索路径之间相互独立。置信度计算方式如式(3)所示。rlogk=0Fdkpk1LdkpkLD(3)其中,F 指包含三元组的最长搜索路径个数,dk指当前三元组在当前所属三元组中的搜索深度,pk是当前搜索路径总长度,即包含三元组的个数,L 是所有最长搜索路径的最大长度,通过参数L将所有的置信度进行归一化。3ITQI算法3.1三元组构建及初始化正三元组。本文中,正三元组指头部和尾部实体间存在直接或传递关系而构成的三元组。正
18、三元组的来源有两种:1)训练集提供的原始三元组;2)基于式(1)生成的隐含三元组。噪声三元组。噪声三元组是指不与正三元组有交集,并且不包含于扩充的知识图谱的假三元组。为充分检验本文算法对知识图谱的质检效果,本文集每个原始数据集构建三套噪声数据集,分别是HR_FAKE_T、H_FAKER_T、FAKEH_R_T。HR_FAKE_T是在正三元组基础上随机替换尾部实体、H_FAKER_T是在正三元组基础上随机替换关系、FAKEH_R_T是在正三元组基础上随机替换头部实体。三套噪声数据集的构建过程如算法1所示。算法1 噪声数据集构建/假设关系集合OR,正三元组集合OP,不重复三元组集合OT,不重复实体
19、集合OE/假设原始数据集搜索路径集合OS,3套噪声数据集规模分别是j1,j2,j31)输入:OR、OP、OT、OS、OE、j1、j2、j32)输出:HR_FAKE_T、H_FAKER_T、FAKEH_R_T3)For k in random(OP)/*Work in OP*/4)If length HR_FAKE_T j15)temp=Check(k.h,random(OE),k.t,0)6)HR_FAKE_Ttemp7)Else pass8)If length FAKEH_R_T j29)temp=Check(random(OE),k.r,k.t,1)10)FAKEH_R_Ttemp11)E
20、lse pass12)If length H_FAKER_T j313)temp=Check(k.h,random(OR),k.t,2)14)H_FAKER_Ttemp15)Else pass算法1中,Check函数分别实现对三种噪声三元组的选择,伪代码如算法2所示。算法2 Check(选择噪声三元组)1)输入:RTRIP、OR、OE、OS、find=True/*RTRIP 是传进来的随机三元组*/2)输出:噪声三元组3)While not in OE4)For triplets in OS5)If in triplets6)find=False Break7)If find is True8
21、)Return 9)Else10)If RTRIP.flag=011)RTRIP=(RTRIP.h,random(OE),RTRIP.t,0)12)If RTRIP.flag=113)RTRIP=(random(OE),RTRIP.r,RTRIP.t,1)14)If RTRIP.flag=215)RTRIP=(RTRIP.h,random(OR),RTRIP.t,2)算法1和算法2实现了三种类型噪声数据集的选择和过滤,过滤条件包含两个:1)新产生的噪声三元组不应出现在经扩展的正三元组集合;2)新产生的噪声三元组不应出现在实体-关系关联矩阵E中。通过以上两种过滤方法,能够极大地避免噪声三元组的头
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于带噪声数据集的强鲁棒性隐含三元组质检算法 1 基于 噪声 数据 强鲁棒性 隐含 三元 质检 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。