基于多头自注意力模型的本体匹配方法.pdf
《基于多头自注意力模型的本体匹配方法.pdf》由会员分享,可在线阅读,更多相关《基于多头自注意力模型的本体匹配方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023年第49卷第6期无线电通信技术1081doi:10.3969/j.issn.1003-3114.2023.06.013引用格式:吴楠,唐雪明.基于多头自注意力模型的本体匹配方法J.无线电通信技术,2023,49(6):1081-1087.WU Nan,TANG Xueming.Ontology Matching Method Based on Multi-Head Self-Attention Model J.Radio Communications Technology,2023,49(6):1081-1087.基于多头自注意力模型的本体匹配方法吴 楠1,唐雪明2(1.南宁师范大学
2、计算机与信息工程学院,广西 南宁 530199;2.南宁师范大学 物理与电子学院,广西 南宁 530199)摘 要:随着语义网的发展,本体数量不断增加,本体间的语义关系变得越来越复杂。因此,引入 OWL2Vec方法获取本体的语义嵌入表示。通常,匹配的类或属性具有相似的结构,因此利用了字符级和结构级的相似性度量。为高效融合多种相似度值,提出基于多头自注意力模型的本体匹配方法(Ontology Matching Method Based on Multi-Head Self-Attention,OM-MHSA)自主学习各相似度方法对匹配结果的贡献值。在国际本体对齐评测组织(Ontology Ali
3、gnment E-valuation Initiative,OAEI)提供的 Conference 数据集上进行实验,结果表明,相对 LSMatch 和 KGMatcher+方法,提出的模型准确率(Precision)提升了 6%,召回率(Recall)和 F1 值(F1-measure)超过了 ALIOn、TOMATO 和 Matcha 等方法。可见,提出的模型能够提升匹配结果的效率。关键词:语义关系;OWL2Vec;本体匹配;多头自注意力模型中图分类号:TP391.1 文献标志码:A 开放科学(资源服务)标识码(OSID):文章编号:1003-3114(2023)06-1081-07Ont
4、ology Matching Method Based on Multi-Head Self-Attention ModelWU Nan1,TANG Xueming2(1.School of Computer and Information Engineering,Nanning Normal University,Nanning 530199,China;2.School of Physics and Electronics,Nanning Normal University,Nanning 530199,China)Abstract:With the development of the
5、Semantic Web,the number of ontologies continues to increase,which leads to the semantic relationships between ontologies becoming increasingly complicated.Consequently,an OWL2Vec approach is introduced to obtain se-mantic embedding representations of ontologies.Typically,matching classes or properti
6、es have similar structures,thus utilizing character-level and structural-level similarity metrics.In addition,to integrate multiple similarity values efficiently,the Ontology Matching Method Based on the Multi-Head Self-Attention(OM-MHSA)Model is proposed to independently learn the contribution valu
7、e of each similarity approach to the matching results.Experiments on the Conference dataset delivered by the Ontology Alignment Evaluation Initiative indi-cate that the proposed method enhances the Precision by 6%compared with LSMatch and KGMatcher+methods,and the Recall and F1-measure exceeds metho
8、ds such as ALIOn,TOMATO,and Matcha.It can be noted that the proposed model can enhance the efficiency of matching results.Keywords:semantic relationships;OWL2Vec;ontology matching;MHSA model收稿日期:2023-07-25基金项目:广西研究生教育创新计划项目(YCSW2023437)Foundation Item:Innovation Project of Guangxi Graduate Education
9、(YCSW2023437)0 引言本体(Ontology)通常由该领域内的专家、学者定义,由于构建准则的多样性及研究者们对于知识理解的程度不同,导致本体异构(Ontology Heteroge-neity)现象1。为建立具有语义相关概念之间的对应关系,解决不同本体间的知识共享问题,提出了本体匹配(Ontology Matching,OM)方法,本体匹配也称为本体对齐(Ontology Alignment,OA)2。研究表明,两个概念间单一的相似度方法无法准确判断两个概念是否匹配,综合衡量多种相似性1082Radio Communications TechnologyVol.49 No.6 20
10、23策略可以有效提升匹配效率3。近年来,研究者们围绕如何更高效地整合多种相似度计算结果,提出基于机器学习的本体匹配方法4。该方法的基本思想是将匹配问题转化为分类问题,采用分类模型判断两个概念是否匹配。例如,Bulygin 等人5提出一种将基于字符、语言和结构的相似性结果与机器学习技术相结合的方法。该方法未考虑不同相似性结果之间的相关性,导致匹配结果不理想。因此,吴子仪等人6提出一种基于自注意力模型融合多维相似度的方法。实验结果表明,与传统的机器学习方法相比,该方法能够自主学习不同相似度方法之间的权重,从而高效地融合匹配结果,得到了更佳的匹配效果。此外,Rudwan 等人7提出一种将模糊字符匹配
11、算法和双向编码器模型与三个回归分类器相结合的方法。首先,考虑了本体的词汇和语义特征,以解决模糊字符匹配算法的局限性。然后,使用机器学习方法改善匹配的结果。该方法忽略了概念间的结构特征,导致匹配结果的准确率不高。综上所述,本文提出一种基于多头自注意力模型的本体匹配方法(Ontology Matching Method Based on the Multi-Head Self-Attention Model,OM-MHSA)。主要有三个贡献:同时考虑类和属性的多种相似度。采用 OWL2Vec方法8获取本体的语义嵌入表示,高效提取本体中包含的图结构、词汇信息以及逻辑构造函数等语义信息,以挖掘本体间隐
12、藏的语义关系。使用 Multi-Head Self-Attention Model融合三种不同相似性度量结果并判断实体是否匹配。1 相关工作1.1 相关定义因本体的结构较为复杂,通常采用 Web 本体语言(Web Ontology Language,OWL)进行描述。当前,对本体没有标准的定义,将采用最常见的形式化定义。定定义义 1 1 本体9按照分类法由 5 个基本元素构成。通常也将本体写为如下三元组形式:O=,(1)式中:C 代表类集合,P 代表属性集合,H 代表类的层次关系。类和属性统称为概念,而概念的实例也称为实体10。因此,本文将同时考虑本体中类和属性的相似度。定定义义 2 2本体匹
13、配11方法的思想是找到具有相似或相同含义的概念之间的语义关联,其中每一对关联概念被称为一个匹配对(或映射对)。为方便理解,本文的匹配任务仅考虑两个概念等价的情况。对于两个待匹配的本体 O1和 O2,可写成如下形式:R=,(2)式中:R 代表两个本体的匹配结果,e1O1代表本体O1中的实体,e2 O2代 表 本 体 O2中 的 实 体,f(e1,e2)代表实体 e1与 e2关系的置信度,且 f 的取值区间为0,1。f 值越大,说明实体 e1与 e2表示相同事物的概率越高。1.2 相似度度量方法本体匹配方法一般是研究不同本体间实体的相似性,从而实现本体间的互操性。为全面、精确地衡量本体中类和属性的
14、相似性,可以从字符级、语义级和结构级等不同角度出发。1.2.1 基于字符的相似性计算方法该方法的基本思想是:对于待匹配的两个实体,将字符的共现和重复程度作为匹配对的相似值12。常规的计算方法有 N-gram、编辑距离(Edit Dis-tance)、最长公共子串(Longest Common Sub-string)等。基于 N-gram 计算实体的相似度公式如下:sim(e1,e2)=mNmax(length(e1),length(e2),(3)式中:N 代表滑动窗口的大小,通常取值为 1、2、3、4;m 代表实体 e1与 e2同时出现 N 个相同排序的字符个数;max(length(e1),
15、length(e2)代表取实体 e1与 e2长度的最大值。利用式(3)以 N=3 为例,计算 e1=“significant”和 e2=“signature”的相似度值如下:e1与 e2具有两个相同排序的字符“sig”“ign”,故相似度为 sim(e1,e2)=2(3/11)=0.545。“significant”译为显著的,“signature”译为签名,二者在语义上并无关联。因此,不能只考虑该方法,需结合其他相似度计算方法。1.2.2 基于语义的相似性计算方法顾名思义,该方法可挖掘实体间语义层面的相似性13。常用的方法有同义词典 WordNet14、词嵌入 Word2vec15。与典型的
16、知识图相比,OWL 不仅包含图结构、词汇信息,还包括逻辑构造函数(Logi-cal Constructors)。而 OWL2Vec方法可以较好地对2023年第49卷第6期无线电通信技术1083这 些 信 息 进 行 语 义 编 码,所 以 本 文 将 选 择OWL2Vec方法获取匹配本体的语义表示,再使用式(4)计算相似度:sim(v1,v2)=v1v2v1v2=ni=1(v1iv2i)ni=1v21ini=1v22i,(4)式中:v1代表实体 e1的语义嵌入表示,v2代表实体e2的语义嵌入表示,sim(v1,v2)的取值范围为-1,1,-1 表示实体 e1与 e2完全不相似,1 表示完全相似
17、。1.2.3 基于结构的相似性计算方法本体除文本信息外,还可利用 subclassof、is-a 和part-of 等语义关系获取本体的结构信息。匹配的类或属性往往具有相似的结构16。因此,本文将考虑实体的父类及类路径之间的相似度。例如,使用Protg 软件查看 ekaw 本体概念层次的部分结果如图 1 所示,可以看出,对于类“Conference_Trip”,其父类为“Social_Event”,类的完整路径为“Thing/Event/Social_Event/Conference_Trip”。图 1 父类及其路径信息Fig.1 Parent class and its path infor
18、mation2 基于多头自注意力的本体匹配模型图 2 为本文提出的匹配模型,处理过程主要分为 4 步。首先处理输入的 OWL,接着计算相似度值,然后利用 Multi-Head Self-Attention 模型学习特征的权重,最后输出匹配的结果。图 2 本体匹配模型图Fig.2 Ontology matching model diagram2.1 数据预处理(1)提取文本信息本体包含丰富的信息,但有些信息利用描述逻辑(Description Logic,DL)隐式表示。因此,需利用特定工具解析待匹配本体。本文选择 OWLReady2包中可操作 OWL 的函数,抽取待匹配本体的类、属性、类的父类
19、及类的完整路径等信息。(2)获取语义嵌入表示首先,从本体的图结构、逻辑构造函数和词汇中提取信息,构建相应的结构和词法语料库。然后,从结构语料库和实体注释中进一步提取出组合文档,以保留词汇信息中实体和单词间的相关性。最后,将结构、语法和组合语料库融合为一个语料库,利用Skip-gram 模型训练词嵌入,以获得本体的语义嵌入表示。2.2 计算相似度值 从本体 O1和 O2中取出两个待匹配的类和属性,记为实体 e1与 e2,将实体的父类记为 parent1和 parent2,将类的完整路径记为 Path1和 Path2。利用式(3)(4)依次计算实体 e1与 e2的字符、语义和结构相似度,分别记为
20、simstring(e1,e2),simsemantic(e1,e2),simstructure(e1,e2);同理,计算实体父类及类路径的字符、语义以及结构相似度。1084Radio Communications TechnologyVol.49 No.6 20232.3 相似度特征矩阵假设本体 O1和 O2共有 N 个实体对待匹配,其中每个实体对记为 i。对于待匹配的实体对 i 分别使用字符级、语义级和结构级的相似度方法计算其相似度值。其相似度特征向量可写为如下形式:Xi=simstringi,simsemantici,simstructurei,(5)式中:i 代表实体对,取值范围为1,
21、N;Xi表示实体对 的 相 似 度 特 征 向 量;simstringi、simsemantici和simstructurei分别表示实体对的字符、语义和结构相似度特征向量。经过上述步骤,可得本体 O1和 O2间的相似度特征矩阵。2.4 Multi-Head Self-Attention 模型为高效融合实体对的字符、语义和结构相似度特征,引入 Multi-Head Self-Attention 模型17自主学习每种相似度方法的权重,以 Head=3 为例,其模型如图 3 所示。图 3 Multi-Head Self-Attention 模型图Fig.3 Multi-Head Self-Atte
22、ntion model diagram 对每组输入特征 X=x1,x2,xn 都与三个权重矩阵相乘,取得查询向量(Query)、键向量(Key)和值向量(Value)。计算如式(6)(8)所示:Qi=WQiX,(6)Ki=WKiX,(7)Vi=WViX,(8)式中:i 的取值为 1、2、3,WQ、WK、WV分别代表三个权重矩阵,X 代表相似度特征矩阵。使用缩放点积注意力(Scaled Dot-Product Attention)计算注意力得分,并利用 softmax 函数将注意力分数映射到0,1。计算如下:Attention(Q,K,V)=softmaxKTQDk(),(9)式中:Attent
23、ion(Q,K,V)表示多头注意力层的输出向量,KTQ 表示注意力权重的计算过程,Dk表示查询和键的长度。利用式(10)(11)合并三个头的结果:Headi=Attention(Qi,Ki,Vi),i=1,2,3,(10)MultiHead(Q,K,V)=Concat(Head1,Head2,Head3)。(11)最后连接一个全连接层判断本体是否匹配。3 实验结果及分析3.1 实验环境及数据集实验 运 行 环 境 为 Intel(R)Core(TM)i7-6700CPU 3.4 GHz,内存为 8 GB 的计算机,采用Python 语言编写。本次实验采用本体对齐评测组织(Ontology Al
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多头 注意力 模型 本体 匹配 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。