子图增强的实时同名消歧.pdf
《子图增强的实时同名消歧.pdf》由会员分享,可在线阅读,更多相关《子图增强的实时同名消歧.pdf(12页珍藏版)》请在咨信网上搜索。
1、第3 8卷 第1期2 0 2 4年1月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.1J a n.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 1-0 0 4 5-1 2子图增强的实时同名消歧韩天翼1,2,程欣宇1,2,张帆进3,陈 波3(1.贵州大学 公共大数据国家重点实验室,贵州 贵阳5 5 0 0 2 5;2.贵州大学 文本计算与认知智能教育部工程研究中心,贵州 贵阳5 5 0 0 2 5;3.清华大学 计算机科学与技术系,北京1 0 0 0
2、8 4)摘 要:实时同名消歧旨在实时、准确地将具有歧义的作者姓名的新增论文关联到同名候选作者中的正确作者。当前同名消歧算法主要解决冷启动同名消歧问题,较少探索如何高效并有效地解决实时同名消歧问题。该文提出了子图增强的实时同名消歧模型R N D-a l l,该模型通过高效地融合待消歧论文与候选作者之间的结构特征来提升模型的准确率。模型根据待消歧论文的属性与同名候选作者的档案分别构建子图,使用子图结构特征提取框架来计算图相关性特征,最后,通过特征工程以及文本嵌入方法计算语义匹配特征,并利用集成学习实现语义信息与结构信息的融合。实验结果表明,融入结构信息能够有效提升实时同名消歧任务的准确性,R N
3、D-a l l在百万级同名消歧基准Wh o I s W h o测试集上效果排名第一。关键词:实时同名消歧;图神经网络;结构信息;集成学习中图分类号:T P 3 9 1 文献标识码:AR e a l-t i m eN a m eD i s a m b i g u a t i o nw i t hS u b g r a p hE n h a n c e m e n tHANT i a n y i1,2,CHE N GX i n y u1,2,Z HAN GF a n j i n3,CHE NB o3(1.S t a t eK e yL a b o r a t o r yo fP u b l i c
4、B i gD a t a,G u i z h o uU n i v e r s i t y,G u i y a n g,G u i z h o u5 5 0 0 2 5,C h i n a;2.E n g i n e e r i n gR e s e a r c hC e n t e ro fT e x tC o m p u t i n g&C o g n i t i v e I n t e l l i g e n c e,M i n i s t r yo fE d u c a t i o n,G u i z h o uU n i v e r s i t y,G u i y a n g,G u
5、 i z h o u5 5 0 0 2 5,C h i n a;3.D e p a r t m e n to fC o m p u t e rS c i e n c ea n dT e c h n o l o g y,T s i n g h u aU n i v e r s i t y,B e i j i n g1 0 0 0 8 4,C h i n a)A b s t r a c t:R e a l-t i m en a m ed i s a m b i g u a t i o na i m s t oa c c u r a t e l ya s s o c i a t en e wp a
6、p e r s t o t h e c o r r e c t a u t h o r a m o n gs a m e-n a m ec a n d i d a t e si nr e a l-t i m e.T h i sp a p e rp r o p o s e sas u b g r a p h-e n h a n c e dr e a l-t i m en a m ed i s a m b i g u a t i o n m o d e l,R N D-a l l,w h i c hu s e s t h e s t r u c t u r a l f e a t u r e sb
7、 e t w e e nt h ed i s a m b i g u a t i o np a p e r a n dt h e c a n d i d a t ea u t h o r s t o i m p r o v et h ea c c u r a c y.I n t h i sm o d e l,w e c o n s t r u c t s u b g r a p h sb a s e do n t h e a t t r i b u t e s o f t h ep a p e r t ob ed i s a m b i g u a t e da n d t h ep r o
8、f i l e so f t h ec a n d i d a t ea u t h o r sw i t ht h es a m en a m e,r e s p e c t i v e l y.T h e nas u b g r a p hs t r u c t u r ef e a t u r ee x t r a c t i o nf r a m e w o r k i se s t a b l i s h e dt oc a l c u l a t eg r a p h-c o r r e l a t i o nf e a t u r e s.F i n a l l y,t h ee
9、 n s e m b l el e a r n i n gi sa p p l i e dt oi n-t e g r a t e t h es t r u c t u r a l i n f o r m a t i o na n dt h es e m a n t i ci n f o r m a t i o n,w h i c ha r ed e r i v e db yf e a t u r ee n g i n e e r i n ga n ds e-m a n t i c t e x t e m b e d d i n g.E x p e r i m e n t a l r e s
10、u l t ss h o wt h a t i n c o r p o r a t i n gs t r u c t u r a l i n f o r m a t i o nc a ne f f e c t i v e l y i m p r o v et h ea c c u r a c yo f r e a l-t i m en a m ed i s a m b i g u a t i o nt a s k s,a n dR N D-a l l r a n k sf i r s to nt h et e s ts e to fm i l l i o n-l e v e ln a m ed
11、 i s a m b i g u a t i o nb e n c h m a r kWh o I s W h o.K e y w o r d s:r e a l-t i m en a m ed i s a m b i g u a t i o n;g r a p hn e u r a l n e t w o r k;s t r u c t u r a l i n f o r m a t i o n;e n s e m b l e l e a r n i n g收稿日期:2 0 2 3-0 4-0 8 定稿日期:2 0 2 3-0 6-3 0中 文 信 息 学 报2 0 2 4年0 引言同名消歧
12、旨在确定文献中具有歧义的作者姓名的具体指代对象。随着科技与信息产业的高速发展,各个领域的研究论文与专利发表数量急剧增加,导致了大量作者同名问题以及指代不明的情况。因此,针对同名作者的消歧成为确保谷歌学术、中国知网、AM i n e r等在线学术平台正常运行的关键环节,消歧的准确性对专家发现、学术评估等相关下游任务具有重要意义。同名消歧属于命名实体消歧的范畴1,其消歧对象为具有歧义的作者姓名。尽管同名消歧问题已经研究了数十年2-5,但目前还远没有彻底解决。这导致部分学者需要时常地向谷歌学术反馈消歧有误的论文,否则论文的统计指标(如被引用数等)会受到噪声影响。以往的同名消歧相关研究主要聚焦在冷启动
13、问题,即如何将一批具有相同作者姓名的论文划分为多个归属于不同作者的论文簇3-4,6。该问题通常用于从零构建同名学者档案。当前学术平台经过长期运营已经建立起大量学者档案。截止2 0 2 3年3月,在线学术平台AM i n e r从多个数据源累计整合了超过1亿名专家学者的档案和3.3亿篇文献,而且平均每个月约有7 5万篇新论文入库。学术平台不仅需要收录新增的论文,还需要将论文与现有平台作者进行匹配关联。然而,相同的姓名并不能代表唯一的作者,一篇新增文献中的作者姓名可能对应到平台中多位同名作者。如图1所示,对于新论文中作者名“Y a n gY a n g”,平台已存在多位同名的作者档案,实时同名消歧
14、需要将新论文准确地分配给众多同名候选作者中的正确作者。图中候选作者1的中文姓名为“杨洋”,候选作者2的中文姓名为“杨阳”,两位候选作者的已发表论文均含关键词“g r a p hn e u r a l n e t w o r k”,其中候选作者1的论文机构使用过“Z h e j i a n gU n i v e r s i t y”并与新论文的标题具有共现词汇“R o b u s t”,候选作者2的论文曾出现新论文的共同作者名“L e iC h e n”,可以看到两位候选作者与新论文均有较多的匹配信息,即使通过人工也很难有把握消歧准确。故如何充分利用论文与候选作者的信息以获取更有判别力的消歧特征
15、是一个难点。图1 实时同名消歧 随着科研人数不断增长,同名消歧问题变得越来越具有挑战性。首先,像图1中具有相同姓名且研究相同领域的作者逐渐增多,这将导致实时消歧任务变得愈发复杂。例如,AM i n e r中有超过60 0 0个名叫“Y a n gY a n g”的学者,在清华大学就读或就职过的名叫“杨洋”的学者已经超过4 0个。这使得不同候选作者之间易混淆的相似属性增多。其次,仅使用语义作为特征的实时消歧方法很容易将论文误分。例如,待消歧论文可能与多名候选作者在文章内容上语义相似度较高。在以往的实时同名消歧方法中普遍缺乏待消歧论文与候选作者间结构信息的挖掘与利用。然而,论文和作者的结构信息中可
16、能蕴含着更丰富的匹配信息。例如,同一作者的不同论文的引文网络结构可能类似。因此,本文尝试通过引入子图结构信息来进一步提升实时同名消歧任务的准确度。传统的同名消歧方法根据待消歧人名的属性信64h t t p s:/s c h o l a r.g o o g l e.c o m/h t t p s:/w ww.c n k i.n e t/h t t p s:/w ww.a m i n e r.c n/h t t p s:/h a r z i n g.c o m/b l o g/2 0 1 7/0 2/w e b-o f-s c i e n c e-t o-b e-r o b b e d-o f-1
17、 0-y e a r s-o f-c i t a t i o n s-i n-o n e-w e e k1期韩天翼等:子图增强的实时同名消歧息和文章内容设定具体规则来区分不同作者实体;冷启动同名消歧方法主要利用文章本身内容与文章之间的共同作者、共同机构等结构信息将任务处理为聚类问题;而对于实时同名消歧,相关研究分为基于语义信息与基于结构信息两类方法。在基于语义信息的方法中,一类方法通过特征工程提取出待消歧论文与候选作者档案在标题、关键词、机构等多方面的共同信息来进行消歧,另一类方法基于度量学习等有监督方法来学习论文与作者的嵌入向量以用于消歧;在基于结构信息的方法中,通常将所有候选作者及相关邻居
18、节点(如论文等)构建一张大图,对于每篇新增的论文节点,均需要重构大图并重新训练嵌入向量。已有的实时同名消歧方法获取结构信息的效率较低,所需要的计算开销随着大图规模的扩大而逐步增长。因此,本文旨在解决实时同名消歧任务中的两个问 题,一 是 如 何 设 计 一 种 高 效 的 归 纳 式 学 习(I n d u c t i v eL e a r n i n g)的模型,能够在每新增一篇待消歧论文时,直接获得该文与各位同名候选学者之间的结构特征,同时考虑到学者在不同阶段所研究的领域以及所处的机构可能存在的差异,要求模型能实现待消歧论文与候选学者之间的细粒度匹配;二是如何将语义与结构两方面信息进行有效
19、的融合,以实现对更复杂场景的实时消歧,并获得更优秀的消歧效果。本文提出了子图结构增强的实时同名消歧 模 型R N D-a l l(R e a l-t i m e N a m e D i s a m b i g u-a t i o nI n t e g r a t i n gA l lT h eI n f o r m a t i o n),首先分别对待消歧论文和候选作者构建自我中心网络(E g oN e t w o r k),利用图注意力网络对中心节点与邻居节点特征进行加权聚合来捕获局部图的结构信息,然后对论文子图与作者子图进行细粒度交互,并采用径向基核函数(R a d i oB a s i s
20、F u n c t i o nK e r n e l,R B F)计算待分配论文与候选作者的图相关性特征,最后,通过集成学习的方法将结构信息与语义信息进行融合。本文所提模型在W h o I s W h o实时同名消歧数据集中取得最好结果,相比最优的基线方法C O N N A7在H R1、H R3和MR R上分别提高3.9 9%、1.2 4%和2.5%。R N D-a l l在同名消歧基准W h o I s W h o实时消歧任务测试集上效果目前排名第一。本文组织结构安排如下:第1节介绍同名消歧以及图神经网络的相关工作;第2节提出实时同名消歧的相关定义;第3节和第4节介绍端到端提取结构信息的框架
21、和使用子图增强的实时同名消歧模型;第5节为实验结果分析;第6节总结全文。1 相关工作1.1 同名消歧研究 同名消歧问题主要分为两个子问题进行研究,即冷启动同名消歧与实时同名消歧。冷启动同名消歧对应于学术平台创建初期,此时需要将收集的大量论文进行划分,使得划分后同一组内的论文属于同一个现实作者,不同组的论文属于不同的现实作者,故冷启动消歧常定义为聚类问题。H u a n g等人3采用B l o c k i n g方法将具有同名作者的待消歧论文聚合为簇,之后使用支持向量机 学 习 簇 内 各 论 文 间 的 距 离 关 系,最 终 利 用D B S C AN对簇内论文进行聚类。L o u p p
22、e等人4基于论文之间的相似度采用半监督的层次聚类进行消歧。T a n g等人8通过待消歧论文间引用关系、共同作者名、共同会议名等信息构建五维消歧特征后利用 隐 马 尔 可 夫 随 机 域 实 现 对 不 同 作 者 的 区 分。Z h a n g等人9构建作者-作者、论文-作者、论文-论文三种图,利用学习的图嵌入向量进行聚类。陈晨等人1 0使用谱聚类对社会网络中的人名聚类,并引入模块度阈值作为网络停止划分的条件。S u b r a m a n i-a n等 人1 1将8个 主 流 同 名 消 歧 数 据 集 整 理 为S 2 AN D数据集,并发现在此数据集下训练的冷启动同名消歧算法具有更好的
23、泛化能力。当前谷歌学术、AM i n e r等在线学术平台已经建立起大量学者档案,所面临的最大挑战是如何将姓名上具有歧义的新论文准确而又高效地分配给对应作者,即实时同名消歧。此任务需要依据新入库的待消歧论文与已有的各个同名候选作者的相关特征做出分配判断。Z h a n g等人6通过度量学习的方式得到论文与作者的嵌入向量,通过论文与各作者向量在表征空间的距离来确定所要分配的作者。D o n g等人1 2利用作者与待分配论文之间共同机构、共同会议、共同作者等关系构建异质图,并使用随机游走将待消歧论文与候选作者表示为嵌入向量,Z h a n g等人1 3则预先使用门控循环单元(G a t eR e
24、c u r r e n tU n i t,G RU)得到论文的语义嵌入向量,之后在论文与作者的关系网络上使用随机游走以捕获结构特征,最后将论文与作者表示为低维稠密的74截至2 0 2 3年3月2 5日,R N D-a l l在Wh o I s Wh o实时同名消歧子 任 务 排 行 榜 上 排 名 第 一 已 持 续1个 月。详 见h t t p:/w h o i s w h o.b i e n d a t a.x y z/#/中 文 信 息 学 报2 0 2 4年向量用于实时消歧任务。Z h a o1 4在K D DC u p提出使用特征工程构建文本特征搭配梯度提升决策树(G r a d i
25、 e n tB o o s t i n gD e c i s i o nT r e e,G B D T)的方法对论文做出分类预测。C h e n等人7使用预训练模型B E R T1 5对待消歧论文以及候选作者每篇论文在各属性下进行细粒度的相似度计算,将丰富的语义特征用于消歧。L i等人1 6则提出了统一冷启动与实时消歧的方法,首先将共同作者名出现次数多的论文构建出高精确率的论文簇,再根据新增论文与各论文簇的语义相关性,按照合并作者节点的方式进行实时消歧。可见,解决同名消歧的方法主要分为基于文献语义特征的同名消歧和基于文献结构特征的同名消歧。融合语义特征和结构特征的同名消歧方法具有较优的研究意义
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 增强 实时 同名
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。