基于实例分布约束的事件语义自动划分.pdf
《基于实例分布约束的事件语义自动划分.pdf》由会员分享,可在线阅读,更多相关《基于实例分布约束的事件语义自动划分.pdf(11页珍藏版)》请在咨信网上搜索。
1、Electronics and Information EngineeringMar.20242024年3 月Vol.42No.2应第42 卷第2 期用报学学应用科JOURNALOFAPPLIEDSCIENCESDOI:10.3969/j.issn.0255-8297.2024.02.013基于实例分布约束的事件语义自动划分高剑奇,骆祥峰,裴昕淼上海大学计算机工程与科学学院,上海2 0 0 444摘要:针对离散分布于新闻文本集合中的事件语义难以聚合的问题,提出了基于实例分布约束的事件语义自动划分算法。首先,利用远程监督方法,构建用于事件语义划分的训练数据集;其次,设计基于实例分布约束的事件语义
2、分类器,用于判断新的事件触发词的加入是否影响事件语义的聚合;最后,在该分类器的基础上设计事件语义集合生成算法,在不需要预先设定事件类型的情况下,将分布离散的事件触发词自动地划分到不同的事件语义集合中。结果表明本方法可有效实现事件语义的自动划分,为事件语义的高质量聚合提供了一种新的探索。关键词:实例分布约束;事件语义自动划分;远程监督:事件语义分类器;集合生成算法中图分类号:TP391文章编号:0 2 55-8 2 9 7(2 0 2 4)0 2-0 3 2 3-11Automatic Event Semantic Division Based onInstance Distribution C
3、onstraintsGAO Jianqi,LUO Xiangfeng,PEI XinmiaoSchool of Computer Engineering and Science,Shanghai University,Shanghai200444,ChinaAbstract:This paper proposes an automatic event semantic division algorithm basedon instance distribution constraints to address the difficulty in aggregating event seman-
4、tics that are discretely distributed in news text collections.First,the distant supervisionmethod is used to construct training dataset for event semantic division.Second,a seman-tic classifier based on instance constraints is designed to determine whether the addition ofnew event trigger affects th
5、e aggregation of event semantics.Finally,an event semantic setgeneration algorithm is designed based on the classifier,which can automatically divide thediscrete event triggers into different event semantic sets without the need for pre-settingevent types.Experimental results show that the proposed
6、method can effectively classifyevent semantics,and offer a new approach for achieving high-quality aggregation of eventsemantics.Keywords:instance distribution constraint,automatic event semantic division,distantsupervision,event semantic classifier,set generation algorithm收稿日期:2 0 2 1-12-2 6基金项目:国家
7、自然科学基金项目(No.91746203);上海市优秀学术带头人项目(No.20XD1401700)资助通信作者:骆祥峰,研究员,研究方向为海量网络信息处理。E-mail:第42 卷324应报学用学科互联网文本中包含了大量事件,这些事件广泛分布于各类新闻文本中且描述自由,导致事件语义的聚合和演化分析十分困难。自动地将这些离散分布的事件按照语义进行划分,对于事件预测、问答系统、文本挖掘等任务具有十分重要的意义1-3 。目前事件语义划分主要包括有监督的方法和基于分布相似的无监督聚类方法。有监督的事件语义划分任务主要由Bagga 提出4,从实体同义词挖掘中5-6 借鉴经验抽取事件同义关系。然而单纯依
8、靠人工设计的模板需要耗费大量的人力和物力,且模板的适用性和泛化性有待提高。基于此,文献7 采用非参贝叶斯从未标记的文档中推断出存在的共指事件集合。文献8 手动构建了一百多种语义特征,结合WordNet和FrameNet等外部知识9-10 ,利用SVM分类器对一个句子中的事件对进行分类,判断两个事件是否属于同一事件。文献11 提出了同时学习事件触发词检测、事件同指和事件所属类型的联合模型,利用马尔科夫链从全局纠正分类器产生的错误结果,进而提高分类器的性能。相较于传统的机器学习方法,神经网络不需要大量的特征工程,且适用性更强12 。文献13 首次将神经网络引入到事件语义划分任务中,并取得了较好的效
9、果。该方法首先使用CNN和池化层来提取触发词的上下文信息,然后利用事件对之间的嵌入表示来判断事件之间是否存在同指关系。文献14 提出了基于可分解注意力机制的神经网络模型,在网络中融入事件特征和事件对特征,挖掘事件对之间的同指关系,取得了较好的效果。文献15 提出了一种基于多种注意力机制的卷积神经网络CorefNet方法,该方法可以提取深层的事件特征,提高了事件同指消解的准确率。为了解决模型错误传播、泛化能力差的问题,文献16 提出了端到端的E3C神经网络,通过联合建模同时完成事件检测和事件同指两种任务。此外,文献17 设计惩罚函数将跨任务一致性约束融入到神经网络的学习过程,提出了将实体同指和事
10、件同指作为一个同指任务的新想法,设计的模型在KBP2017数据上取得了较好的效果。然而上述方法均需要预先设定事件类型,导致模型的适用性有限。基于分布相似的无监督事件语义聚类方法利用聚类或者相似度计算构建事件之间的无向关联图,然后使用不同的图切割方法挖掘事件语义关系。文献18 将事件同指建模为谱聚类问题,使用最小图切割的方法处理事件同指链,将不属于同一事件链的事件剔除出去。文献18 在构建图的基础上,进一步引入框架特征、论元特征和事件距离特征,挖掘事件之间的同指关系。文献2 0 使用无监督聚类算法构建事件同指无向图,然后使用最优切割算法对无向图进行分割,将不属于同一集合的事件从图中剔除。文献2
11、1 从触发词相似度、时间戳相似度、实体相似度和语义相似度等不同维度构建无向图,使用最小切割算法来识别属于同一事件的文本描述。然而上述方法分别存在以下局限性:1)有监督的事件语义划分方法需要预先定义事件类型,导致模型的适用性较低;2)基于分布相似的无监督聚类方法通过构建文本特征来计算候选事件之间的概率,而忽略了集合整体实例的分布信息。为了解决上述问题,本文提出了一种基于实例分布约束的事件语义自动划分方法,该方法充分考虑集合实例的分布信息和任务之间的关联信息。在不需要预先给定事件类型的情况下,从给定触发词列表中自动抽取事件语义集合。本文的主要工作如下:1)利用远程监督的方法,构建用于事件语义划分的
12、多个领域标注数据集;2)设计基于实例分布约束的事件语义分类器,用于判断一个新加入的触发词是否影响原集合的语义分布;3)基于2)的工作设计集合生成算法,在不需要预先设定事件类型的情况下,将分布离散的事件触发词自动地划分到不同的集合中,以自动生成描述不同,语义相近的事件语义集合。第2 期325高剑奇,基于实例分布约束的事件语义自动划分1基于实例分布约束的事件语义自动划分1.1概念定义1)事件触发词,指由若干词语组成的事件短语描述,一般由单个动词或者包含动词的短语组合而成。2)事件语义集合,指由若干语义相似的事件触发词组成的事件集合,每个语义集合表示一种事件类型。3)事件语义自动划分,指将若干离散分
13、布的事件触发词按照语义信息自动划分到不同的事件语义集合中。其中,每一个语义集合代表一种事件类型1.2问题定义给定事件触发词库V=(u 1,U 2,U n),事件语义自动划分的目的是将事件触发词库V中的每个事件触发词i(uiEV),自动分配到由事件语义集合组成的集合池C=(c1,C2,Cm)中,其中,ci(c;EC,cinCj=)表示由若干触发词组成的事件语义集合,m表示最终生成的事件类型的数目。1.3基于远程监督的领域事件触发词集合构建远程监督方法最早应用于关系分类任务中,通过启发式的规则来自动地标注大量的训练数据集,该方法有一个重要的假设:已知存在关系三元组r(e1,e2),其中,e1和e2
14、分别表示两个实体,r表示实体e1和实体e2之间的某种关系,如果句子中同时出现e1和e2,那么我们认为该句也存在关系r。受远程监督思想的启发,本文将该方法应用于事件语义划分任务中,以获取标注数据集。本文首先从相关领域网站中获取大量的新闻文本,然后利用信息抽取工具和人工校正相结合的方法,获取一定量的事件触发词,按照事件触发词的语义信息,将事件触发词划分成不同的事件语义集合,最后利用远程监督方法对每个语义集合进行触发词扩充。该方法可以归纳为:给定事件语义集合S=(s 1,52,s n),8 i=(w 1,W 2,,Wn)为集合 S中的事件触发词,w;为s;中的词汇。对于事件触发词s,=(w i,w
15、2,w m),其中,w,为s,中的词汇,如果对于任意词语wESi,都存在w,与wi互为同义词,则事件触发词s,ES。1.4基于实例分布约束的事件语义分类器文献2 2 在实体同义关系分类中充分考虑了实体同义集合的分布特征。首先,运用实体同义关系分类器学习原实体同义集合的实例分布得分score(S);其次,用相同的分类器学习SUt的实例分布得分score(SUt);最后,计算score(SUt)与score(S)的实例分布差异。受该思想的启发,本文将该思想应用到事件语义自动划分任务中,在此基础上提出了基于实例分布约束的事件语义分类器。该模型主要包括3 个部分,如图1所示:1)模型输入为事件触发词t
16、和事件语义集合S,利用集合评分器SetScore对集合S的特征分布进行评估,并进一步获取SUt的得分。通过计算score(SUt)与score(S)的分布差异来判断触发词t是否加入到语义集合S中。图1的上半部分为事件语义分类器f(S)的整体架构;下半部分是集合评分器SetScore的详细架构,主要包括集合实例和元素嵌入表示、集合实例分布特征提取层、元素分布特征提取层和集合评分器。1.4.1集合实例和元素嵌入表示考虑到事件语义集合的分布特征不仅与事件描述的特征分布有关,而且和组成事件触发词的词汇描述有着较大的联系。因此,基于实例分布约束的事件语义分类器输入层主要包括两部分:集合实例嵌入表示S=(
17、$1,S2,8 n)和元素嵌入表示W=(w 1,w 2,W n),其326第42 卷应用报学学科事件语义分类器新的触发词tScore(Sut)增发普通股集合评分器增发配股Score(S)增值股本增加新股集合评分器语义集合.S.增发配股实例嵌人层增值股本Sum增加新股线性全连接层集合评分增发m化元素嵌人层增值新股结构化注Transformer编码意力机制图1基于实例分布约束的事件语义分类器Figure 1 Instance distribution constraints based event semantic classifier中,Si是事件语义集合S中的实例,W为集合S中的实例分词去重后
18、得到的词汇元素。对于集合实例嵌入表示,我们将所有的词汇向量进行拼接形成事件触发词实例的嵌入表示,维度为npRd。其中,n表示集合S中包含事件触发词实例的数目,p为实例s;中词汇元素的数目,Rd为词汇的嵌入维度。对于元素嵌入表示,经过去重后的词汇输入维度为mRd。其中,m表示集合S中去重后词汇元素的数目。1.4.2集合实例分布特征提取层通过集合实例嵌入表示可以得到触发词集合S=(S1,S2,Sn)白的向量表示为X=(1,C2,c n),使用两个线性全连接层对集合S实例的语义信息和特征分布进行表示Ho=WoX+bo(1)Ho=ReLU(Ho)(2)H1=WiH+b1(3)Hi=ReLU(H1)(4
19、)式中:W。和bo,W i 和bi均是全连接层可训练的模型参数;ReLU为激活函数。进一步地,模型运用求和运算将隐藏层的信息Hi进行聚合Hi=H,得到集合S的特征分布HI。1.4.3元素分布特征提取层集合实例分布特征提取层可以学习到事件触发词实例的语义信息和特征分布。然而组成事件触发词的词汇元素不同,导致事件触发词之间的语义信息也不相同,此外,同一事件语义集合中的部分元素往往存在词汇同义关系。因此,集合中的词汇元素分布信息和相互关系对第2 期327高剑奇,基于实例分布约束的事件语义自动划分事件语义的自动划分也十分重要。通过元素嵌入表示可以得到元素集合的向量表示W=(w 1,W 2,W n),本
20、文使用Transformer23编码器提取W内元素的特征,挖掘元素之间的关系。编码器使用自注意力机制来融合全文信息,以充分挖掘文本的语义特征以及各个特征之间的关系。Transformer的一个编码器模块主要由多头注意力机制和前馈神经网络构成,每个编码器中的每个子层(多头注意力机制与前馈神经网络)周围都有一个残差连接和归一化层。最终,上一个Transformer编码器的输出作为下一个Transformer编码器的输入,实现对词汇元素分布信息和相互关系的深层表达。假设Transformer编码器的输出为HRmxd,m为集合经过去重后的词汇元素数目,d为编码后词向量的维度,此时H融入了更多的上下文语
21、义信息,进一步使用结构化注意力机制,来对融合上下文信息的元素嵌入表示H赋予一定的权重2 4,即M=W.HT(5)=Softmax(WaM)(6)r=HT(7)mh*=tanh(ri)(8)=1式中:为H的注意力分布向量;Wa和W为待学习的参数;h*为最终的词汇元素表示向量。1.4.4集合评分器通过集合实例分布特征提取层和元素分布特征提取层,可以得到事件语义集合的实例分布表示H和元素分布表示h*,我们将H1和h*拼接在一起,然后添加3 个线性全连接层,得到触发词集合的最终得分。最后,给定一个触发词和一个事件语义集合S=(s 1,8 2,s n),运用集合评分器分别计算集合 S和 SUt的得分sc
22、ore(S)和 score(SUt),进而获得它们的得分差异dif(S,t)=score(SUt)一score(S),最后使用一个Sigmoid函数将diff(S,t)的得分转化为概率为f(S,t)=(diff(S,t)(9)(a)=1+e-1(10)本文运用对数交叉熵损失函数来训练f(S,t)l=-Ig(f(S,t)y-Ig(1-f(S,t)(1-y)(11)式中:lg表示以10 为底的对数操作。如果tES,那么y=1;否则y=0。在模型的训练过程中,由于Adam具有收敛快、易调参和适用性强等优点,选择Adam优化器来最小化模型的损失。同时,在各层神经网络之间添加dropout层来防止过拟合
23、。本文针对每个事件语义集合S,随机选择一个正实例t加入到集合S中,然后从其他集合中选择k个实例分别与S配对,生成k个负样本,以实现对模型的充分训练。1.5事件语义集合生成算法本文利用事件语义分类器对集合S进行分类,在此基础上,设计事件语义集合生成算法。该算法首先利用1.3 节提出的事件语义分类器计算给定事件集合的得分。具体地,给定一组第42 卷328应用科报学学未分类的事件触发词库V=(u 1,U 2,U n)和预先设置的阈值。对于触发词库V中的触发词Ui,集合生成算法首先计算ui分别属于集合池C=(c 1,C2,Cm)中每个语义集合的概率P=(p 1,P2,,Pm),挑选出最大的概率pi=m
24、ax(P)后,将概率值p;与预先设定的阈值进行对比,如果pi,则将u;加入到语义集合c;中,否则,Ui将自动生成新的语义集合Cm+1=(ui。对所有的触发词遍历一遍之后,整个算法运行结束,并返回自动生成的集合池C。集合池C中的每一个语义集合对应一种事件类型。在整个事件集合生成过程中,不需要人为预先定义事件类型和集合数量,整个算法根据集合的分布特征自动运行。2实验设置2.1训练数据集为了评估事件语义划分的性能,本文分别在金融领域数据集以及娱乐时政和教育社会两个交又领域数据集上进行实验验证。对于金融领域数据集,本文通过爬虫的方式从和讯、金融界等10 个网站爬取新闻数据集,从文本中抽取大量的事件触发
25、词,结合1.2 节的方法构建事件语义集合,最终构建了43 4个正样本集合,包含了2 6 48 个事件触发词。对于娱乐时政和教育社会交又领域数据集,数据集源数据来自于THUCNews(h t t p:/t h u c t c.t h u n l p.o r g/),该数据集由清华大学自然语言处理实验室提供,帮助用户实现文本分类模型的训练和评估。数据集由2 0 0 52 0 11年新浪新闻RSS订阅频道的历史数据筛选而成,共7 4万篇新闻文档,包含了财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐14个行业的数据。本文结合1.2 节构建事件语义集合,其中一个数据集
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 实例 分布 约束 事件 语义 自动 划分
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。