基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注.pdf
《基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注.pdf》由会员分享,可在线阅读,更多相关《基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注.pdf(11页珍藏版)》请在咨信网上搜索。
1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 0 2 5-1 1基于B E R T特征融合与膨胀卷积的汉语副词框架语义角色标注王 超1,吕国英1,李 茹1,2,柴清华3,李晋荣1(1.山西大学 计算机与信息技术学院,山西 太原0 3 0 0 0 6;2.山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原0 3 0 0 0 6;3.山西大
2、学 外国语学院,山西 太原0 3 0 0 0 6)摘 要:汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度出发构建了汉语副词框架及数据集,且对框架下的词元按照语义强弱进行了等级划分。目前的语义角色标注模型大多基于B i L S TM网络模型,该模型虽然可以很好地获取全局信息,但容易忽略句子局部特征,且无法并行训练。针对上述问题,该文提出了基于B E R T特征融合与膨胀卷积的语义角色标注模型,该模型包括四层:B E R T层
3、用于表达句子的丰富语义信息,A t t e n t i o n层对B E R T获取的每一层信息进行动态权重融合,膨胀卷积(I D C NN)层进行特征提取,C R F层修正预测标签。该模型在三个副词框架数据集上表现良好,F1值均达到了8 2%以上。此外,将该模型应用于C F N数据集上,F1值达到8 8.2 9%,较基线模型提升了4%以上。关键词:汉语框架语义角色标注;副词;B E R T;膨胀卷积;C R F中图分类号:T P 3 9 1 文献标识码:AS e m a n t i cR o l eL a b e l i n go fC h i n e s eA d v e r bF r a
4、 m e sB a s e do nB E R TF e a t u r eF u s i o na n dD i l a t e dC o n v o l u t i o nWAN GC h a o1,L YUG u o y i n g1,L IR u1,2,CHA IQ i n g h u a3,L I J i n r o n g1(1.S c h o o l o fC o m p u t e rS c i e n c ea n dT e c h n o l o g y,S h a n x iU n i v e r s i t y,T a i y u a n,S h a n x i 0 3
5、 0 0 0 6,C h i n a;2.K e yL a b o r a t o r yo fC o m p u t a t i o nI n t e l l i g e n c ea n dC h i n e s e I n f o r m a t i o nP r o c e s s i n go fM i n i s t r yo fE d u c a t i o n,S h a n x iU n i v e r s i t y,T a i y u a n,S h a n x i 0 3 0 0 0 6,C h i n a;3.S c h o o l o fF o r e i g nL
6、 a n g u a g e,S h a n x iU n i v e r s i t y,T a i y u a n,S h a n x i 0 3 0 0 0 6,C h i n a)A b s t r a c t:C h i n e s e f r a m es e m a n t i cr o l e l a b e l i n gp l a y sa n i m p o r t a n t r o l e i nC h i n e s e f r a m es e m a n t i ca n a l y s i s.A tp r e s-e n t,t h e t a s ko f
7、 s e m a n t i c r o l e l a b e l i n g i nC h i n e s e f r a m e i sm a i n l ya i m e da t v e r bf r a m e.T h i sp a p e r c o n s t r u c t saC h i-n e s ea d v e r bf r a m e w o r ka n dd a t a s e t,a n dc l a s s i f i e st h ew o r di nt h ef r a m e w o r ka c c o r d i n gt oi t ss e m
8、 a n t i cs t r e n g t h.T h e n,t h i sp a p e rp r o p o s e sas e m a n t i cr o l el a b e l i n gm o d e lb a s e do nB e r t f e a t u r ef u s i o na n de x p a n s i o nc o n v o l u t i o n.T h em o d e l i n c l u d e s f o u r l a y e r s,w i t ht h eb e r t l a y e r t or e p e r e s e
9、n t t h e r i c hs e m a n t i c i n f o r m a t i o no f s e n t e n c e s,t h e a t-t e n t i o nl a y e r t od y n a m i c a lw e i g h s t h e i n f o r m a t i o n f r o me a c hB E R Tl a y e r,t h e e x p a n s i o nc o n v o l u t i o n(I D C NN)l a y e rt oe x t r a c t f e a t u r e s,a n
10、dt h eC R Fl a y e r t op r e d i c t t a g s.T h em o d e lp e r f o r m sw e l l i nt h r e ea d v e r bf r a m ed a t a s e t s,a-c h i e v e i n g8 2%o rm o r eF1v a l u e.I na d d i t i o n,t h em o d e l a c h i e v e s8 8.2 9%F1v a l u e i nC F Nd a t a s e t,w h i c h i s4%a-b o v e t h eb a
11、 s e l i n em o d e l.K e y w o r d s:C h i n e s e f r a m es e m a n t i cr o l e l a b e l i n g;a d v e r b;B E R T;I D C NN;C R F收稿日期:2 0 2 1-0 6-1 6 定稿日期:2 0 2 1-0 8-1 7基金项目:国家社会科学基金(1 8 B Y Y 0 0 9);山西省“四个一批”科技兴医创新计划项目(2 0 2 2 XM 0 1)中 文 信 息 学 报2 0 2 4年0 引言语义分析是自然语言处理领域句子层面的关键性研究,但是由于当前技术手段难以
12、实现深层次语义理解,因此关于语义分析的研究绝大多数都聚焦在浅层语义分析上。语义角色标注是实现浅层语义理解的重要方式,它能够简单且有效地描述一个事件的完整信息,包括参与者、时间、地点、方式和方法等。语义角色标注技术已成功应用在机 器 翻 译1、信 息 抽 取2、问 答 系 统3等 领域,其深入研究对自然语言处理的整体发展都有着十分重要的意义。汉语框架语义角色标注以语言学者F i l l m o r e提出的框架语义学4为基础,是在给定一个句子的目标词及其所属的框架下,识别出句子中目标词所支配的框架元素(语义角色)并标注其类型。目前无论是汉语框架的构建还是汉语框架语义角色标注的研究,都主要针对汉语
13、动词,并没有以汉语副词为核心目标词进行研究,而副词一直是语言学界的一个难点和热点。吕叔湘在 汉语语法分析问题5上曾表示:“副词本来就是一个大杂烩”。根据郭锐62 0 0 2年 的 统 计,副 词 总 数(9 9 9)比 形 容 词 总 数(23 5 5)少一半有余,但出现次数却比形容词多,副词的平均出现频率仅次于动词和名词,说明了副词使用的高频率和高活动能力。因此本文从副词出发,构建了程度、频率和范围副词框架,并将框架下的词元作为句中目标词进行深入研究。在语言学中,副词的语用作用为修饰动词或形容词,但是在实际汉语语言环境中,副词位置灵活多变,不仅仅出现在被修饰词前,并且修饰的主体也不仅仅是单个
14、词语,有时候甚至是修饰整个事件。在创建副词框架的过程中,针对不同类别副词的特征,如何定义和描述框架元素,以及机器如何准确识别这些框架元素,同样也是研究的难点。除此之外,不同强弱的语义信息往往会使命题的真值、观点的立场、情感和态度的极性发生不同程度的削弱或增强,甚至反转,如表1所示。因此,本文还结合众多汉语学家(以张谊生 现代汉语副词研究7为主,结合李晓琪 现代汉语虚词讲义8、王力 中国现代语法9等)的研究成果,将程度、频率和范围副词框架下的词元根据语义强弱进行等级划分。图1为汉语副词框架语义角色标注示例,“总是”为例句中核心目标词,其标签“t g t-f r e q u e n c y-t o
15、 p”中“t g t”表示该词为目标词,“f r e q u e n c y”表示“总是”激起了副词框架“频率”,“t o p”表示“总是”在“频率”框架下的等级,框架下的“时间”“凸显实体”“事件”分别对应了例句中的“5 0年来”“两岸同胞”“怀着向往国家统一、民族团圆的心愿”。表1 不同语义强弱对高考阅读理解答题的影响来源2 0 1 3年北京高考语文卷问题和选项1 5.下列对文章内容理解和分析不恰当的两项是(4分)(以选项D为例)A.昆虫最初驾驭“风帆”在水面上滑行。后来逐步从滑行演变到在空中飞行。B.蜉蝣有翅后即升空飞行。虽然飞行时间不长,但由此实现了生命的延续。C.昆虫的剖面,上端弯曲
16、,下端平直,这可以使空气滤过翼面时产生升力D.昆虫利用碳水化合物和脂肪作为“燃料”,从而大大提高了飞行的“经济性”E.昆虫是地球上规模最为庞大的飞行家族,很多昆虫都具有长途迁徙的能力【参考答案】B D相关原文果蝇使用碳水化合物作为动力来源,这有点不太划算,其他很多昆虫直接利用脂肪作为“燃料”,便让飞行的“经济性”大为改观。分析选项D对应原文为果蝇使用碳水化合物作为动力来源“不太”划算,而选项D中说昆虫利用碳水化合物作为燃料,“大大”提高了飞行的经济性,虽然“不太”和“大大”都表示程度,但两者语义强弱的等级相悖,从而可以判断D为不恰当的一项。图1 副词框架语义角色标注示例 传统的基于特征的统计机
17、器学习方法,存在模型复杂、容易过拟合等问题1 0,而深度学习由于可以自动学习特征,能有效地减少特征工程工作,近年来被广泛应用到自然语言处理领域中。随着预训练语言模型的不断出现,尤其是B E R T语言模型的问世,大大提高了解决自然语言处理问题的能力。因此,本文采用基于B E R T特征融合的方法对汉语副词框架语义角色标注进行研究。本文的贡献之处:创新性地从副词角度出发,进行汉语框架语义角色标注研究,并对词元按照语义强度进行等级划分;提出了一个副词框架语义角色标注数据集;首次将B E R T模型应用于汉语框架语义角色标注任务,且提出了一个新的模型,基于B E R T特征融合与膨胀卷积模型来进行汉
18、语622期王超等:基于B E R T特征融合与膨胀卷积的汉语副词框架语义角色标注框架语义角色标注,有效地提高了框架语义角色标注的准确率。1 相关工作语义角色标注的研究最早是由G i l d e a等1 1开始的,他们利用句法树的特征来识别F r a m e N e t语料中谓词和论元之间的关系。之后的语义角色标注,根据研究方法的不同,可以分为传统机器学习方法和基于神经网络的深度学习方法。早期的一些语义角色标注模型,主要采用传统机器学习算法。C h e n等1 2使用决策树算法进行语义角色标注的实验,但是此算法在处理高维数据上的效果十分有限。P r a d h a n等1 3虽然采用支持向量机取
19、得了不错的效果,但是效率却十分低下。此外,基于传统机器学习的语义角色标注模型大都依赖于句法分析和特征提取。刘挺等1 4通过句法树提取出谓词和词性等特征并将其进行组合,然后使用最 大 熵 分 类 器 进 行 语 义 角 色 标 注,该 方 法 在C o N L L2 0 0 5S h a r e dT a s k测试集上的F1值达到了7 5.6 0%。B o x w e l等1 5将组合范畴、短语结构和依存句法分析三种特征融合,这种方法虽然获取了丰富的信息,但是却带来了很大的噪声。李济洪等1 6选用1 2个词层面特征以及1 5个块层面特征共同组成候选特征集,最后在C F N数据集取得了6 3.6
20、 5%F1值。王智强等1 7利用树条件随机场模型,融合不同类型的依存特征,使得F1值提升了3%。杨凤玲等1 8通过引入短语结构句法,使得语义角色的识别效果有了进一步的提升。随着深度神经网络的快速发展,目前已经有许多研究采用神经网络模型来进行语义角色标注。C o l l o b e r t等1 9首次使用卷积神经网络在语义角色标注任务上进行探索,将语义角色标注任务转化为序列标注任务,在很大程度上解决了特征矩阵维度较高的问题,但是训练过程过于依赖语料,当数据集规模过小时,容易造成过拟合。王臻等2 0提出了基于分层输出的神经网络框架,通过构造角色识别和角色分类两个层次对语义角色标注问题加以描述,集中
21、改进了神经网络输出层。K s h i r s a g a r等2 1对F r a m e N e t现有模型S EMA F O R进行改进,加入部分注释且提高数据质量,最终F1值提高了4%。Z h o u等2 2采用L S TM模型对句子中当前词的上下文建模,然后将特征向量表示拼接起来,最后采用C R F预测标记类别。王瑞波等2 3采用一种多特征融合的神经网络结构并引入D r o p o u t正则化来构建语义角色标注模型,最终在C F N数据集上F1值达到了7 0.5 4%。Y a n g等2 4利用B i L S TM网络和关系网络的优势联合训练框架消歧任务和语义角色标注任务,该模型在F
22、r a m e N e t数据集F1有不错的表现,F1值提升了5.7%。高李政等2 5在B E R T模型的基础上增加了B i L S TM网络,融合B E R T编码、T o k e n类型编码、框架类型编码,进一步提升了在英文数 据 集F r a m e N e t的 标 注 性 能。M a r c h e g g i a n i等2 6利用图卷积网络对句子结构和句法等进行编码并传递到S R L分类器中,在标准英语S R L基准C o N L L-2 0 0 5、C o N L L-2 0 1 2和F r a m e N e t上显示了其有效性。近些年来,注意力机制已经成为深度学习的一个重
23、要概念,它使得神经网络模型的性能得到有效提升,因此许多学者将注意力机制应用在语义角色标注任务中。T a n等2 7利用自注意力机制直接捕捉两个标记之间的关系并提取出文本的长依赖信息,有效地提升了计算效率。S t r u b e l l等2 8将多头自注意 力 与 多 任 务 学 习 相 结 合,在C o n L L-2 0 1 2E n g l i s hS R L上,F1值较之前最优水平提升了2.5%。H e等2 9提出了一种语法增强的自我注意模型,在C o N L L-2 0 0 9数据集上的C h i n e s eS R L任务中实现了最新性能。王晓辉等3 0将自注意力机制加入到词向
24、量 表 示 和B i L S TM编 码 器 之 间,将C h i n e s eF r a m e N e t数据集的F1值提升了1 0%以上。受上述工作启发,该文提出了基于B E R T特征融合与膨胀卷积的语义角色标注模型。实验结果表明,模型在汉语副词框架数据集和C F N数据集上均取得了较好的效果,并且膨胀卷积较传统的序 列 标 注 模 型B i L S TM效 率 也 得 到 了 有 效提高。2 基于B E R T特征融合和膨胀卷积的副词框架语义角色标注模型 本文的整体模型分为B E R T层、AT T E NT I ON层、I D C NN层 和C R F层 四 个 模 块,如 图2
25、所 示。其中B E R T的1 2层分别获取上下文相关的字向量表示,A T T E N T I ON层 对1 2层 字 向 量 进 行 加权,I D C NN层完成特征提取,C R F层得到预测标签序列。72中 文 信 息 学 报2 0 2 4年图2 基于B E R T特征融合和膨胀卷积的副词框架语义角色标注模型 为了提高模型的训练效率,基于B E R T特征融合和膨胀卷积的语义角色模型在训练过程中先冻结B E R T层前1 0次训练,之后解冻参与微调。与其他模型相比,B E R T-AT T E NT I ON-I D C NN-C R F模型在利用B E R T预训练语言模型得到丰富语义的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BERT 特征 融合 膨胀 卷积 汉语 副词 框架 语义 角色 标注
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。