基于短语及依存的标注规则和短语识别算法研究.pdf
《基于短语及依存的标注规则和短语识别算法研究.pdf》由会员分享,可在线阅读,更多相关《基于短语及依存的标注规则和短语识别算法研究.pdf(10页珍藏版)》请在咨信网上搜索。
1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 0 1 5-1 0基于短语及依存的标注规则和短语识别算法研究刘 广,涂 刚,李 政,刘译键(华中科技大学 计算机科学与技术学院,湖北 武汉4 3 0 0 7 4)摘 要:目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型。该方法主要存在两个问题,一是标注体系繁多,
2、相对比较复杂;二是无法识别语言嵌套结构。为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(C PWD),同时引入短语窗口模型。该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别。实验结果表明,在C PWD数据集上,短语窗口模型比传统端对端模型F1值提升超过1个百分点。相应的方法应用到了C C L 2 0 1 8的中文隐喻情感分析比赛中,在原有基础上F1值提升了1个百分点以上,取得第一名成绩。关键词
3、:自然语言处理;标注体系;短语识别;依存分析中图分类号:T P 3 9 1 文献标识码:AR e s e a r c ho nA n n o t a t i o nR u l e sa n dP h r a s eR e c o g n i t i o nA l g o r i t h mB a s e do nP h r a s ea n dD e p e n d e n c yL I UG u a n g,TUG a n g,L IZ h e n g,L I UY i j i a n(S c h o o l o fC o m p u t e rS c i e n c ea n dT e c
4、 h n o l o g y,H u a z h o n gU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,W u h a n,H u b e i 4 3 0 0 7 4,C h i n a)A b s t r a c t:A tp r e s e n t,m o s t s y n t a c t i cd e p e n d e n c ya n a l y s i s i s c o n d u c t e dv i a s u p e r v i s e d l e a r n i n gw i t ht h eh
5、 e l po fw o r ds e g m e n t a t i o nr e s u l t s.T h i sp r a c t i c e i sc h a l l e n g e db yc o m p l e x l a b e l s c h e m e sa n dt h en e s t i n gs t r u c t u r ew h i c hi sd i f f i-c u l t t op a r s e.T h i sp a p e rp r o p o s e sap h r a s ew i n d o wm o d e l t o g e t h e r
6、w i t had e p e n d e n c ys y n t a x l a b e l i n gr u l eb a s e do nt h ep h r a s ew i n d o w.T h e l a b e l i n gr u l ed i v i d e s s e n t e n c e s i n t o7t y p e so f n e s t a b l ep h r a s e s,w i t ha n n o t a t i o n f o r t h e s y n-t a c t i cd e p e n d e n c eb e t w e e np
7、 h r a s e s.I n s p i r e db yt h e i d e ao f t a r g e td e t e c t i o ni nt h ec o m p u t e rv i s i o nf i e l d,t h ep h r a s ew i n d o w m o d e l d e t e c t s t h eb e g i n n i n ga n de n dp o s i t i o n so fp h r a s e sa n dr e a l i z e s t h es y n c h r o n o u s r e c o g n i t
8、 i o no fn e s t e dp h r a s e sa n ds y n t a c t i cd e p e n d e n c i e s.E x p e r i m e n t a l r e s u l t s s h o wt h a t o n t h e s e l f-b u i l tC h i n e s eP h r a s eW i n d o wD a t a s e t(C PWD),t h ep h r a s ew i n d o w m o d e l i sm o r et h a n1p o i n tb e t t e rt h a nt
9、h et r a d i t i o n a l e n d-t o-e n dm o d e l.T h ec o r r e-s p o n d i n gm e t h o dw o nt h e c h a m p i o n i nt h eC C L 2 0 1 8C h i n e s eM e t a p h o rS e n t i m e n tA n a l y s i sC o m p e t i t i o n,w h i c h i m-p r o v e dm o r e t h a n1p o i n t t h a nt h eb a s e l i n e.
10、K e y w o r d s:n a t u r a l l a n g u a g ep r o c e s s i n g;t a g g i n gs y s t e m;p h r a s ee x t r a c t i o n;d e p e n d e n c yp a r s i n g收稿日期:2 0 2 0-0 7-0 6 定稿日期:2 0 2 0-1 1-1 00 引言随着即时通信、微博、论坛、朋友圈等的快速流行,人们在网络上发布的文字信息也越来越多。这些文字信息蕴含极大的价值,它们是分析社会整体及公众个体的观点、喜好、情绪、趋势等的入口。快速准确地分析文字信息,是自然
11、语言处理研究的目标。目前,自然语言处理研究领域存在两个问题:一是标注规则复杂。比如哈工大等词性类别多达二十多种,依存类别多达十几种,如表1所示;这种标注规则,语言学家可以轻松掌握,但是一般的标注人员,非常难以掌握。即便掌握了,在标注数据的过程中 文 信 息 学 报2 0 2 4年中,由于语言的嵌套情况以及熟练程度等原因,会出现各种各样问题,这就造成了标注数据慢而且错误较多,使得监督学习的模型预测准确性难以提高。二是算法不能识别语言成分的嵌套情况。比如,“敌人的进攻”是个名词,但是“进攻”却是动词,传统深度端到端模型只会预测出一个类别,无法预测这种短语嵌套情况。表1 依存标注类别举例施事关系,当
12、事关系比较角色,属事角色并列关系,选择关系连词标记,的字标记成事关系,源事关系结局角色,方式角色转折关系,原因关系程度标记,根节点 为了解决这两个问题,本文提出了基于短语窗口的标注规则,同时设计了相应的短语识别算法。该标注规则以短语为最小单位,把句子分成动词短语、名词短语等7类可嵌套的短语类型,同时标示出短语之间的句法依存关系。我们使用该规则,标注了各种类型的句子数据,把这个数据集称为中文短语窗口数据集(C h i n e s eP h r a s e W i n d o w D a t a s e t,C PWD)。对应的短语识别算法,借鉴了图像领域识别目标区域的F a s t e rR C
13、 NN算法思想,可发现句子中各种短语的起始位置与结束位置,实现对嵌套短语及句法依存关系的同步识别,对应模型称为语法窗口模型(S y n t a xW i n d o w M o d e l,SWM)。实验的结果表明,SWM模型比端到端模型更加适用于短语嵌套特征,短语识别准确性有明显提高。1 相关工作语块分析体系最早是由A b n e y在1 9 9 1年提出的语块描述体系1,之后K u d o h等2提出了一种基于支持向 量机的语块 自动分析 方法;同 时,S h e n等3提出了一种投票分类策略,将多种不同的数据表示和多种训练模型结合在一起,根据投票分类策略确定最终结果;此外,M a n c
14、 e v等4提出了一种处理支持向量机非凸结构的斜率损失的最小化问题的序列双向方法。在汉语的语块分析方面,周强等5-6构造了基于规则的汉语基本块分析器,并设计了相应的基本块规则,给出了一整套解决方案,提高了基于规则的基本块分析器的性能。此外,李超等7应用最大熵模型和马尔科夫模型构建了一套汉语基本块的分布识别系统。深度学习方法出现后,短语识别研究迎来了快速发展。C h i u等8使用双向L S TM提取文本全局特征,同时,使用C NN提取单词的特征,进行名词短语实体的识别;K u r u等9使用S t a c k e dB i d i r e c-t i o n a lL S TM s提取文本全局
15、特征进行名词短语实体识别,取得了较大进展;侯潇琪等1 0利用深度模型,将词的分布表征作为模型的输入特征维度,用于基本短语识别任务中,性能比使用传统的词特征表示方法提高明显;李国臣等1 1以字作为标注单元和输入特征,基于深层模型研究短语的识别问题,并将基于C&W和W o r d 2 V e c两种方法训练得到的字分布表征作为模型的特征参数,避免了对分词及词性标注结果的依赖;徐菁1 2利用知识图谱,提出基于主题模型和语义分析的无监督的名词短语实体指称识别方法,同时具备短语边界检测和短语分类功能;程钟慧等1 3提出了一种基于强化学习的协同训练框架,在少量标注数据的情况下,无须人工参与,利用大量无标注
16、数据自动提升模型性能,从非结构化大数据集中抽取有意义的名词短语。句法依存最早由著名的法国语言学家特思尼耶尔提出,我国学者徐烈炯1 4认为,语义角色是一个“句法语义”接口概念,而不是单纯的语义概念;刘宇红1 5提 出 语 义 和 语 法 双 向 互 动 的 观 点;孙 道功1 6基于词汇义征和范畴义征的分析,研究了词汇与句法的衔接机制;亢世勇等1 7通过构建“现代汉语句法语义信息语料库”,研究了义类不同的体词在施事(主语、宾语、状语)和受事(主语、宾语、状语)六个语块的分布特点。这其中还包括哈工大、腾讯、百度、清华等团队的语法分类贡献。在语法分析方面,M c D o n a l d等1 8提出了
17、基于图模型的依存句法分析器M S T P a r s e r;N i v r e等1 9提出了基于转移模型的依存句法分析器M a l t P a r s e r;R e n等2 0对M a l t P a r s e r依存句法分析器的N i v r e算法进行了优化,有效地改进了在汉语中难以解决的长距离依存等问题;C h e等2 1对M S T P a r s e r依存句法分析器进行了改进,使用了图模型中的高阶特征,提高了依存句法分析的精度;D y e r等2 2在基于转移模型的依存句法分析框架上运用长短时记忆神经网络,将传统的栈、队列、转移动作序列看作3个L S TM细胞单元,将所有转移
18、的历史均记录在L S TM中,改进了长距离依存问题;J i等2 3开发了一种依赖树节点表示形式,可 以 捕 获 高 阶 信 息,通 过 使 用 图 神 经 网 络(G N N),解析器可以在P T B上实现最佳的U A S和612期刘广等:基于短语及依存的标注规则和短语识别算法研究L A S;W a n g等2 4提出了一种基于神经过渡的解析器,通过使用基于列表的弧跃迁过渡算法的一种变体,进行依赖图解析,获得了较好的效果;F r i e d等2 5通过强化学习来训练基于过渡的解析器,提出了将策略梯度训练应用于几个解析器的实验,包括基于R N N的解析器。在语义分析方面,丁伟伟等2 6利用C R
19、 F在英文语料上利用论元之间的相互关系以及标注准确率高的特点,将其运用到中文命题库,使用C R F对中文语义组块分类,取得好的效果;王丽杰2 7提出了基于图的自动汉语语义分析方法,使用哈工大构建的汉语语义依存树库完成了依存弧和语义关系的分析;王倩等2 8基于谓词和句义类型块,使用支持向量机的语义角色对句子的句义类型进行识别,也有一定的启发意义。综上,各种方法存在两个主要问题:首先是标注规则复杂。如哈工大等依存关系多达几十种。这就造成了标注数据慢而且错误较多,在进行监督学习的时候,模型预测准确性难以提高;其次是算法不能识别语言成分的嵌套。基于深度端到端的模型,无法对嵌套词语进行预测,无法预测嵌套
20、多类别。本文提出了基于短语窗口的标注规则,发布了短语窗口数据集C PWD,同时设计了相应的短语识别算法。该标注规则以短语为最小单位,把句子分成动词短语、名词短语等7类可嵌套的短语类型,同时标示出短语之间的依存关系。对应的算法,借鉴了图像领域识别目标区域的F a s t e rR C NN算法思想,可以发现句子中各种短语的起始位置与结束位置,实现对嵌套短语及句法依存关系的同步识别,对应模型称为语法窗口模型SWM。2 短语标注规范为了实现句子的短语识别与句法依存分析,制定了一套完整的短语标注规范。该短语标注规范不仅可以对嵌套短语进行标注,而且可以反映短语之间的依存关系。例如,嵌套词语“中国海军”,
21、传统端对端模型只可以识别出“中国”“海军”或者“中国海军”,不可以同时识别3个短语,本文提出的短语标注规范和SWM模型解决了词语嵌套问题。相对于哈工 大L T P提 出 的2 8种 词 性 和1 5种 依 存 分析2 9,百度A I开放平台提出的2 4种词性和3 4种依存关系3 0,本文提出的短语标注规则相对简单,容易掌握。2.1 句子句法依存关系标注规范将句子中的短语分成名词短语、动词短语、数量词短语、介词短语、连词短语、语气词、从句共7类基本类型。句子由短语组成,7类基本短语类型通过树状结构组成句子,即句法依存关系,如图1所示。图1 句子语法树结构图通常,句子的树状结构由主、谓、宾关系组成
22、,图1(a)是句子成分树,句子“我爱祖国”按照句子语法可以分为主语“我”、谓语“爱”、宾语“祖国”,对应的句子原型树如图1(b)所示,也就是把“我”“爱”“祖国”放到对应的主谓宾位置;对应的短语类别树如图1(c)所示,其中“我”是名词短语,“爱”是动词短语,“祖国”是名词短语。对于复杂的句子,同样可以采用这种方法进行短语识别和句法依存的分析。图2是复杂句子的语义单元划分过程。为了方便介绍,我们使用“()”表示名词短语,“”表示动词短语,“”表示数量词短语,“”表示介词短语,“#”表示连词短语,“”表示语气词短语,“/”表示从句。2.2 短语标注规范根据中文的基本语法分析,常用词性包括名词、代词
23、、动词、介词、形容词、数量词、语气词、连词和副词,本文通过组合不同词性形成模板,引入7种短语,基本囊括常用真实句子的所有情况。短语类别有名词短语“()”、动词短语“”、数量词短语“”、介词短语“”、连词短语“#”、语气词短语“”、从句“/”。标注允许嵌套结构的存在,每种短语类别的标注规则如下。(1)连词短语连词短语是用来连接词与词、词组与词组或句子与句子,表示某种逻辑关系的虚词。连词短语可以表并列、承接、转折、因果、选择、假设、比较、让步等关系。连词短语主要成分就是连词,如“但是”表转折,“因为”“所以”表因果等。71中 文 信 息 学 报2 0 2 4年图2 语义单元划分过程 在标注体系中,
24、连词短语一般无嵌套关系。(2)语气词短语语气词短语是表示语气的虚词,常用在句尾或句中停顿处表示种种语气。语气词短语主要成分就是语气词,如“吗”“吧”“呢”等在词语、句子末表示语气。在标注体系中,语气词短语一般无嵌套关系。(3)名词短语名词短语表示人或事物以及时间、方位等,在句子中主要充当主语、宾语、定语。它包括:以名词为中心词的偏正短语(如“伟大祖国”“这些孩子”);用名词构成的联合短语(如“工人农民”);复指短语(如“首都北京”);方位短语(如“桌面上”“大楼前面”);“的”字短语(如“打更的老汉”)等。名词短语有多种形式的主要成分,模板种类较多,主要包括以动词、形容词为中心词,以代词、名词
25、和其他名词短语为定语而组成的名词短语。(4)动词短语动词短语代表动作,包括起修饰作用的状语与补语。动词短语主要成分包括:动词以及对应的状语和补语修饰词。如“马上开始了”包括状语“马上”、中心动词“开始”、补语“了”。(5)介词短语介词短语又称为介宾短语,是介词和其他代词或名词或从句搭配形成的短语,形式如下:“在这次考试中”为介词+名词短语,标注为。“被”“把”字 句。如,。(6)数量词短语数量词短语指由数词和量词组合构成的短语,形式如下:数量词和名词搭 配,如(一首 动听的曲子)。作为状语,如 一蹦一跳 地走着。作为补语,如 看了(他)一眼。(7)从句为了标注一个完整的语义单元,需要使用从句结
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 短语 依存 标注 规则 识别 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。