双重否定结构自动识别研究.pdf
《双重否定结构自动识别研究.pdf》由会员分享,可在线阅读,更多相关《双重否定结构自动识别研究.pdf(10页珍藏版)》请在咨信网上搜索。
1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 0 3 6-1 0双重否定结构自动识别研究王 昱1,袁毓林2,3(1.香港理工大学 中文及双语系,香港9 9 9 0 7 7;2.澳门大学 人文学院 中国语言文学系,澳门5 1 9 0 0 0;3.北京大学 中文系/中国语言学研究中心,北京1 0 0 8 7 1)摘 要:双重否定结构是一种“通过两次否
2、定表示肯定意义”的特殊结构,直接影响自然语言处理中的语义判断与情感分类。该文以“P=P”为标准,对现代汉语中所有的“否定词+否定词”结构进行了遍历研究,将双重否定结构按照格式分为了3大类,2 5小类,常用双重否定结构或构式1 3 2个。结合动词的叙实性、否定焦点、语义否定与语用否定等理论,该文归纳了双重否定结构的三大成立条件,并据此设计实现了基于规则的双重否定结构自动识别程序。程序实验的精确率为9 8.8 0%,召回率为9 8.9 0%,F1值为9 8.8 5%。同时,程序还从9 62 8 1句语料中获得了86 4 0句精确率约为9 9.2 0%的含有双重否定结构的句子,为基于统计的深度学习模
3、型提供了语料支持。关键词:双重否定;自动识别程序;语义分析中图分类号:T P 3 9 1 文献标识码:AT h eR e s e a r c ho nA u t o m a t i cR e c o g n i t i o no f t h eD o u b l eN e g a t i o nS t r u c t u r eWAN GY u1,YUANY u l i n2,3(1.D e p a r t m e n to fC h i n e s ea n dB i l i n g u a lS t u d i e s,T h eH o n gK o n gP o l y t e c h
4、n i cU n i v e r s i t y,H o n g k o n g9 9 9 0 7 7,C h i n a;2.D e p a r t m e n to fC h i n e s eL a n g u a g ea n dL i t e r a t u r e,F a c u l t yo fA r t sa n dH u m a n i t i e s,U n i v e r s i t yo fM a c a u,M a c a u5 1 9 0 0 0,C h i n a;3.D e p a r t m e n to fC h i n e s eL a n g u a g
5、 ea n dL i t e r a t u r e/C e n t e r f o rC h i n e s eL i n g u i s t i c s,P e k i n gU n i v e r s i t y,B e i j i n g1 0 0 8 7 1,C h i n a)A b s t r a c t:T h ed o u b l en e g a t i o ns t r u c t u r ei sas p e c i a ls t r u c t u r eo f“e x p r e s s i n gp o s i t i v em e a n i n gt h r
6、o u g ht w on e g a-t i o n s”,i nw h i c ht h e t w on e g a t i o n sh a v ea n i m p o r t a n t i m p a c t o n t h e s e m a n t i ca n a l y s i s a n de m o t i o n a l c l a s s i f i c a t i o n i nn a t u r a l l a n g u a g ep r o c e s s i n g.T a k i n g“P=P”a s t h ep r o t o t y p e,t
7、 h i sp a p e re x a m i n e s t h e“n e g a t i o nw o r d+n e g a t i o nw o r d”s t r u c t u r e s i nm o d e r nC h i n e s e,a n dd i v i d e st h e mi n t o3c a t e g o r i e s,2 5s u b-c a t e g o r i e sa n d1 3 2c o n-s t r u c t i o n s i nt o t a l.T h e n t h i sp a p e rp r o p o s e s
8、 t h r e e c o n d i t i o n s f o r t h e e s t a b l i s h m e n t o f t h ed o u b l en e g a t i o ns t r u c t u r e,a n dar u l e-b a s e dm e t h o dt oi d e n t i f yt h ed o u b l en e g a t i o n.T h ea c c u r a c yr a t eo fr e c o g n i t i o no ft h ed o u b l en e g a t i o ns t r u c
9、 t u r e i s9 8.8 0%,t h er e c a l l r a t e i s9 8.9 0%,a n dt h eF1v a l u ei s9 8.9 5%.T h ep r o p o s e dm e t h o dc o u l di d e n t i f y86 4 0s e n t e n c e sw i t h9 9.2 0%t r u ed o u b l en e g a t i o ns t r u c t u r e f r o m9 62 8 1s e n t e n c e s.K e y w o r d s:d o u b l en e g
10、 a t i o n;a u t o m a t i cr e c o g n i t i o np r o g r a m;s e m a n t i ca n a l y s i s收稿日期:2 0 2 3-0 2-1 4 定稿日期:2 0 2 3-0 7-0 1基金项目:国家科技创新2 0 3 0“新一代人工智能”重大项目(2 0 2 0 AAA 0 1 0 6 7 0 1);国家社会科学基金(1 8 Z D A 2 9 5)0 引言在否定用法中,有一种特殊的用法 双重否定。丁声树先生在 现代汉语语法讲话 中将其概括为:“一句话先后用两个否定词,如 不能不去 没有人不去 非去不可 之类,
11、都是双重否定的句法。双重否定意思上是肯定的,不过跟单纯肯定不全一样。”例如,“我不得不喜欢他”指“我得喜欢他”,“我不一定不同意这个观点”指“我可能同意这个观点”1。虽然句子使用2期王昱等:双重否定结构自动识别研究的是否定形式,但其表达的却是肯定语义,且句子的语气还与单纯肯定有一定的区别(如“不得不喜欢”的语气比“喜欢”强,而“不一定不同意”的语气比“同意”弱,等等)。可见,双重否定结构的存在会对句子的语义真值与语气强度产生重要影响。对于自然语言处理来说,双重否定是处理语料时必须考虑的内容。例如,图1展示了C h a t G P T对双重否定的判断情况。图中,C h a t G P T无法正确
12、判断“不+V 1+不”结构,误将“我不知道他不来”理解为了“我知道他来了”;将“我不认为他不来”误解为了“我认为他不会来”。由此可见,目前自然语言处理应用尚无法有效识别双重否定结构,且双重否定结构的存在会对程序的语义识别与情感分析产生重要影响。综上所述,无论是从汉语本体研究的理论意义考虑,还是从自然语言处理的实用价值出发,我们都有必要对双重否定结构进行更全面、更深入的研究与探索。图1 双重否定结构处理情况示例图0.1 文献综述目前国内关于双重否定结构的理论研究主要集中在双重否定结构的定义、范围、格式和语义等领域。关于双重否定结构的定义与范围,学界存在不少争论,学者们争议较多的问题有:含有否定词
13、的反诘句是否为双重否定,紧缩复句是否为双重否定,双重否定是否包含复句,等等。关于双重否定结构的格式,已有研究都是从分类与举例的角度进行讨论,尚未有研究从形式的角度对双重否定格式进行具体、详细的遍历分析。目前对双重否定格式概括最为全面的是芜崧2,他将双重否定划分的八大类型,2 5个格式。然而,仍有许多常在自然语料中出现的双重否定结构未被芜崧收入其中,如“不可能不”“不应该不”“不是不”,等等。关于双重否定结构的语义,叶文曦3、方绪军4、何爱晶5等引入了L a d u s a w6的形式语义学、H o r n7的元语否定等理论,对一些典型的结构进行了分析,得出了具有解释力的成果。然而,由于双重否定
14、的范围、格式还未确定,目前学者只集中分析了几个典型的结构,覆盖面十分有限,缺乏系统性的梳理与总结。目前关于双重否定结构的应用研究主要集中在情感分析领域,具体根据研究方法可以分为以下两种。(1)通过搜集典型的双重否定结构(图2),构建双重否定词 典,以服务 相关的情感分 析,如王勇等8,吴杰胜、陆奎9,等等。这种方法的准确率很高,但是覆盖面不足。图2 王勇等8双重否定词典(2)在否定词的基础上,通过统计修饰每一个情绪词的否定词个数来判断双重否定,并以系数的形式将双重否定的语气功能加入到情感分析的结果当中,如封洋1 0,等等。这种方法涵盖范围广,但是错误率很高,因为任何含有两次否定的结构都会被判断
15、为表示肯定的双重否定结构。0.2 本文选题及目标综上所述,目前学界对汉语双重否定结构的研究成果颇丰,但仍然存在一些不足之处。例如,双重否定结构的格式与范围尚不完整;双重否定语料资源匮乏;系统化、全面化的双重否定结构自动识别尚未实现,等等。鉴于此,本研究将“双重否定结构”作为研究对象,试图通过遍历分析与语料考察相结合的方法,对双重否定结构进行以下探索:(1)梳理双重否定结构格式,使其能够全面覆盖C C L语料库;(2)总结双重否定结构成立条件,并据此提出相应的计算机识别策略;(3)建立高F1值的双重否定结构自动识别程序;(4)进一步验证语言学知识在双重否定结构自动识别过程中的贡献,通过程序测试上
16、述成立条件在双重否定结构识别过程中的作用;(5)搜集双重否定语料资源,为基于统计的双重否定识别深度学习模型提供支持。73中 文 信 息 学 报2 0 2 4年1 双重否定结构的定义标准与考察范围鉴于语义真值识别和情感极值判断是计算机对否定结构进行语义识别时所面临的主要问题,本文借鉴形式语义学,为双重否定拟定了一个工作定义:只要两次否定与肯定在语义真值上相同,即“P=P”,便属于双重否定。目前我们的考察范围为所有“否定词(+)+否定词”中双重否定表肯定的结构。暂不考虑下列情况:(1)否定词为隐性否定词(即本身语义内含有否定意思的动词,如“讨厌”“拒绝”等);(2)否定类型为语用否定的结构(如“我
17、不是不喜欢你,而是恨你”中的“不是不喜欢”);(3)“反问句+否定词”结 构(如“难道 不”等,具体参见刘彬、袁毓林1 1)。我们结合吕叔湘1 2、王力1 3、朱德熙1 4等前贤研究,梳理出了十三个否定词,前十个为否定副词,后三个为否定动词,具体如下:“非、不、别、甭、未、莫、勿、没、没有、休”“无、没、没有”结合语料,我们对“否定词+否定词”组合中符合要求的双重否定结构的格式进行了遍历梳理,整理出了2 5种“否定词+否定词”可表肯定的结构,具体如表1所示。下面,我们将对上述2 5种“否定词+否定词”格式展开具体分析,梳理每一种格式中双重否定结构的成立条件,并设计与之相应的计算机识别策略,在此
18、基础上总结所有现代汉语中常用的双重否定结构。表1 双重否定结构格式调查情况表不没没有无非莫别不不不不没不没有不无没没不没不没没没没有没有没有不没有不没有没没有没有无无不无不非非不非不非没非没非没有非没有非无非莫莫莫不别别不别没2 双重否定结构的成立条件与识别策略通过初步考察,发现,双重否定结构“不V 1不V 2”的成立条件最为复杂,需要同时满足以下三个条件:(1)“不V 1”与“不V 2”构成述宾关系;(2)“V 1”动词有限制(为非叙实动词);(3)“不V 1”的否定焦点在“不V 2”上。除了“不是不”需要区别语义否定与语用否定外,其他双重否定结构的成立条件都可被囊括在上述三个条件中,只是部
19、分细节存在差异。因此,我们 先 对“不V 1 不V 2”与“不 是 不”的成立条件与识别策略进行详细分析,再在此基础上,对其他双重否定结构进行讨论。2.1“不V 1不V 2”双重否定结构的成立条件与识别策略2.1.1 第一个条件:“不V 1”与“不V 2”构成述宾关系 “不V 1”与“不V 2”的结构类型有并列、主谓、紧缩、述宾等。在各类结构类型中,只有述宾结构的“不+V 1+()+不+V 2”存在表示双重否定的可能。具体讨论如下:并列结构的“不V 1不V 2”,指“不哭不闹”、“不高不低”这一类表达。袁毓林1 5指出,并列结构“通常不能通过直接在这种谓词性并列结构的前面加上 不、没有 等否定
20、词来构成否定式,而是要在这83其中,三角形表示该组合不出现/极少出现于实际语料中。2期王昱等:双重否定结构自动识别研究种并列结构的各个直接成分之前分别加上 不、没有 等否定词。”因此,并列结构的“不V 1不V 2”只是其肯定式“V 1 V 2”的单重否定,不属于双重否定结构。如“不哭不闹”不等于“哭闹”。主谓结构的“不V 1不V 2”语料数量很少,指“不隐藏不代表泄露”“不买票不是我的决定”这一类表达。在该类结构中,“不V 1”只是一个命题陈述,是交流中的旧信息。“不V 1”的“不”与“不V 2”的“不”并没有语义上的关联,不构成“双重”否定的结构。如“不隐藏不代表泄露”不等于“隐藏代表泄露”
21、,“不买票不是我的决定”不等于“买票是我的决定”。紧缩结构的“不V 1不V 2”指“不给钱不办事”“不买票就不让进”这一类表达。紧缩结构虽然在语义上有条件性,但在句法上仍是并列关系,前后不构成从属结构。关于紧缩条件类的结构是否为双重否定未有定论。本文主要从形式语义学的角度对其进行讨论。以“不给钱不办事”为例。“给钱办事”语义为“如果给钱,那么办事”。P命题可以分解为q 1“给钱”,q 2“办事”,逻辑式为蕴含式q 1q 2,它的等值式为q 2 q 1。而“不给钱不办事”语义为“如果不给钱,那么不办事”,逻辑式应为蕴含式 q 1q 2。从下列真值表(表2)可以看出,q 1q 2与q 1 q 2的
22、语义真值不一致,不符合“P=P”的标准。因此从形式语义学来看,紧缩语义结构不是双重否定结构。表2 紧缩结构语义真值表q 1 q 2q 1q 2 q 1q 2q 2q 1 q 1q 2TTFFTTTTFFTFFTFTTFTTFFFTTTTT 最后述宾结构的“不V 1不V 2”指“不觉得不好”“不认为你不来”等V 1为述语,“不V 2”为宾语的结构。“不V 1”与“不V 2”构成从属结构,存在“否定+否定=肯定”的可能。例如,“不认为他明天不会来”可以理解为“认为他明天会来”,“不觉得这件事不妥”可以理解为“觉得这件事妥”,等等。由此,我们可以得出“不V 1不V 2”构成双重否定结构的第一个条件为
23、:“不V 1”与“不V 2”构成述宾关系。2.1.2 第二个条件:V 1为非叙实动词述宾结构的“不V 1不V 2”中只有一部分成员,其“不V 1”对“不V 2”有管辖作用,属于双重否定结构,其他成员仍只表示单纯的否定。试看下例:1 a.我不知道他不来。1 b.*我知道他来。2 a.我不幻想他不来。2 b.*我幻想他来。3 a.我不认为他不来。3 b.我认为他来。通过例句可以发现,当V 1为“认为”时“不V 1不V 2”可以理解为“V 1V 2”,而当V 1为“知道”“幻想”时却不能。同样是动词,“知道”“幻想”“认为”对“不V 2”的影响却存在着差别。经过研究,我们发现,“不V 1”对“不V
24、P”是否有管辖作用与V 1的语义有关,具体来说与V 1的叙实性有关。李新良1 6将叙实性定义为“叙实性是动词的一种语义功能,即动词预设其宾语小句真值的能力。具体来说,肯定式和否定式都预设其宾语小句为真的动词是叙实动词肯定式和否定式都不预设其宾语小句为真,也不预设其宾语小句为假的动词是非叙实动词肯定式和否定式都预设其宾语小句为假的动词是反叙实动词”。对于叙实动词和反叙实动词来说,由于其预设固定,无论主句有无否定,宾语小句的真值都不变,因此主句无法影响宾语小句的真值,不构成“P=P”。而对于非叙实动词(如:认为)来说,由于非叙实动词对宾语小句并没有预设,在述宾结构中,主句中的V 1可以对宾语的真值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 双重 否定 结构 自动识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。