基于语法知识增强的中文语法纠错.pdf
《基于语法知识增强的中文语法纠错.pdf》由会员分享,可在线阅读,更多相关《基于语法知识增强的中文语法纠错.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 11期2023年 11月Computer Engineering 计算机工程基于语法知识增强的中文语法纠错邓倩,陈曙,叶俊民(华中师范大学 计算机学院,武汉 430079)摘要:语法纠错旨在判断自然语言文本中是否包含语法错误并对句子进行纠正。随着预训练语言模型的迅速发展,基于预训练语言模型的方法被广泛应用于中文语法纠错(CGEC)领域,然而现有的预训练语言模型缺乏语法纠错领域的特定语法知识,导致语法纠错效果不佳。针对该问题,提出一种基于语法知识图谱预训练模型的 CGEC模型。首先进行结构化知识编码,将语法知识图谱中的结构化知识映射到词语实体嵌入中,然后通过特定的预训练掩码策略联
2、合学习上下文和词语之间的语法知识以预测字符和词语,最后通过设置检错网络和纠错网络对预训练模型进行微调,以完成 CGEC 任务。通过上述过程充分提取语法知识,以帮助模型更好地捕捉句子中词语之间的语法关系。在 NLPCC 2018测试数据集上的实验结果表明,语法知识增强的方法使得模型的 F0.5值提升 4.83个百分点,所提模型的 F0.5值相比 NLPCC 2018共享任务中排名第一的模型高 8.85个百分点,验证了基于语法知识图谱的预训练模型在 CGEC任务中的有效性。关键词:语法纠错;预训练语言模型;异构知识编码;知识图谱;深度学习开放科学(资源服务)标志码(OSID):中文引用格式:邓倩,
3、陈曙,叶俊民.基于语法知识增强的中文语法纠错 J.计算机工程,2023,49(11):77-84.英文引用格式:DENG Q,CHEN S,YE J M.Chinese grammatical error correction based on grammatical knowledge enhancement J.Computer Engineering,2023,49(11):77-84.Chinese Grammatical Error Correction Based on Grammatical Knowledge EnhancementDENG Qian,CHEN Shu,YE J
4、unmin(School of Computer Science,Central China Normal University,Wuhan 430079,China)【Abstract】The aim of grammatical error correction is to judge whether natural language texts contain grammatical errors,to correct them.In recent years,with the rapid development of pre-trained language models,method
5、s based on such models have been widely used in the field of Chinese Grammatical Error Correction(CGEC).However,the existing pre-trained language models lack specific grammatical knowledge in the grammatical error correction field,resulting in poor grammar correction effect.To solve this problem,thi
6、s paper proposes a CGEC model based on a pre-training model with grammatical knowledge graph.First,the model uses structured knowledge encoding to map the structured knowledge into word entity embedding.Subsequently,the context and grammatical knowledge between words are jointly learned through a sp
7、ecific pre-training mask strategy,to predict characters and words.Finally through error detection and correction networks,the pre-training model is fine-tuned for CGEC.Based on the serial application of these three components,grammatical knowledge can be extracted to a greater extent,thereby helping
8、 the model better capture the grammatical relationship between words in sentences.The experimental results on the NLPCC 2018 test dataset show that the method for enhancing grammatical knowledge improves F0.5 score of the model by 4.83 percentage points,and F0.5 score of the proposed model is 8.85 p
9、ercentage points higher than that of the first model on the NLPCC 2018 shared task,which proves the effectiveness of using the pre-training model based on grammatical knowledge graph for CGEC.【Key words】grammatical error correction;pre-trained language model;heterogeneous knowledge encoding;knowledg
10、e graph;deep learningDOI:10.19678/j.issn.1000-3428.0066089基金项目:国家社会科学基金后期资助项目(20FTQB020)。作者简介:邓 倩(1999),女,硕士研究生,主研方向为自然语言处理;陈 曙,博士;叶俊民,教授、博士。收稿日期:2022-10-24 修回日期:2022-12-24 Email:人工智能与模式识别文章编号:1000-3428(2023)11-0077-08 文献标志码:A 中图分类号:TP182023年 11月 15日Computer Engineering 计算机工程0概述近年来,随着中国国际影响力的提高,汉语的国
11、际地位日益提升,非母语汉语学习者的数量与日俱增。中文相较于英文没有明确的词边界且不存在词语的单复数、时态等明确的语法规则,其语法更加复杂和灵活1。中文语法错误通常涉及语义上的错误,如使用错误、上下文搭配错误等,是汉语句子层次 上 最 常 见 的 错 误。中 文 语 法 纠 错(Chinese Grammatical Error Correction,CGEC)是一项具有挑战性的任务,先后经历了基于语法规则、基于统计机器翻译(Statistical Machine Translation,SMT)和基于神经机器翻译(Neural Machine Translation,NMT)的方法,CGEC
12、任务模型性能有了质的提升。但是,NMT的方法缺少大规模的标注数据,因此,CGEC领域 开 始 使 用 大 语 料 库 预 训 练 的 通 用 语 言 模 型 对CGEC 任务进行微调。然而,在这些方法中语言模型都是独立于 CGEC 任务而进行预训练的,在预训练期间没有学习任何特定于语法任务的先验知识,未能充分利用预训练语言模型的优势。中文语法错误是指句子中词语与词语的组合违反语法结构规律。随着汉语的发展和多种文化元素的碰撞,词语间的搭配规则更多的是语言群体的约定俗成,是一种语言习惯,因此,中文文本中词语之间的关系错综复杂,序列表示方法并不能充分提取其中错综复杂的关系。文献 2 中已证明在预训练
13、期间将知识图谱的领域知识注入预训练模型中并未损害其原有的通用语义知识,且能够有效提高下游知识驱动型任务模型的性能,因此,提取词语之间结构化的语法知识并使用知识图谱来梳理这些错综复杂的关系势在必行。本文采用句子成分间的依存关系来构建语法结构知识图谱,将结构化知识注入预训练模型中,并结合特定的预训练掩码策略,提出一种融入语法知识的预训练掩码语言(PGKG)模型,通过捕获词语之间的依赖关系并探索句子上下文的先验依赖关系以实现中文语法纠错。为避免引入额外的模块,该模型直接将预训练的知识表示向量与语义表示向量相融合进行训练,将句子中涉及对齐的词语视为实体节点以构建大型语法知识图谱,将对应词语节点在知识图
14、谱中检索的子图作为此句子的词语候选集。同时,根据 CGEC任务的特点引入基于词语相关子图的掩码策略来鼓励模型更加了解句子中词语间的语法知识。考虑到基于机器翻译的序列到序列方法推理速度较慢,该模型在微调过程中将中文语法纠错视为序列标注任务并设置检错和纠错网络进行共同学习,使得纠错网络在正确的位置进行中文语法纠错。1相关工作1.1中文语法纠错中文语法早期主要运用纠错规则、纠错词典等基于规则的方法来进行纠错,如文献 3 中手工制作了一组带有句法信息的语言规则以检测中文句子中的错误。但是,由于语言的复杂性,这种方法不能覆盖所有的语言规则。随着机器学习技术的发展,中文语法纠错领域涌现了两大主流方法:一种
15、是采用文献4-6中的 SVM(Support Vector Machines)、最大 熵、一 阶 归 纳 学 习 等 算 法 对 错 误 进 行 分 类,如文献 6 提出惩罚概率一阶归纳学习的方法对错误进行分类,实验结果表明,在错误分类方面该方法优于一些基本分类器算法;另一种是借鉴文献 7 中提到的统计机器翻译的方法将语言纠错视为机器翻译任务,从序列到序列对文本进行纠错,但是,这种错误诊断方法通常存在离散词表示、缺乏全局上下文信息、推理速度慢等问题。在这之后,随着神经机器翻译的飞速发展,基于 NMT技术的方法逐渐替代传统的基于规则和统计的方法,成为 CGEC任务的主流方法,同时一系列主流的 N
16、MT模型(如文献 8-10 中的NMT模型)都被应用于 CGEC领域。近年来,预训练语言模型在各种自然语言处理任务中取得了优异成果,CGEC领域的很多研究人员都使用预训练语言模型来提高模型的性能。文献 11将 残 差 网 络(ResNet)集 成 到 BERT(Bidirectional Encoder Representation from Transformers)语言模型中进行错误检测,使用 RoBERTa和 n-gram 语言模型进行选词错误纠正,利用预训练掩码语言模型 BERT和 统 计 语 言 模 型 的 组 合 进 行 漏 词 错 误 纠 正。文献 12 将 BERT 融合 Tr
17、ansformer模型并引入到纠错领域,以提高纠错性能。文献 13 使用图卷积网络(Graph Convolutional Network,GCN)接 受 由 BERT模型获得的高层字符信息以及依赖树的邻接矩阵,其每层都采用卷积运算。1.2知识增强的预训练语言模型预训练语言模型通常是从大规模文本语料库中学习通用的语言知识并根据下游任务进行自适应微调,然而这类语言模型通常缺乏特定领域的知识。为了解决该问题,大量研究人员使用不同的知识增强方法,利用知识丰富的知识图谱来增强预训练语言模型的特定领域知识,以弥补传统预训练语言模型的缺陷2。文献 14-15 中知识增强的预训练语言模型分别通过增加专门的知
18、识编码模块和直接修改原有编码模块的内部结构,以利用特定的结构化知识来改进模型的编码模块。文献 16 提出的K-BERT(Knowledge-enabled Bidirectional Encoder Representation from Transformers)知识增强的预训练语言模型通过扩展输入文本序列结构为文本知识树,以利用知识扩充输入特征。以上使用不同知识增强方法的预训练语言模型在实验中充分显示出预训练的潜力,且在许多特定领域的任务上都明显优于 BERT。78第 49卷 第 11期邓倩,陈曙,叶俊民:基于语法知识增强的中文语法纠错2模型结构本文将中文语法纠错视为序列标注任务,给定可
19、能 含 有 语 法 错 误 的 输 入 序 列X=x1x2xn,n 为输入文本序列中的总字数,则语法纠错模型预测的标签序列为L=l1l2ln,其中,对第 i 个字xi进 行 修 正 的 纠 错 标 签li为 纠 错 标 签 集 合KEEPDELETEAPPENDt_wREPLACEt_w中 的 一 个标签,标签集合中KEEP表示当前字符保持不变,DELETE是对冗余错误的修改(即删除冗余字),APPENDt_w是对词缺失错误的修改(即增加缺失的目标字或词t_w),REPLACEt_w是对词不当错误的修改(即将错误的字词替换为正确的目标字或词t_w)。对于其他的语法错误,可通过标签集合中的多个标
20、签 组 合 进 行 修 改,如 字 词 顺 序 颠 倒 错 误 可 通 过DELETE和APPENDt_w标签组合进行修改。模型预测后预测标签还需根据输入文本进行后处理,即在X上按照L中每个字对应的标签进行语法错误修正,以获得目标文本T=t1t2tn。基于语法知识增强的语法纠错模型总体框架如图 1 所示。首先对错误句子X进行实体识别得到实体序列E=e1e2ek,其中,ei E,1 i k(k为句子中所包含知识图谱中的节点个数,E表示所有词语实体的集合),根据实体在语法知识向量字典D中查找对应的知识表示向量E*=e*1e*2e*k;然后将错误 句 子 字 符 序 列 及 其 对 应 的 知 识
21、表 示 向 量 放 入PGKG 预训练模型中进行微调,得到最终的纠错结果。模型中的实体识别并非自然语言处理中的实体识别任务,而是对句子进行分词后保留知识向量字典中存在的词语实体。微调过程详见第 2.4节。2.1语法知识图谱语法知识图谱是由在大型中文语料库中提取句子依存关系并筛选出关系频数大于 100 的关系三元组组成。知识图谱中有 13个依存关系,包括主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系和标点依附关系。令E表示所有词语实体的集合,R表示知识图谱中存在的所有关系集合,三元组表示为(efret),其中,efet E分
22、别表示组成关系的 2 个词语实体,r R表示它们之间的关系。本文所构建的语法知识图谱结构可视化部分截取图如图 2所示。图 1基于语法知识增强的语法纠错模型结构Fig.1Grammatical error correction model structure based on grammatical knowledge enhancement图 2语法知识图谱结构可视化示意图Fig.2Visual diagram of grammatical knowledge graph structure792023年 11月 15日Computer Engineering 计算机工程2.2语法知识表示向量
23、 语法知识表示向量是采用 TuckER 模型17训练关系三元组而得到的。根据 Tucker分解18的计算方式,TuckER 模 型 中 三 元 组 的 得 分 函 数 可 表 示 为(efret)=W 1Ef2wr3Et,其中,Ef和Et分别表示实体ef和et的向量,wr表示关系向量,W是通过Tucker 分 解 得 到 的 核 心 张 量。TuckER 模 型 将Sigmoid 函数应用于每个分数(efret)中,以获得三元组为真的预测概率,经过训练以最小化伯努利负对数似然损失函数。经 TuckER 训练结束后得到的实体表示向量所组成的集合即为语法知识向量字典D。从句子中提取的词语实体通过查
24、找语法知识向量字典所得到的向量为语法知识表示向量。2.3预训练模型PGKG 预训练模型架构如图 3所示,它由 2个组件构成,即字符编码器和知识融合编码器。字符编码器由 M 个堆叠的双向 Transformer编码器组成,知识融合编码器由 N 个堆叠的知识融合编码层组成。输入的句子首先经过 M 层字符编码器进行编码后输出语义表示向量,然后在第 M+1 层将语义表示向量和预训练好的语法知识表示向量进行融合,在其后的 N1 个堆叠的知识融合编码层中,分别将上一层输出的向量放入多头注意力层19中得到对应的注意力向量输出后再进行融合,将字符和词语的异构信息表示到一个统一的特征空间中。假设输入预训练模型的
25、句子的字符序列为S=s1s2sn(n 为句子的长度),与之对齐的词语序列为E=e1e2ek(ej E,1 j k)。该模型首先将字符序列X生成的字符嵌入和位置嵌入求和以计算其输入嵌入,然后根据输入嵌入通过字符编码器计算得到最终的语义表示特征C=c1c2cn。字符编码器是一个多层双向 Transformer编码器,除了层数外其结构与 BERTbase 相同,隐藏单元大小为768,注意力头数为 12。2.3.1 知识融合编码器在字符编码器之上,知识融合编码器将知识表示向量和语义表示向量 2个异构信息进行融合并计算最终的输出嵌入,其中,知识表示向量是语法知识图谱在知识嵌入模型中进行预训练后得到的词语
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 语法 知识 增强 中文 纠错
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。