基于深度学习的中文命名实体快速识别研究.pdf
《基于深度学习的中文命名实体快速识别研究.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的中文命名实体快速识别研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、SOFTWARE2023软 件第 44 卷 第 8期2023 年Vol.44,No.8作者简介:袁梦璐(1998),女,河南洛阳人,硕士研究生,研究方向:自然语言处理。基于深度学习的中文命名实体快速识别研究袁梦璐 郭小燕(甘肃农业大学理学院,甘肃兰州 730070)摘要:当前的中文命名实体快速识别层一般设置为单向目标,识别范围受限制,导致快速识别丢失率增加,为此提出对基于深度学习的中文命名实体快速识别的设计与验证研究。根据实际的识别需求及标准,先进行识别特征的提取,采用多目标的形式,打破识别范围的限制,设定识别节点及多目标识别层,构建深度学习中文命名实体识别模型,采用自适应交叉处理实现中文命名
2、实体快速识别。最终的测试结果表明:对比于传统融合自注意力的 ALBERT 中文命名实体快速识别测试组、传统BERT-DeepCAN-CRF 中文命名实体快速识别测试组,此次所设计的深度学习中文命名实体快速识别测试组最终得出的快速识别丢失率被较好地控制在 21%以下,说明此种识别处理方法的针对性与稳定性较强,对于复杂的识别环境仍然可以对所需要抽取的数据信息进行精准定位,强化处理效果,误差可控,具有实际的应用价值。关键词:深度学习技术;中文命名;实体验证;快速识别;可控识别;命名结构中图分类号:TP391 文献标识码:A DOI:10.3969/j.issn.1003-6970.2023.08.0
3、39本文著录格式:袁梦璐,郭小燕.基于深度学习的中文命名实体快速识别研究J.软件,2023,44(08):159-162Research on Fast Recognition of Chinese Named Entities Based on Deep LearningYUAN Menglu,GUO Xiaoyan(School of Science,Gansu Agricultural University,Lanzhou Gansu 730070)【Abstract】:The current Chinese named entity fast recognition layer is
4、generally set as a unidirectional target,and the recognition range is limited,resulting in an increase in the loss rate of fast recognition.Therefore,a research on the design and validation of deep learning based Chinese named entity fast recognition is proposed.Based on actual recognition requireme
5、nts and standards,the recognition features are extracted first,using a multi-objective form to break the limitations of recognition range,setting recognition nodes and multi-objective recognition layers,constructing a deep learning Chinese named entity recognition model,and using adaptive cross proc
6、essing to achieve fast recognition of Chinese named entities.The final test results show that compared to the traditional ALBERT Chinese named entity fast recognition test group and the traditional BERT-DeepCAN-CRF Chinese named entity fast recognition test group,the designed deep learning Chinese n
7、amed entity fast recognition test group has a fast recognition loss rate that is well controlled below 21%,indicating that this recognition processing method has strong pertinence and stability,for complex recognition environments,it is still possible to accurately locate the data information that n
8、eeds to be extracted,enhance processing effectiveness,and control errors,which has practical application value.【Key words】:deep learning technology;Chinese naming;physical verification;quick identification;controllable identification;naming structure设计研究与应用0 引言命名实体识别作为数据信息抽取的核心模块,近年来,被广泛应用在智能问答、信息识别
9、检索、机器处理等工作的处理之中,但是初始的中文命名实体快速识别方法多为单向的,参考文献 1 和文献 2,设定传统融合自注意力的 ALBERT 中文命名实体快速识别方法、传统BERT-DeepCAN-CRF 中文命名实体快速识别方法。这一类方法虽然可以实现预期的处理识别任务,但是实践过程中缺乏针对性与稳定性,且较容易受到外部环境及特定因素的影响,导致最终得出的识别结果出现误差3,4。为此提出对基于深度学习的中文命名实体快速识别的研究和验证。所谓深度学习,实际上是机器学习的一种,160软 件第 44 卷 第 8 期SOFTWARE主要指的是学习样本数据的内在规律和表示层次,促使机器可以像人一样思考
10、与分析5。将该项技术与深度学习相融合,一定程度上可以进一步扩大实际的识别范围,逐步形成一种更为灵活、多变的识别结构,在复杂的背景环境下,可以更快、更及时地获取到精准、可靠的识别结果,形成特殊的识别标注,为后续相关技术的创新及发展提供参考依据及理论借鉴6。1 设计中文命名实体深度学习快速识别方法1.1 提取识别特征首先,中文命名实体是对群体数据信息中的特定实体进行识别的,所以,可以结合实际的处理需求,预先设定好初始的识别实体,并对其类别进行分化处理,大致可以分为以下三种,分别是词级表示、字级表示以及混合表示7,8,从而实现对识别特征提取结构的设计与分析,接下来,综合深度学习技术,设置中文命名实体
11、快速识别快速迁移矩阵,具体的框架如图 1 所示。特征标注数据信息转换深度学习识别段转换形成初始的矩阵结构词级表示-词段字级表示-字段混合表示-应用段调整矩阵覆盖范围,总结实时识别特征图 1 中文命名实体快速识别快速迁移矩阵框架图示Fig.1 Framework diagram of fast transfer matrix for Chinese named entity recognition1.2 设定识别节点及多目标识别层实现对识别特征的提取之后,接下来,结合深度学习技术,进行识别节点的部署及多目标识别层的设计。通常情况下,为扩大实际的识别范围,明确识别目标,均会选择部署识别监测点进行辅
12、助处理,一定程度上可以进一步强化识别的精度。在选定的语料库可控查询程序中增设多个识别节点,通过核心节点下达指令,同时确保每一个节点之间的距离一致,节点相互关联,建立正向的识别处理关系。随后,结合深度学习技术,设置多目标的中文命名实体识别层,分别是嵌入层、编码层以及标签解码层。此时,结合实际的识别需求,进行识别单元值的计算,具体如公式(1)所示:21tKt=+(1)公式(1)中:K表示识别单元值,表示可识别范围,表示定向识别区域,t表示深度学习次数,表示转换比。依据得出的数值,结合设置的目标,细化分解每一个识别层级,具体如图 2 所示。根据图 2,完成对多目标识别层结构的设计与分析。在设定的矩阵
13、中导入多种类的识别目标,建立循环性的识别结构,为后续的标签解码分析奠定基础。1.3 构建深度学习中文命名实体识别模型结合深度学习技术,构建中文命名实体识别模型。基于上述提取的识别特征,进行模型初始识别指标的设置,如表 1 所示。表 1 中文命名实体识别模型指标设置表Tab.1 Index settings for Chinese named entity recognition model测定指标名称词级表示字级表示混合表示识别段/个646稀疏系数1.351.221.26F1 值16.3515.5715.05协同识别偏差限值2.12.11.9根据表 1,完成对中文命名实体识别模型指标的设置。随
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 中文 命名 实体 快速 识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。