基于微调原型网络的小样本敏感信息识别方法.pdf
《基于微调原型网络的小样本敏感信息识别方法.pdf》由会员分享,可在线阅读,更多相关《基于微调原型网络的小样本敏感信息识别方法.pdf(9页珍藏版)》请在咨信网上搜索。
1、第3 8卷 第1期2 0 2 4年1月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.1J a n.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 1-0 1 1 5-0 9基于微调原型网络的小样本敏感信息识别方法余正涛1,2,关 昕1,2,黄于欣1,2,张思琦1,2,赵庆珏1,2(1.昆明理工大学 信息工程与自动化学院,云南 昆明6 5 0 5 0 0;2.昆明理工大学 云南省人工智能重点实验室,云南 昆明6 5 0 5 0 0)摘 要:敏感信息识别主
2、要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方法,在小样本学习框架下,利用快速适应的微调原型网络来缓解元训练阶段通用新闻领域和元测试阶段敏感信息数据差异大的问题。首先,在元训练阶段,基于通用新闻领域的分类数据训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数,然后在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上。实验结果证明,相
3、比当前最优的小样本分类模型,该文提出的快速适应微调策略的原型网络显著提升了敏感信息识别效果。关键词:敏感信息识别;小样本学习;微调策略;原型网络中图分类号:T P 3 9 1 文献标识码:AF e w-s h o t S e n s i t i v e I n f o r m a t i o nR e c o g n i t i o nB a s e do nP r o t o t y p eN e t w o r kF i n e-t u n i n gYUZ h e n g t a o1,2,GUANX i n1,2,HUAN GY u x i n1,2,Z HAN GS i q i1,2
4、,Z HAOQ i n g j u e1,2(1.F a c u l t yo f I n f o r m a t i o nE n g i n e e r i n ga n dA u t o m a t i o n,K u n m i n gU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,K u n m i n g,Y u n n a n6 5 0 5 0 0,C h i n a;2.Y u n n a nK e yL a b o r a t o r yo fA r t i f i c i a l I n t e l l
5、 i g e n c e,K u n m i n gU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,K u n m i n g,Y u n n a n6 5 0 5 0 0,C h i n a)A b s t r a c t:S e n s i t i v e i n f o r m a t i o nr e c o g n i t i o nr e f e r s t ot h e i d e n t i f i c a t i o no f s e n s i t i v em a s s a g e s r e l
6、a t e dt op o r n o g r a p h y,d r u g s,c u l t,v i o l e n c ea n do t h e r t y p e so f s e n s i t i v e i n f o r m a t i o no nt h e I n t e r n e t.Af e w-s h o t s e n s i t i v e i n f o r m a t i o nr e c-o g n i t i o nb a s e do np r o t o t y p en e t w o r kf i n e-t u n i n gi sp r
7、o p o s e di nt h i sp a p e r.T h ep r o p o s e dm e t h o de m p l o y st h ef a s ta d a p t a t i o nf u n c t i o nu n d e r t h e f r a m e w o r ko f f e w-s h o t l e a r n i n gt ob r i d g e t h ed o m a i ng a pb e t w e e nt h ed a t a s e t i nm e t a-t r a i n i n gs t a g ea n d t h
8、a t o fm e t a-t e s t s t a g e.S p e c i f i c a l l y,t h ep r o p o s e dm o d e l i s t r a i n e do ng e n e r a l n e w sd o m a i n i nm e-t a-t r a i n i n gs t a g ew i t ha t w o-s t a g eg r a d i e n t u p d a t em e c h a n i s mt oo b t a i nag r o u po f i n i t i a l p a r a m e t e
9、 r s.I nm e t a-t e s t i n gs t a g e,m o d e l f r e e z e s ap a r t o f p a r a m e t e r s t ob e f a s t f i n e t u n e d f o r t h e s e n s i t i v e t e x t d a t a s e t.T h e e x p e r i m e n t a l r e s u l t ss h o wt h a t t h ep e r f o r m a n c eo f t h ep r o p o s e dm o d e l i
10、 ns e n s i t i v e i n f o r m a t i o nr e c o g n i t i o nt a s k i ss i g n i f i c a n t l y i m p r o v e dc o m p a r e dt oas t r o n gb a s e l i n e f e w-s h o tm o d e l.K e y w o r d s:s e n s i t i v e i n f o r m a t i o nr e c o g n i t i o n;f e w-s h o t l e a r n i n g;f i n e-t
11、u n i n gs t r a t e g y;p r o t o t y p en e t w o r k收稿日期:2 0 2 2-0 7-0 6 定稿日期:2 0 2 2-0 9-0 6基金项目:国家自然科学基金(U 2 1 B 2 0 2 7,6 1 9 7 2 1 8 6 8,6 1 7 3 2 0 0 5);云南省重大科技专项计划项目(2 0 2 2 0 2 A D 0 8 0 0 0 3,2 0 2 0 0 2 A D 0 8 0 0 0 1);云南省高新技术产业专项(2 0 1 6 0 6);云南省基础研究专项面上项目(2 0 2 0 0 1 A T 0 7 0 0 4 6)中
12、 文 信 息 学 报2 0 2 4年0 引言随着互联网的发展,网络治理的问题也逐渐突出,对色情、毒品、邪教、暴力类型的敏感文本进行识别成为一项重要任务。可以将敏感文本识别看作一种特定领域的分类任务,针对该任务,目前国内外主要的研究方法有两类:基于敏感词典和基于深度学习的研究方法。基于敏感词典的方法通过制定规则与匹配算法利用敏感词表中关键词对文本进行过滤。但是敏感词表需要人工维护,由于网络新词、术语、敏感词变形体更新迭代速度快,构建维护敏感词表不仅易错漏,而且耗费较大。近年来,基于深度学习模型自动提取语义特征的文本分类方法取得了很好的效果。但是深度学习方法依赖于大量数据和计算能力,对于敏感信息识
13、别任务来讲,目前没有公开的数据集,人工构建的敏感文本数据集规模较小,不足以支持深度学习大规模参数的训练。针对标注数据稀缺的问题,目前有效的方法是利用小样本学习的思路,通过在元训练阶段使用的通用数据集上的大量学习任务对模型进行训练,使得元测试阶段新的小样本分类任务出现时,模型能够利用学到的元知识调整模型参数,通过较少的样本支撑获得好的分类效果,能够很好地应用于敏感信息识别任务中数据规模不足的场景。然而现有的小样本学习方法通常建立在元训练和元测试阶段的数据集具有相同分布的假设上,针对敏感信息识别任务,元训练和元测试阶段的数据差异较大。在元训练阶段通常选择使用通用的新闻领域数据集获取元知识,在元测试
14、阶段应用构建的包含色情、毒品、暴恐、邪教等敏感分类的敏感文本数据集进行识别,如图1所示,小样本学习方法会因领域特征分布的巨大差异而在没见过的敏感领域类中失去泛化性。图1 小样本学习中的领域分布差异 针对以上问题,解决元训练和元测试阶段的数据领域差异问题可以有效提升小样本方法在测试阶段的泛化性能,提升在敏感识别新任务上的分类效果,因此考虑在元测试阶段进行微调。元测试阶段进行微调时,既要使新的敏感识别任务少量样本能够产生良好的泛化性能,又需要考虑对整个模型的大量参数进行调整时避免模型底层学习到的元知识产生灾难性的遗忘。因此,本文构建了基于微调原型网络的敏感信息识别模型,在采用了小样本学习方法应对敏
15、感信息类别样本数量不足的问题的基础上,在元训练阶段中运用了快速适应思想1,使模型学习到一组易于微调的初始模型参数,使模型在元测试阶段能够通过少量敏感样本的微调策略取得良好泛化性能。在微调过程中,模型通过冻结部分底层参数来避免可能造成的过拟合现象。1 相关工作早期的敏感信息识别方法是通过敏感词典对互联网 上 文 本 进 行 词 匹 配,包 括 基 于BM(B o y e r-M o o r e)算法2、WM(Wu-M a n b e r)算法3、决策树算法4等方法。基于敏感词典的方法是最基础的方法,但是网络上敏感词层出不穷,人工维护词表难以及时更新。近几年,随着深度学习框架的流行与发展,基于深度
16、学习模型的敏感信息识别方法取得了很好的效果。X u等人5使用T e x t-C NN6获取文本表示,构建文本敏感内容检测模型,提高了检测效率。X u等人7通过W o r d 2 V e c模型8获得敏感词嵌入,通过余弦距离计算相似度实现敏感词拓展,并将拓展敏感词汇嵌入到潜在狄利克雷分配(L a t e n tD i r i c h l e t6111期余正涛等:基于微调原型网络的小样本敏感信息识别方法A l l o c a t i o n,L D A)模型9进行加权进行敏感主题识别。近年 来,以T r a n s f o r m e r1 0编 码 器 为 基 础 的B e r t(B i d
17、 i r e c t i o n a l E n c o d e r R e p r e s e n t a t i o nf r o mT r a n s f o r m e r s)1 1、R o B E R T a1 2模型等预训练语言模型,通过大规模无标注语料库进行自监督训练来获得先验知识和文本表征,使得模型在下游任务上能够通过微调取得很好的表现。李等人1 3使用预训练B e r t模型针对新闻文本分段提取语义特征,结合抽取的敏感关键词对每段语义向量加权求和,获得新闻文本的语义编码,用于敏感信息多分类。深度学习方法能够自动提取文本语义特征,但需要大规模数据对深度学习模型进行训练。在小样
18、本学习方面,小样本学习方法最早提出于图像领域,近年来在基于小样本的文本分类方面也 有 相 关 研 究。D o p i e r r e等 人1 4尝 试 将 基 于T r a n s f o r m e r的文本编码器结合入多个小样本学习方法中,通过实验证明了其应用于自然语言处理领域的有效性。W e i等人1 5结合了课程学习、数据增强和三重损失方法,通过课程指导的噪声水平渐进的数据增强方法对小样本模型进行训练,解决了相对于图像而言文本数据增强方法使增强数据与原始数据差异性更大、噪声数据难以学习的问题。在解决小样本学习领域差异大的方面,针对图像分类任务,C h e n等人1 6设置了领域迁移场景
19、下的小样本实验,证明元训练阶段和元测试阶段领域差异过大时对新类领域适应步骤的重要性。之后,T s e n g等人1 7通过在特征提取器加入仿射变换层模拟不同域中的特征分布、L i等人1 8通过辅助网络学习从特定任务支持集中学习特征权重,对跨域小样本学习任务进行了探索。在文本分类任务上也有相关的研究,L i等人1 9结合了S MLMT方法2 0和大型预训练语言模型,通过半监督的训练方法使元学习器掌握泛化到模型没见过领域的能力。O l a h等人2 1提出融入外部知识的方法进行情感分类,通过实验证明了在两种不同标签分类的情感数据集中跨域知识迁移的实现。2 基于微调原型网络的敏感信息识别模型为了识别
20、小样本敏感信息并解决领域差异问题,本文建立了基于微调原型网络的敏感信息识别模型,即在原型网络的基础上,运用了微调方法和快速适应思想。在下文对模型的描述中,把原型网络元训练过程的每次迭代表示为一个e p i s o d e,可以将其看作一个单独的学习任务。为保留元训练集和测试集共同的部分,微调差异的部分,在小样本学习每个e p i s o d e的微调模块中冻结文本特征提取器的一部分参数,使用支持集样本对未冻结的部分参数进行微调,避免灾难性的遗忘问题。在元训练阶段,微调部分结束后,使用查询集计算更新后的特征提取器损失所产生的梯度,使用该梯度对初始参数进行优化,使模型向易于快速适应新任务的方向调整
21、。每个e p i s o d e训练过程如图2所示。图2 基于微调原型网络的敏感信息识别模型711中 文 信 息 学 报2 0 2 4年 每个e p i s o d e的数据由支持集和查询集构成,从训练集包含的类别中随机选取N个类,每个类选取K个标记样本作为此次迭代的支持集,记作一个N-w a yK-s h o t学习任务,记输入样本的集合表示为X=x1,x2,xn,其对应的标签集合表示为Y=y1,y2,yn。使用S=Xs,YsN*Ks=1作为支持集的表示;从与支持集相同的类中选取样本作为查询集,使用Q=Xq,Yq 作为查询集的表示。2.1 原型网络本文采用的原型网络由文本编码器和度量模块构成
22、,文本编码器E n c o d e r表示为E,从数据集中抽取N个类别构建支持集S与查询集Q,从支持集和查询集的输入文本中提取特征,得到文本特征向量矩阵VS、VQ如式(1)所示。VS=E(Xs),VQ=E(Xq)(1)度量模块M e t r i cm o d u l e表示为M,通过支持集样本的编码VS及其对应标签YS、查询集样本的编码VQ来预测查询集的样本标签YQ。这个过程可以表示为如式(2)所示。Yq=M(VS,VQ,YS)(2)具体来说,将支持集样本Xs特征表示Vs中,对每个相同类中样本的特征向量 vn,1,vn,2,vn,k 做平均作为该类的原型,计算如式(3)所示。Pn=1KKk=1
23、vn,k,nYS(3)其中,n表示支持集中的第n个类,K表示支持集中每个类中包含K个样本。得到支持集中各类原型向量PN=pnNn=1后,计算查询集中样本Xq的特征向量Vq与PN的欧式距离,并作为预测评分,样本特征与各原型间的欧式距离和评分应成负相关,计算如式(4)所示。s c o r ei,n=e s p(-vi-pn22)Nn=1e s p(-vi-pn22)(4)其中s c o r ei,n表示查询集中第i个样本与第n个类原型之间的评分。通过s c o r ei,n得到查询集样本Xq中每个样本归属于n类原型上分布的一组预测值Yq,采用交叉熵损失衡量预测值Yq与对应真实标签Yq之间的损失,并
24、通过反向传播更新模型参数如式(5)所示。L o s s=L(Yq,Yq)=yqiYq,yqiYqyqil o gyqi+(1-yqi)l o g(1-yqi)(5)其中,L表示定义的交叉熵损失函数,i表示查询集的第i个样本,yqi、yqi分别表示i对应的预测值与真实值。2.2 基于快速适应思想的微调模块在原型网络的基础上,在e p i s o d e中加入对模型进行微调的步骤,并基于快速适应思想在元训练阶段通过大量学习任务对模型进行训练,获得一组好的初始学习参数,可以在元测试阶段的学习任务上迅速调整适应。在训练阶段,每个e p i s o d e中通过中文新闻标题数据集构建支持集S与查询集Q,
25、使用支持集S对编码器E进行进一步调整,如算法1所示。在下文描述中,使用E作为文本特征提取器的参数表示。在e p i s o d e开始的微调过程中,将E的前L层参数E(L)冻结,防止使用少量样本对所有参数进行更新而产生灾难性遗忘,使用支持集S分批次对后l层参数E(l)进行更新,使用E(l)表示得到更新后的后l层参数。微调过程结束后,将特征提取器冻结的前L层参数E(L)与微调更新的后l层参数E(l)结合得到新的文本编码器E_f t。使用E_f t对e p i s o d e的支持集S和查询集Q进行特征提取,并通过度量方法M对支持集样本的标签进行预测。计算支持集的预测与对应标签的损失,并计算E_f
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 微调 原型 网络 小样 敏感 信息 识别 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。