分销赏收藏举报申诉 / 9

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于微调原型网络的小样本敏感信息识别方法.pdf

基于微调原型网络的小样本敏感信息识别方法.pdf

上传人：自信****多点

文档编号：2447196

上传时间：2024-05-30

格式：PDF

页数：9

大小：4.65MB

《基于微调原型网络的小样本敏感信息识别方法.pdf》由会员分享，可在线阅读，更多相关《基于微调原型网络的小样本敏感信息识别方法.pdf（9页珍藏版）》请在咨信网上搜索。

1、第3 8卷第1期2 0 2 4年1月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.1J a n.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 1-0 1 1 5-0 9基于微调原型网络的小样本敏感信息识别方法余正涛1,2,关昕1,2,黄于欣1,2,张思琦1,2,赵庆珏1,2(1.昆明理工大学信息工程与自动化学院,云南昆明6 5 0 5 0 0;2.昆明理工大学云南省人工智能重点实验室,云南昆明6 5 0 5 0 0)摘要:敏感信息识别主

2、要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方法,在小样本学习框架下,利用快速适应的微调原型网络来缓解元训练阶段通用新闻领域和元测试阶段敏感信息数据差异大的问题。首先,在元训练阶段,基于通用新闻领域的分类数据训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数,然后在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上。实验结果证明,相

3、比当前最优的小样本分类模型,该文提出的快速适应微调策略的原型网络显著提升了敏感信息识别效果。关键词:敏感信息识别;小样本学习;微调策略;原型网络中图分类号:T P 3 9 1 文献标识码:AF e w-s h o t S e n s i t i v e I n f o r m a t i o nR e c o g n i t i o nB a s e do nP r o t o t y p eN e t w o r kF i n e-t u n i n gYUZ h e n g t a o1,2,GUANX i n1,2,HUAN GY u x i n1,2,Z HAN GS i q i1,2

4、,Z HAOQ i n g j u e1,2(1.F a c u l t yo f I n f o r m a t i o nE n g i n e e r i n ga n dA u t o m a t i o n,K u n m i n gU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,K u n m i n g,Y u n n a n6 5 0 5 0 0,C h i n a;2.Y u n n a nK e yL a b o r a t o r yo fA r t i f i c i a l I n t e l l

5、 i g e n c e,K u n m i n gU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,K u n m i n g,Y u n n a n6 5 0 5 0 0,C h i n a)A b s t r a c t:S e n s i t i v e i n f o r m a t i o nr e c o g n i t i o nr e f e r s t ot h e i d e n t i f i c a t i o no f s e n s i t i v em a s s a g e s r e l

6、a t e dt op o r n o g r a p h y,d r u g s,c u l t,v i o l e n c ea n do t h e r t y p e so f s e n s i t i v e i n f o r m a t i o no nt h e I n t e r n e t.Af e w-s h o t s e n s i t i v e i n f o r m a t i o nr e c-o g n i t i o nb a s e do np r o t o t y p en e t w o r kf i n e-t u n i n gi sp r

7、o p o s e di nt h i sp a p e r.T h ep r o p o s e dm e t h o de m p l o y st h ef a s ta d a p t a t i o nf u n c t i o nu n d e r t h e f r a m e w o r ko f f e w-s h o t l e a r n i n gt ob r i d g e t h ed o m a i ng a pb e t w e e nt h ed a t a s e t i nm e t a-t r a i n i n gs t a g ea n d t h

8、a t o fm e t a-t e s t s t a g e.S p e c i f i c a l l y,t h ep r o p o s e dm o d e l i s t r a i n e do ng e n e r a l n e w sd o m a i n i nm e-t a-t r a i n i n gs t a g ew i t ha t w o-s t a g eg r a d i e n t u p d a t em e c h a n i s mt oo b t a i nag r o u po f i n i t i a l p a r a m e t e

9、 r s.I nm e t a-t e s t i n gs t a g e,m o d e l f r e e z e s ap a r t o f p a r a m e t e r s t ob e f a s t f i n e t u n e d f o r t h e s e n s i t i v e t e x t d a t a s e t.T h e e x p e r i m e n t a l r e s u l t ss h o wt h a t t h ep e r f o r m a n c eo f t h ep r o p o s e dm o d e l i

10、 ns e n s i t i v e i n f o r m a t i o nr e c o g n i t i o nt a s k i ss i g n i f i c a n t l y i m p r o v e dc o m p a r e dt oas t r o n gb a s e l i n e f e w-s h o tm o d e l.K e y w o r d s:s e n s i t i v e i n f o r m a t i o nr e c o g n i t i o n;f e w-s h o t l e a r n i n g;f i n e-t

11、u n i n gs t r a t e g y;p r o t o t y p en e t w o r k收稿日期:2 0 2 2-0 7-0 6 定稿日期:2 0 2 2-0 9-0 6基金项目:国家自然科学基金(U 2 1 B 2 0 2 7,6 1 9 7 2 1 8 6 8,6 1 7 3 2 0 0 5);云南省重大科技专项计划项目(2 0 2 2 0 2 A D 0 8 0 0 0 3,2 0 2 0 0 2 A D 0 8 0 0 0 1);云南省高新技术产业专项(2 0 1 6 0 6);云南省基础研究专项面上项目(2 0 2 0 0 1 A T 0 7 0 0 4 6)中

12、文信息学报2 0 2 4年0 引言随着互联网的发展,网络治理的问题也逐渐突出,对色情、毒品、邪教、暴力类型的敏感文本进行识别成为一项重要任务。可以将敏感文本识别看作一种特定领域的分类任务,针对该任务,目前国内外主要的研究方法有两类:基于敏感词典和基于深度学习的研究方法。基于敏感词典的方法通过制定规则与匹配算法利用敏感词表中关键词对文本进行过滤。但是敏感词表需要人工维护,由于网络新词、术语、敏感词变形体更新迭代速度快,构建维护敏感词表不仅易错漏,而且耗费较大。近年来,基于深度学习模型自动提取语义特征的文本分类方法取得了很好的效果。但是深度学习方法依赖于大量数据和计算能力,对于敏感信息识

13、别任务来讲,目前没有公开的数据集,人工构建的敏感文本数据集规模较小,不足以支持深度学习大规模参数的训练。针对标注数据稀缺的问题,目前有效的方法是利用小样本学习的思路,通过在元训练阶段使用的通用数据集上的大量学习任务对模型进行训练,使得元测试阶段新的小样本分类任务出现时,模型能够利用学到的元知识调整模型参数,通过较少的样本支撑获得好的分类效果,能够很好地应用于敏感信息识别任务中数据规模不足的场景。然而现有的小样本学习方法通常建立在元训练和元测试阶段的数据集具有相同分布的假设上,针对敏感信息识别任务,元训练和元测试阶段的数据差异较大。在元训练阶段通常选择使用通用的新闻领域数据集获取元知识,在元测试

14、阶段应用构建的包含色情、毒品、暴恐、邪教等敏感分类的敏感文本数据集进行识别,如图1所示,小样本学习方法会因领域特征分布的巨大差异而在没见过的敏感领域类中失去泛化性。图1 小样本学习中的领域分布差异针对以上问题,解决元训练和元测试阶段的数据领域差异问题可以有效提升小样本方法在测试阶段的泛化性能,提升在敏感识别新任务上的分类效果,因此考虑在元测试阶段进行微调。元测试阶段进行微调时,既要使新的敏感识别任务少量样本能够产生良好的泛化性能,又需要考虑对整个模型的大量参数进行调整时避免模型底层学习到的元知识产生灾难性的遗忘。因此,本文构建了基于微调原型网络的敏感信息识别模型,在采用了小样本学习方法应对敏

15、感信息类别样本数量不足的问题的基础上,在元训练阶段中运用了快速适应思想1,使模型学习到一组易于微调的初始模型参数,使模型在元测试阶段能够通过少量敏感样本的微调策略取得良好泛化性能。在微调过程中,模型通过冻结部分底层参数来避免可能造成的过拟合现象。1 相关工作早期的敏感信息识别方法是通过敏感词典对互联网上文本进行词匹配,包括基于BM(B o y e r-M o o r e)算法2、WM(Wu-M a n b e r)算法3、决策树算法4等方法。基于敏感词典的方法是最基础的方法,但是网络上敏感词层出不穷,人工维护词表难以及时更新。近几年,随着深度学习框架的流行与发展,基于深度

16、学习模型的敏感信息识别方法取得了很好的效果。X u等人5使用T e x t-C NN6获取文本表示,构建文本敏感内容检测模型,提高了检测效率。X u等人7通过W o r d 2 V e c模型8获得敏感词嵌入,通过余弦距离计算相似度实现敏感词拓展,并将拓展敏感词汇嵌入到潜在狄利克雷分配(L a t e n tD i r i c h l e t6111期余正涛等:基于微调原型网络的小样本敏感信息识别方法A l l o c a t i o n,L D A)模型9进行加权进行敏感主题识别。近年来,以T r a n s f o r m e r1 0编码器为基础的B e r t(B i d

17、 i r e c t i o n a l E n c o d e r R e p r e s e n t a t i o nf r o mT r a n s f o r m e r s)1 1、R o B E R T a1 2模型等预训练语言模型,通过大规模无标注语料库进行自监督训练来获得先验知识和文本表征,使得模型在下游任务上能够通过微调取得很好的表现。李等人1 3使用预训练B e r t模型针对新闻文本分段提取语义特征,结合抽取的敏感关键词对每段语义向量加权求和,获得新闻文本的语义编码,用于敏感信息多分类。深度学习方法能够自动提取文本语义特征,但需要大规模数据对深度学习模型进行训练。在小样

18、本学习方面,小样本学习方法最早提出于图像领域,近年来在基于小样本的文本分类方面也有相关研究。D o p i e r r e等人1 4尝试将基于T r a n s f o r m e r的文本编码器结合入多个小样本学习方法中,通过实验证明了其应用于自然语言处理领域的有效性。W e i等人1 5结合了课程学习、数据增强和三重损失方法,通过课程指导的噪声水平渐进的数据增强方法对小样本模型进行训练,解决了相对于图像而言文本数据增强方法使增强数据与原始数据差异性更大、噪声数据难以学习的问题。在解决小样本学习领域差异大的方面,针对图像分类任务,C h e n等人1 6设置了领域迁移场景

19、下的小样本实验,证明元训练阶段和元测试阶段领域差异过大时对新类领域适应步骤的重要性。之后,T s e n g等人1 7通过在特征提取器加入仿射变换层模拟不同域中的特征分布、L i等人1 8通过辅助网络学习从特定任务支持集中学习特征权重,对跨域小样本学习任务进行了探索。在文本分类任务上也有相关的研究,L i等人1 9结合了S MLMT方法2 0和大型预训练语言模型,通过半监督的训练方法使元学习器掌握泛化到模型没见过领域的能力。O l a h等人2 1提出融入外部知识的方法进行情感分类,通过实验证明了在两种不同标签分类的情感数据集中跨域知识迁移的实现。2 基于微调原型网络的敏感信息识别模型为了识别

20、小样本敏感信息并解决领域差异问题,本文建立了基于微调原型网络的敏感信息识别模型,即在原型网络的基础上,运用了微调方法和快速适应思想。在下文对模型的描述中,把原型网络元训练过程的每次迭代表示为一个e p i s o d e,可以将其看作一个单独的学习任务。为保留元训练集和测试集共同的部分,微调差异的部分,在小样本学习每个e p i s o d e的微调模块中冻结文本特征提取器的一部分参数,使用支持集样本对未冻结的部分参数进行微调,避免灾难性的遗忘问题。在元训练阶段,微调部分结束后,使用查询集计算更新后的特征提取器损失所产生的梯度,使用该梯度对初始参数进行优化,使模型向易于快速适应新任务的方向调整

21、。每个e p i s o d e训练过程如图2所示。图2 基于微调原型网络的敏感信息识别模型711中文信息学报2 0 2 4年每个e p i s o d e的数据由支持集和查询集构成,从训练集包含的类别中随机选取N个类,每个类选取K个标记样本作为此次迭代的支持集,记作一个N-w a yK-s h o t学习任务,记输入样本的集合表示为X=x1,x2,xn,其对应的标签集合表示为Y=y1,y2,yn。使用S=Xs,YsN*Ks=1作为支持集的表示;从与支持集相同的类中选取样本作为查询集,使用Q=Xq,Yq 作为查询集的表示。2.1 原型网络本文采用的原型网络由文本编码器和度量模块构成

22、,文本编码器E n c o d e r表示为E,从数据集中抽取N个类别构建支持集S与查询集Q,从支持集和查询集的输入文本中提取特征,得到文本特征向量矩阵VS、VQ如式(1)所示。VS=E(Xs),VQ=E(Xq)(1)度量模块M e t r i cm o d u l e表示为M,通过支持集样本的编码VS及其对应标签YS、查询集样本的编码VQ来预测查询集的样本标签YQ。这个过程可以表示为如式(2)所示。Yq=M(VS,VQ,YS)(2)具体来说,将支持集样本Xs特征表示Vs中,对每个相同类中样本的特征向量 vn,1,vn,2,vn,k 做平均作为该类的原型,计算如式(3)所示。Pn=1KKk=1

23、vn,k,nYS(3)其中,n表示支持集中的第n个类,K表示支持集中每个类中包含K个样本。得到支持集中各类原型向量PN=pnNn=1后,计算查询集中样本Xq的特征向量Vq与PN的欧式距离,并作为预测评分,样本特征与各原型间的欧式距离和评分应成负相关,计算如式(4)所示。s c o r ei,n=e s p(-vi-pn22)Nn=1e s p(-vi-pn22)(4)其中s c o r ei,n表示查询集中第i个样本与第n个类原型之间的评分。通过s c o r ei,n得到查询集样本Xq中每个样本归属于n类原型上分布的一组预测值Yq,采用交叉熵损失衡量预测值Yq与对应真实标签Yq之间的损失,并

24、通过反向传播更新模型参数如式(5)所示。L o s s=L(Yq,Yq)=yqiYq,yqiYqyqil o gyqi+(1-yqi)l o g(1-yqi)(5)其中,L表示定义的交叉熵损失函数,i表示查询集的第i个样本,yqi、yqi分别表示i对应的预测值与真实值。2.2 基于快速适应思想的微调模块在原型网络的基础上,在e p i s o d e中加入对模型进行微调的步骤,并基于快速适应思想在元训练阶段通过大量学习任务对模型进行训练,获得一组好的初始学习参数,可以在元测试阶段的学习任务上迅速调整适应。在训练阶段,每个e p i s o d e中通过中文新闻标题数据集构建支持集S与查询集Q,

25、使用支持集S对编码器E进行进一步调整,如算法1所示。在下文描述中,使用E作为文本特征提取器的参数表示。在e p i s o d e开始的微调过程中,将E的前L层参数E(L)冻结,防止使用少量样本对所有参数进行更新而产生灾难性遗忘,使用支持集S分批次对后l层参数E(l)进行更新,使用E(l)表示得到更新后的后l层参数。微调过程结束后,将特征提取器冻结的前L层参数E(L)与微调更新的后l层参数E(l)结合得到新的文本编码器E_f t。使用E_f t对e p i s o d e的支持集S和查询集Q进行特征提取,并通过度量方法M对支持集样本的标签进行预测。计算支持集的预测与对应标签的损失,并计算E_f

26、 t参数的梯度gE(L)、gE(l)。在e p i s o d e的最后,使用gE(L)、gE(l)对e p i s o d e初始的特征提取器E进行更新。算法1.基于快速适应思想的微调算法对文本特征提取器E进行参数初始化得到E数据集生成N-w a yK-s h o t学习任务T1.Wh i l eTd o:2.冻结前L层参数E(L)3.对支持集S划分m i n i_b a t c h4.W h i l em i n i_b a t c hd o:5.使用线性分类器计算损失L o s s_si6.使用L o s s_si更新后l层参数E(l),得到E(l)7.E n dw h i l e8.使

27、用结合E(L)与E(l)得到的E_f t计算查询集Q上的损失L o s s_f t9.使用L o s s_f t计算参数梯度gE_f t(L)、gE_f t(l)1 0.更新初始参数E:E(L)=E(L)-l rgE_f t(L)E(l)=E(l)-l r gE_f t(l)1 1.E n dw h i l e8111期余正涛等:基于微调原型网络的小样本敏感信息识别方法具体过程如下:在一个e p i s o d e中,首先将特征提取器E参数划分为前L层参数E(L)与后l层参数E(l),对E(L)进行冻结。微调过程中,使用支持集S=Xs,YsN*Ks=1对E(l)进行多次

28、迭代,每次迭代将Xs打乱并划分多个小批次s1,s2,sb,其中,si=Xs i,Ys ins i=1。在每个小批次中,将si输入E进行特征提取得到文本特征向量Vs i。使用一个线性分类器C对Vs i进行预测并计算这一批次的损失L o s s_si,如式(6)、式(7)所示。L o s s_si=L(Ys i,C(Vs i)(6)Vs i=E(L+l)(Xs i)(7)使用L o s s_si通过反向传播算法对后l层参数E(l)进行更新,用E(l)表示更新后得到的参数,并结合E(L)与E(l)参与下一个小批次的微调过程。微调过程结束后,将微调过程中冻结的编码器前L层参数E(L)与经过多次迭代

29、的后l层参数E(l)结合得到新的特征提取器E_f t。使用E_f t获得支持集S中样本Xs和查询集Q中样本Xq的特征表示,通过前文中详述的度量学习方法M获得查询集中样本的预测值Yq,并采用交叉熵损失函数L衡量微调后预测值Yq与对应真实标签Yq之间的差距,如式(8)、式(9)所示。Yq=M(Ef t(Xq),Ef t(Xs),Ys)(8)L o s s_f t=L(Yq,Yq)(9)通过L o s s_f t计算特征提取器所有层参数梯度gE_f t(L)、gE_f t(l),并根据快速适应思想,使用gE_f t(L)、gE_f t(l)更新e p i s o d e初始时的文本

30、编码器E,如式(1 0)、式(1 1)所示。E(L)=E(L)-l rgEf t(L)(1 0)E(l)=E(l)-l rgEf t(l)(1 1)结合E(L)与E(l)得到E作为下一个e p i s o d e的初始特征提取器,其中l r为学习率。在元测试阶段,同样从敏感文本数据集中构建支持集和查询集,通过支持集对文本编码器E进行微调,并使用微调后的文本编码器E_f t对查询集进行特征提取,将特征向量经过度量模块获得预测值Yq。在元测试阶段,不再使用L o s s_f t对E进行更新。3 实验结果与分析3.1 数据集选取与构建元训练阶段使用的数据集有两类,第一类是来自Z h o u等人的中

31、文新闻标题数据2 2,包含3 2个类别,共6 38 0 0个样本,平均样本长度为1 8。第二类是复旦大学计算机信息与技术系国际数据库中心自然语言处理小组提供的复旦大学中文文本分类语料库,包含2 0个类别,共1 96 3 7个样本,平均样本长度为2 5 9。元测试阶段由于没有公开的敏感文本数据集,从新浪微博上爬取文本并进行标注,构建敏感文本数据集,包含色情、毒品、邪教、暴力和正常五种类型。文本中包含链接、特殊符号等多种干扰,因此采用预处理方式对爬取到的文本进行清洗。敏感文本数据集具体类别对应数据量如表1所示。表1 敏感文本数据集分布类别数据分布所占比重/%色情1 2 21.2 3毒品3 5 03

32、.5 4邪教3 3 13.3 4暴力5 0 45.1 0正常85 9 28 6.7 93.2 实验设置3.2.1 参数设置对所有小样本模型,使用H u g g i n gF a c e提供的两类中文B E R T、R o B E R T a2 3-2 4预训练模型作为文本编码器进行实验。预训练模型在大规模语料库上进行无监督训练来获取先验知识,其中,R o B E R T a预训练模型相比起B E R T,在数据量、训练步、批数量、优化器和训练任务上都有了改进,在自然语言处理多种任务上都取得了更好的效果。在以下实验训练过程中,文本截取最大长度为6 4,优化算法为A d a m2 5,对元训练阶

33、段小样本模型训练1 00 0 0个E p i s o d e,每个E p i s o d e的支持集中选取每类5、1 0、2 0个样本作为支持集,每类1 0个样本作为查询集。3.2.2 评价指标本文通过计算宏平均(M a c r oA v e r a g e)下的精确率(P r e)、召回率(R e)、F1值作为评价指标,计算911中文信息学报2 0 2 4年过程如式(1 2)式(1 4)所示。P r e=1nn1T PT P+F P(1 2)R e=1nn1T PT P+F N(1 3)F1=2P r eR eP r e+R e(1 4)式中涉及基于混淆矩阵的判误指标,对某一类n而

34、言,以“真、假”表示真实值是否属于该类,以“正、负”表示预测值是否属于该类,则其中T P表示真正例,F P表示假正例,T N表示真负例,F N表示假负例。3.2.3 基线模型选取了当前最优的小样本学习网络作为基线模型进行对比实验,基线模型的选取如下所示:V i n y a l s等人提出的匹配网络2 6(M a t c h i n gn e t w o r k):计算查询集样本与支持集样本间的相似度,通过注意力核函数计算查询集与支持集特征向量间的距离并归一化,得到预测值。G e n g等人提出的归纳网络2 7(I n d u c t i o nn e t w o r k):将支

35、持集各类样本特征向量送入归纳模块,通过动态路由算法得到各类别特征映射,通过关系模块得到查询集与各类别向量的相似度评分,获得预测值。S n e l l等人提出的原型网络2 8(P r o t o t y p en e t w o r k):是本文的基础模型,计算支持集中各类样本特征向量的平均值得到各个类原型,计算查询集特征向量与各类原型间的距离,得到预测值。S u n g等人提出的关系网络2 9(R e l a t i o nn e t w o r k):将支持集各类特征向量相加作为类的特征映射,将支持集中样本与类映射连接进入关系模块进行相似度比较,得到相似度评分,获得预测值。3.3 实验结果3

36、.3.1 基线模型对比实验当使用中文新闻标题数据集2 0个类别作为训练集,选择微调层数为B E R T模型中顶层起1层线性层与2层T r a n s f o r m e rE n c o d e r层包含的层数,使用N-w a yK-s h o t分别表示每个E p i s o d e中支持集的类别数与每个类别选取的样本数,支持集设置为5-w a yk-s h o t(k=5,1 0,2 0)。为了更充分地验证模型性能,使用B E R T、R o B E R T a两类预训练模型作为特征提取器进行实验,与其他基线小样本模型在不同支持集规模下进行对比实验,实验结果如表2所示,其中“微调原型网络

37、”表示本文提出的模型,“+B E R T”“+R o B E R T a”分别表示采用不同的文本特征提取器。表2 基线模型对比实验(单位:%)5-s h o t1 0-s h o t2 0-s h o tP r eR eF1P r eR eF1P r eR eF1匹配网络+B E R T5 7.6 55 3.3 65 0.6 76 1.9 55 6.5 65 5.1 36 6.6 16 2.3 46 0.7 4关系网络+B E R T5 8.4 75 4.2 05 2.1 35 5.1 95 2.3 64 9.7 16 1.1 55 9.4 45 6.9 2归纳网络+B E R T4 4.6

38、64 6.6 84 3.7 34 5.2 74 6.7 44 3.2 95 1.0 04 7.2 84 4.6 7原型网络+B E R T6 5.7 76 3.8 06 2.8 47 5.9 47 3.6 07 3.3 77 8.5 17 6.9 07 6.6 4微调原型网络+B E R T7 1.9 96 5.3 86 4.7 28 3.0 97 9.8 47 9.6 39 2.0 59 1.0 09 0.9 8匹配网络+R o B E R T a6 5.6 16 3.1 46 1.7 26 8.9 56 5.9 66 4.6 27 0.8 06 6.4 86 5.2 8关系网络+R o B

39、 E R T a5 5.7 95 1.0 84 8.9 55 8.0 35 5.2 05 2.1 76 0.5 85 7.8 85 5.9 7归纳网络+R o B E R T a4 9.3 25 0.5 64 6.6 94 9.6 95 1.4 04 7.9 85 1.3 15 2.1 74 8.6 8原型网络+R o B E R T a7 5.2 57 2.5 07 2.1 48 0.3 47 8.2 07 7.9 18 5.1 18 3.4 48 3.3 6微调原型网络+R o B E R T a7 6.2 57 3.6 07 3.0 48 3.3 88 0.3 28 0.2 49 1.5

40、 48 9.4 59 0.2 5 从表2两组实验中可以看出,基线模型中原型网络取得了最好的效果,同时,微调原型网络相比所有基线模型都有了很大的提升,实验证明了本文提出的快速适应的微调原型网络在敏感信息识别任务的有效性。首先,由于实验中在元训练阶段使用通用的新闻标题数据集,元测试阶段使用敏感文本数据集,在面临巨大领域差异的情况下,只包含了文本编码器与计算查询集样本与支持集原型间欧氏距离的度量模块两部分的简单原型网络,即本文的基础模型,相比较于其他基线模型取得了较好的效果,由0211期余正涛等:基于微调原型网络的小样本敏感信息识别方法于原型网络仅通过文本编码器完成了上游通用知识的学习而不需要依赖额

41、外的权重参数,使得预训练模型发挥了巨大的作用,通过上下两组B E R T与R o B E R T a实验可以看出,与其他基线模型对比,R o B E R T a预训练模型在简单原型网络上性能提升最为明显。而本文提出的快速适应微调策略的原型网络在简单原型网络的基础上,在训练阶段获得易于快速适应的初始参数,并使用测试阶段敏感任务支持集中的样本对模型进行小批次的微调实现对敏感领域的泛化性,相较于原型网络,在两组不同预训练模型的对比实验中都实现了更进一步的性能提升。相比之下,较为先进的归纳网络在得到支持集样本的表示后,使用动态路由算法归纳类别特征来获取类的表示,但在面对巨大领域差异的敏感信息分类任务时

42、没有取得预期的效果。使用B E R T与R o B E R T a预训练模型作为文本特征提取器的两组实验间进行对比可以看出,总体来说R o B E R T a组的性能相比B E R T组有所提升,同时两组实验中采用不同预训练模型后产生的性能趋势基本相同。首先,在基线模型中,使用R o B E R-T a预训练模型组相比B E R T组在模型性能上有一定提升,尤其匹配网络与原型网络中相比B E R T组性能有了很大提升,在支持集规模较小时性能提升更为明显,k=5时模型性能提升约1 0%;而在微调原型网络即本文模型中,随着支持集的规模扩大,R o B E R T a预训练模型的优势逐渐被弥补。同时

43、,在两组实验中均可看出,随着支持集规模扩大,小样本模型的效果基本都有所提升,整体性能趋势相同,而相比之下微调原型网络效果的提升最为明显,证明了快速适应微调策略的有效性。由于两种预训练模型对本文提出的快速适应微调原型网络的性能影响趋势总体相同,以下均采用B E R T预训练模型作为文本特征提取器进行试验。3.3.2 消融实验为证明快速适应微调原型网络的有效性,设计了消融实验。使用中文新闻标题数据集2 0个类别作为训练集,支持集大小为2 0-s h o t,(-)快速适应微调策略指不进行微调,仅使用单纯的原型网络;(-)冻结参数指微调原型网络在微调过程中对所有参数进行更新,不冻结底层参数;(-)快

44、速适应方法指当微调原型网络设置参数微调层数为顶层起1层线性层与2层T r a n s f o r m e rE n c o d e r层所包含的参数,在元训练过程每个e p i s o d e中使用微调后的文本特征提取器直接计算损失,不使用快速适应方法寻找对少数样本敏感的初始参数。实验结果如表3所示。表3 消融实验(单位:%)M o d e lP r eR eF 1(-)快速适应微调策略7 8.5 17 6.9 07 6.6 4(-)冻结参数7 2.9 86 9.3 26 8.5 1(-)快速适应方法9 0.9 88 9.5 28 9.4 0微调原型网络9 2.0 59 1.0 09 0.9

45、8 从表3可以看出,模型每个模块都产生一定的效果,其中冻结参数的操作起到了关键的效用。当不进行冻结底层参数操作,仅使用支持集少量样本对所有参数进行微调时,模型的效果甚至比简单的原型网络降低约6%,少量数据对底层参数的调整使模型产生了灾难性的遗忘;当微调原型网络使用快速适应方法时,整体效果相比(-)快速适应方法提升了1%左右,说明一组好的初始参数能够使模型在使用少量样本进行简单微调后取得更好的效果。3.3.3 不同微调层数实验当中文新闻标题数据集2 0个类别作为训练集,支持集大小选择为2 0-s h o t,对微调模块选择不同层数的参数进行实验,实验设置选取特征提取器顶层1层线性层分别加1、2、

46、3、4层T r a n s f o r m e rE n c o d e r层所包含的参数进行微调,观察不同微调层数对快速适应微调策略性能的影响。实验结果如图3所示。图3 不同微调层数对实验结果的影响通过图3可以看出,当微调参数为两个T r a n s-f o r m e rE n c o d e r层时,模型取得了最好的效果,但当微调参数继续增加至3层、4层T r a n s f o r m e rE n c o d e r层时,性能反而呈现下降趋势。分析表中结果,推测当微调层数过大时,模型通过元学习阶段获得的底层通用知识也被一并调整,而仅使用支持集的少量

47、样本对参数进行微调使模型产生了过拟合121中文信息学报2 0 2 4年现象。3.3.4 不同数据集规模实验当支持集大小选择为2 0-s h o t,微调层数选择顶层起1层线性层与1层T r a n s f o r m e rE n c o d e r层所包含的参数,对元学习阶段使用不同数据集进行实验。分别使用从新闻标题数据集中选取2 0个类别、使用新闻标题数据集全部3 2个类别、使用复旦大学中文文本分类语料库2 0个类别作为元训练阶段数据集,使用敏感文本数据集作为元测试阶段数据集。实验结果如表4所示。表4 不同数据集规模对实验结果的影响(单位:%)原型网络微调原型网络P r eR e

48、F1P r eR eF1新闻标题数据集(2 0类)7 8.5 17 6.9 07 6.6 49 0.9 28 9.5 68 9.2 7新闻标题数据集(3 2类)7 9.4 27 6.5 07 6.1 69 1.3 08 9.9 08 9.8 8复旦大学中文文本分类语料库(2 0类)8 3.8 78 1.9 28 1.8 69 1.6 19 0.2 29 0.1 9 分析表中的结果可以看出,当元训练阶段数据规模扩大时,模型性能有了一定的提升,而相对于原型网络,微调策略缩小了数据规模差异带来的性能差距。在选择元训练阶段数据集时,使用样本平均长度较小的新闻标题数据集的不同类别数量作为对比,当元训练阶

49、段训练的类别增加时,原型网络与微调原型网络的性能均增加了不到1%,模型的性能提升较为有限。当选取使用等同类别数量(2 0类)的不同数据集做对比时,样本平均长度更长的复旦大学中文文本语料库在原型网络中提升了5%,而在微调原型网络中提升了1%,可以看出,元训练阶段随着数据规模的扩大,模型在元训练阶段获得的元知识增加,模型的性能会相应上升,而微调原型网络减小了对元训练阶段数据规模的需求,使得较小的元训练数据集也能起到很好的效果。4 结论本文提出了基于微调原型网络的小样本敏感信息识别方法,通过小样本学习框架解决敏感文本数据类别样本不足的问题,并提出了快速适应的微调方法,在元训练阶段获得易于调整的初始参

50、数,在元测试阶段对特征提取器冻结一部分参数并进行微调,来解决元训练阶段通用领域数据集和元测试阶段敏感文本数据集领域分布差异大、跨域不适应的问题。通过实验,证明了模型在解决敏感信息识别任务的有效性。参考文献1 F I NNC,A B B E E LP,L E V I N ES.M o d e l-a g n o s t i cm e-t a-l e a r n i n gf o rf a s ta d a p t a t i o no fd e e pn e t w o r k sC/P r o c e e d i n g so ft h e3 4 t hI n t e r n a t i o

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于微调原型网络小样敏感信息识别方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。