融入结构先验知识的隐私信息抽取算法.pdf
《融入结构先验知识的隐私信息抽取算法.pdf》由会员分享,可在线阅读,更多相关《融入结构先验知识的隐私信息抽取算法.pdf(9页珍藏版)》请在咨信网上搜索。
1、人工智能安全专题DOl:10.12379/j.issn.2096-1057.2024.02.07IssueonArtificial Intelligence Security融入结构先验知识的隐私信息抽取算法赵玉媛王斌”张泽丹”李青山”胡建斌“1(北京大学软件与微电子学院北京10 2 6 2 7)2(中国中医科学院中医药数据中心北京10 0 7 0 0)3(博雅正链(北京)科技有限公司北京4(北京大学计算机学院北京10 0 8 7 1)()Private Information Extraction Algorithm Incorporating PriorStructural Knowled
2、geZhao Yuyuan,Wang Bin?,Zhang Zedan,Li Qingshan,and Hu Jianbin41(School of Software and Microelectronics,Peking University,Beijing 102627)2(Chinese Medicine Data Center,China Academy of Chinese Medical Sciences,Beijing 100700)3(Boya RegChain Beijing Inc.,Beijing 100037)4(School of Com puter Science,
3、Peking University,Beijing 100871)AbstractWith the continuous advancement of data anonymization technology,accuratelyidentifying private data has become a key challenge.Currently,privacy information extractionalgorithms are primarily based on traditional natural language processing techniques,such as
4、bidirectional recurrent neural networks and attention mechanism-based pretrained language models(like BERT and its variants).These models leverage their powerful ability to represent contextualfeatures,overcoming the limitations of traditional methods in representing polysemous words.However,there i
5、s still room for improvement in their ability to accurately determine entityboundaries.This study proposes a novel privacy information extraction algorithm that integratesstructural prior knowledge and a unique privacy data structural knowledge enhancement mechanism,enhancing the models understandin
6、g of sentence semantic structures,thereby improving theaccuracy of privacy information boundary determination.Moreover,we have evaluated the modelon multiple public datasets and provided a detailed analysis of the experimental results,demonstrating its effectiveness.Key words structural prior knowle
7、dge;structural enhancement mechanism;privacy informationextraction algorithm;entity boundary determination;data desensitization;natural languageprocessing摘要随着数据脱敏技术的持续进步,精确识别隐私数据已成为关键挑战.目前,隐私信息抽取算法主要基于传统自然语言处理技术,如双向循环神经网络和基于注意力机制的预训练语言模型(如收稿日期:2 0 2 3-10-13基金项目:国家自然科学基金面上项目(8 2 2 7 46 8 5)引用格式:赵玉媛,王
8、斌,张泽丹,等.融入结构先验知识的隐私信息抽取算法 J.信息安全研究,2 0 2 4,10(2):139-147100037)网址http:/ 1139信息安全研究第10 卷第2 期2 0 2 4年2 月lournalot lnformation Security ResearchVol.10No.2Feb.2024BERT).这些模型利用其强大的上下文特征表示能力,克服了传统方法在多义词表示方面的限制.然而,它们在精确判断实体边界方面仍有改进空间.提出了一种新颖的隐私信息抽取算法,该算法融合结构先验知识,通过一种隐私数据结构知识增强机制,提高模型对句子语义结构的理解,从而提高了隐私信息边界判
9、断的准确性.此外,还在多个公开数据集上对模型进行评估,详细的实验结果展示了其有效性,关键词结构先验知识;结构增强机制;隐私信息抽取算法;实体边界判断;数据脱敏;自然语言处理中图法分类号TP309.2数据脱敏(data masking 或 data desensiti-zation),指通过预设规范或变换算法对隐私或个人信息进行处理,使得数据中个人身份不可识别 2 1.通常分为4个步骤:定义隐私信息、抽取隐私信息、选择隐私保护算法、完成数据脱敏.随着数据脱敏技术的快速发展,隐私保护算法逐渐成熟,隐私信息定义通常依据相关规范,数据脱敏的准确率主要依赖于隐私信息抽取算法的效果.近年来,隐私信息抽取算
10、法从规则化阶段过渡到模型自动抽取阶段,主要采用自然语言处理技术中的命名实体识别算法,自动标记文本中的隐私信息。基于深度学习的隐私信息抽取算法分为2 个阶段:第1阶段以循环神经网络(recurrentneuralnetworks,R N N)3 为主,例如 Dernoncourt 等人 4建立的长短期记忆(long short-term memory,LSTM)51网络模型,结合条件随机场(conditionalrandomfield,CR F)6 1进行优化.之后,如Liu等人 7 提出的 CharCNN-BiLSTM-CRF 模型,将BiLSTM-CRFL8I模型与CNN模型结合,提取字符级
11、特征.第2 阶段,以Transformers9,BERT101等模型为代表,例如Khin等人 提出的ELMo-BiLSTM-CRF模型,增加了ELMo动态表征和CNN提取的字符特性,显著提升了隐私信息识别效果。尽管基于深度学习的算法在上下文表征能力方面取得突破,特别是Transformer类预训练模型利用多头注意力机制充分考虑全局上下文信息,但在实体结构感知方面存在不足,影响了隐私信息实体边界的准确判断.为了引入结构感知信息,Strubell 等人 12 、Zhang 等人 13、Bugliarello 等人 14尝试利用结构信息优化注意力机制,但这些尝试仅限于特定任务,未应用于隐私信息抽取任
12、务.因此,本文提出一种融人结构先验知识的隐私信息抽取算法,以提升隐私实体边界判断的准确1401性和抽取效率。本文算法利用结构先验知识增强机制,将结构感知信息融入预训练模型(PLM)的输人和注意力机制中,提升对句子整体结构和实体边界的感知能力,从而提高隐私信息边界判断的准确率和实体抽取效率.具体而言,本文工作的主要贡献包括:1)提出文本语义编码和文本结构编码2 个概念,区分传统文本嵌人和依赖解析树解析出的结构感知信息;2)在结构先验知识增强机制中,分别提出嵌人层面和注意力层面的特征空间融合机制,充分引人结构感知信息到PLM中;3)结合以上概念和机制,提出融人结构先验知识的隐私信息抽取算法,以解决
13、隐私信息边界判断问题,提升实体抽取准确率。1任务描述融入结构先验知识的隐私信息抽取算法中,“结构先验知识”指的是通过依存句法解析算法获取词语间的依存关系.这种“依存关系”表示了句子在句法层面的搭配结构.该抽取任务的核心在于将“依存结构”这一非欧几里得空间数据特征映射到传统隐私信息抽取的数据特征空间,以此增强模型对句子整体结构的感知能力,并提升对实体边界与类型的感知能力.f(D text,D structure)y,其中Dtext是隐私信息抽取算法中抽取的文本特征,主要由大规模预训练模型处理而来,包含丰富的上下文语义信息.D structure特指通过自然语言处理(natural languag
14、e processing,N L P)技术,从依存解析特征中挖掘并得出的以句子为单位的结构性数据.本文通过设计的算法,将上述2 类特征空间进行对齐与融合,以提高隐私信息抽取的准确率。人工智能安全专题IssueonArtificial intelligenceSecurity特征进行编码.2融入结构先验知识的隐私信息抽取算法模型2.1整体框架为了提高以句子为单位的“结构”信息在隐私信息抽取模型中的融合效果,从而提升抽取准确率,本文基于大规模预训练模型,提出了一种融入结构先验知识的隐私信息抽取算法(integratingstructural knowledge network,I SK N).如图
15、 1 所示,ISKN主要包含3个部分:特征编码器、特征空间融合机制和隐私信息抽取网络.1)特征编码器首先抽取原始数据中的每条文本的“结构”信息,然后将这一结构信息和原文本信息转化为嵌入表示矩阵,通过特征编码器编码对应的结构向量和文本语义向量.本文选用图注意力网络对结构2)特征空间融合机制.为了有效对齐“结构”特征空间和文本特征并进行特征融合,本文提出了2 种特征空间融合机制:一种将图注意力网络编码的“结构”特征视为文本特征的补充,将其特征向量补充输人到BERT模型的文本嵌人部分(下文称为ISKN-EMB);另一种则将图注意力网络所编码的结构特征视为独立的结构语义空间,除了将其特征向量补充到BE
16、RT模型的文本嵌人部分外,还将其注意力矩阵融合到BERT的注意力矩阵中(下文称为ISKN-ATTENTION).3)隐私信息抽取网络.将隐私信息抽取任务视为命名实体识别任务,提前定义隐私信息特征类别,并在训练集上标注相应类别的位置.隐私信息抽取网络负责将获取的特征映射到预测概率最大的类别.0TransformerEncoderQuery-Key ScaledDot-ProductB-PATIENTB-HOSPITALsoftmaxSyntax AttentionI-HOSPITALO隐私信息抽取网络特征空间融合机制value口口GATeolere2ee4es初始化eoeie2e3e4ese6e
17、eege10oeue12依赖解析树Thepatientwasseenandexamineddepdepdepprepnsubjrooteoeieeeeseeeseeoenenz编码CLSThe2.2模型详细说明2.2.1特征编码器特征编码器由文本语义编码和文本结构编码2部分组成.首先,对应给定的文本样例=(eo,e 1,,e,分别进行文本语义编码和文本结构编码:1)文本语义编码.该部分具体使用大规模预e6e7esegeioene12imtheemergencydetpobjprunct解析器patientwas特征编码器Departmentseenand图1融人结构先验知识的隐私信息抽取算法训
18、练模型(例如BERT)进行嵌入编码,最终获得1组向量w=(wo,w1,w,),w,ER,d为文本语义嵌入维度,一般为7 6 8.2)文本结构编码.针对输人文本样例进行结构层面编码,主要处理文本的句法结构,通过以依赖解析树形式进行解析.如图2 所示,依赖解析树网址http:/ 1 141examinedintheemergencyDepartmentSEP信息安全研究第10 卷第2 期2 0 2 4年2 月lournalot lnformation Security ResearchVol.10No.2Feb.2024ansubj-nmod:prephkdet-icaseDTNNThetalen
19、tofsuccess is nothingmorethan可视化展示了句子的句法结构,拼接的边的类型表示为依赖关系类型.这一解析过程对理解文本上下文意义重大,并且,由于它将文本中的实体按常用词典分词,有助于提高隐私信息边界划分的准确度.该部分具体采用图注意力网络(graph attentionnetworks,G A T)15 进行编码获取文本结构特征:graphh=GAT(w,dep,adj),其中w即为文本语义编码所获取的初始化文本语义嵌人向量,dep即为对应的token的依赖关系向量,adj即为对应的token的连接向量,通常设定为存在依赖关系则连接向量值为1,否则值为0.最终获得1组向
20、量graphn=(g r a p h h o g r a p h h,,graphn),其中graphn,ER,d为文本语义嵌人维度,与W,的维度一致2.2.2特征空间融合机制该机制一共分为2 部分:嵌人层面的特征空间融合机制以及注意力层面的特征空间融合机制。1)嵌人层面的特征空间融合机制(ISKN-EMB)嵌入层面的特征空间融合机制,即在模型嵌人表示阶段进行特征融合,考虑到本文所需利用的特征空间包含2 种:文本语义空间和文本结构空间,所以模型所采用的骨干模型为大规模预训练模型的代表(BERT)以及表格模型的代表(TAPAS).模型整体融人思想均为将上文所取得的文本语义编码和文本结构编码并行输
21、人到模型中,从而帮助模型通过不同层面理解所输人的文本.对于以下不同模型而言:BER T:Wfinal,=W,+graphh,h final=BERT(W final,poS fial,Seg final),T A PA S:借鉴TAPAS的附加嵌人(additional embed-dings),这里将上文所获得的结构编码视为 TAPAS模型输入中的Rank ID,即将依赖类型映射到TAPAS模型预设的Rank ID的空间中,进而达到1421punctyAcop-nmod:preprdep-depradvmod-advmoaNNPNnmodtprepradvmod-case-advmodwwn
22、subjADWdoing图2 依赖解析树解析出的依赖关系表示将依赖关系这一特征并行输人到模型中的目的,即hfinal,=w+pos,+seg.+graphh,最后,总结这一嵌人层面的特征空间融合机制为T inal=embedding fusiong(wfinal,pos final,seg final,graph final),即为网络对应的所需要训练的参数.2)注意力层面的特征空间融合机制(ISKN-ATTENTION).为了更有效地融合结构特征,本文不仅在嵌入层面加入了结构特征,还设定了注意力矩阵层面的特征空间融合机制.该机制在注意力矩阵中引人了“结构”概念.如图3所示,在文本结构编码过程
23、中,除了获取上述的结构嵌人编码外,还保留了模型中的注意力矩阵,即attentiongraph=GAT(w,dep,adj),从而获得attention graph,其中attention grath=(attention graph(o.o),.,attention gaph t.).接下来细化到注意力机制:Attention-Graph(Q,K,V)=/QKTsoftmax(+attentiongraph)V,dk其中Q=K=V,均为大规模预训练模型输人的嵌人表示,V=(Vo,Vi,,V,),n 为输人的句子数目,Vo=(0o.0,0o.1,Uo.2,0.t),Uo.ER,t 为每句话的长度
24、,d为输人嵌人维度,通常为7 6 8,注意,本文所采用的骨干attention机制为 self-attention机制,在此基础上,本文通过加和机制将结构空间的注意力矩阵与文本空间的注意力矩阵进行融合,同时作用在融人“结构”嵌入的整体嵌入,得到最终的隐藏层表示.综上,注意力矩阵层面的特征空间融合机制为Y final=Atten tion-Graph(C final,C final,C final).2.2.3隐私信息抽取网络隐私信息抽取网络,即将上文最后一层编码层所获得的隐藏层表示yrinal经过非线性层g。映wdet-ADADwellwhateveryouPNWdo withoutaCDth
25、oughtofNNcaseNNPUtime.人工智能安全专题IssueonArtificial Intelligence SecurityTransformers EncoderAdd&NormFeedForwardNxAdd&NormMulti-HeadAttentionPositionalEmbeddingeoeeeeeseeeeeoen射到标签空间所得到的logits:logits=g(y f i n a l),最后,模型整体的目标函数为1loss=Zy,ln(logits)0其中yt为第t个token的真实标签.3实验本节将阐述融人结构先验知识的隐私信息抽取算法在不同公开数据集上的实验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融入 结构 先验 知识 隐私 信息 抽取 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。