暗网网页用户身份信息聚合方法.pdf
《暗网网页用户身份信息聚合方法.pdf》由会员分享,可在线阅读,更多相关《暗网网页用户身份信息聚合方法.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 11期2023年 11月Computer Engineering 计算机工程暗网网页用户身份信息聚合方法王雨燕1,赵佳鹏1,时金桥1,申立艳1,刘洪梦1,杨燕燕2(1.北京邮电大学 网络空间安全学院,北京 100876;2.中国人民公安大学 信息网络安全学院,北京 100038)摘要:暗网网页中用户身份标识信息的分布呈现出稀疏、不规律的特点,当前主流的信息聚合技术无法直接应用于该场景。提出一种基于共指关系抽取的用户身份信息聚合模型,该模型输入一对用户身份信息及其上下文语境,返回该信息对是否包含共指关系,并且构建相应的用户身份信息数据集用于聚合实验。为进一步提升模型的识别能力,在
2、基线模型的基础上引入实体类别信息,提出实体类别敏感的共指关系抽取模型。针对暗网中通过某些身份类别信息无法获取足够多训练样本的问题,引入少样本学习任务,构建基于多任务的低资源条件下用户身份信息聚合模型。实验结果表明,在低资源条件下,经过优化的聚合模型 F1值达到 87.03%,较基线模型提升 11.98个百分点。关键词:暗网;用户身份信息;信息聚合;关系抽取;少样本学习;多任务学习开放科学(资源服务)标志码(OSID):中文引用格式:王雨燕,赵佳鹏,时金桥,等.暗网网页用户身份信息聚合方法 J.计算机工程,2023,49(11):187-194,210.英文引用格式:WANG Y Y,ZHAO
3、J P,SHI J Q,et al.User identity information aggregation method for darknet Web page J.Computer Engineering,2023,49(11):187-194,210.User Identity Information Aggregation Method for Darknet Web PageWANG Yuyan1,ZHAO Jiapeng1,SHI Jinqiao1,SHEN Liyan1,LIU Hongmeng1,YANG Yanyan2(1.School of Cyberspace Sec
4、urity,Beijing University of Posts and Telecommunications,Beijing 100876,China;2.School of Information Network Security,Peoples Public Security University of China,Beijing 100038,China)【Abstract】The distribution of user identity information dispersed across darknet Web pages exhibits sparse and irreg
5、ular characteristics,and current mainstream information aggregation techniques cannot be directly applied to this context.This study proposes a user identity information aggregation model based on coreference relation extraction.The model inputs a pair of user identity information and its contextual
6、 background,determines whether the information pair contains a coreference relation,and constructs a corresponding user identity information dataset for aggregation experiments.To further enhance the recognition ability of the model,the baseline model is enriched with entity category information,lea
7、ding to the proposal of an entity category-sensitive coreference relation extraction model.To address the inability to obtain sufficient training samples through certain identity category information in darknet,a few-shot learning task is introduced to construct a multitask-based user identity infor
8、mation aggregation model under low-resource conditions.The experimental results show that,under low-resource conditions,the F1 value of the optimized aggregation model reaches 87.03%,which is 11.98 percentage points higher than that of the baseline model.【Key words】darknet;user identity information;
9、information aggregation;relation extraction;few-shot learning;multi-task learningDOI:10.19678/j.issn.1000-3428.00668050概述 当前的网络空间可以根据其网页内容是否能够被常规搜索引擎获取分为明网和暗网 2种类型。其中,暗网是深网的子集,需要借助特殊软件(如 Tor浏览器)才能访问。这种特殊的访问方式为暗网带来了匿名性、不可追溯性等特性。随着互联网的飞速发展,暗网网络犯罪案件数量在全球呈现上升趋势。相较于普通的网络犯罪,暗网网络犯罪因其本身具有的匿名性和不可追溯性导致犯罪分子更加难
10、以被追踪。情报分析是追踪暗网犯罪的重要手段,该技术收集犯罪分子在暗网网络活动中留下的相关身份基金项目:广东省重点研发计划(2019B010137003)。作者简介:王雨燕(1997),女,硕士研究生,主研方向为文本信息处理、知识图谱;赵佳鹏,博士后;时金桥,教授级高级工程师;申立艳,博士后;刘洪梦、杨燕燕,硕士研究生。收稿日期:2023-01-20 修回日期:2023-04-12 Email:网络空间安全文章编号:1000-3428(2023)11-0187-08 文献标志码:A 中图分类号:TP3092023年 11月 15日Computer Engineering 计算机工程信息(如邮箱地
11、址、比特币钱包地址、社交平台账号等)作为破解用户身份的重要线索。因此,研究自动化识别和聚合同一用户多种身份信息的技术具有重要的应用价值。针对暗网用户身份信息的识别和聚合问题,当前的相关研究较少。笔者通过广泛调研发现,自然语言处理中的关系抽取和共指消解方法可以解决该问题。关系抽取旨在识别实体对之间的关系类别;共指消解旨在聚合同一句子内指向同一名词的代词。从本质上说,共指消解是一种特殊的关系抽取任务,其特殊在于指定了实体是代词、实体间的关系是共指关系。虽然共指消解与本文研究的任务很相似,都是聚合语义上有关联的对象,但它们依旧存在2个不同之处:首先,任务关注的对象并不相同,前者是语句中的代词,后者是
12、网页中的用户身份信息;其次,当前流行的共指消解方法将代词识别和代词间共指关系抽取 2 个部分联合进行,例如文献 1-3 方法。由于本文研究的用户身份信息的识别和聚合是2 个不同的阶段,不涉及联合抽取的过程,因此本文最终选择使用简单的二元关系抽取方法解决用户身份信息聚合的问题。本文定义属于同一用户的 2个用户身份信息之间包含共指关系,使用关系抽取模型来识别身份信息之间的共指关系。目前,使用关系抽取方法解决用户身份聚合问题主要存在 3个问题:首先,该场景缺乏公开可用的包含暗网多种用户身份信息的数据集;其次,虽然特征工程对于解决此类问题已经表现出不错的性能,但是随着深度学习的发展,摆脱特征依赖也是目
13、前研究的主流方向,如何选择合适的深度学习方法、构建相应的模型、实现同一用户多种身份信息自动化和高性能聚合,也是难点之一;最后,在暗网用户身份信息聚合的过程中,某些类别可获取的用户身份信息稀少,导致标注样本有限,然而目前的深度学习方法又普遍依赖大规模标注样本来保证识别性能,因此,如何进一步修改深度学习模型来降低模型对大规模训练样本的依赖,是另一个难点。为了解决这些问题,本文提出一种基于规则的身份信息识别方法,用于识别网页中出现的所有身份标识信息,并构建相应的用户信息聚合数据集。在此基础上,提出一种以有监督的共指关系抽取模型作为用户聚合任务的基线模型,该模型输入一对用户身份信息及其上下文语境,返回
14、该信息对之间是否包含共指关系。基于对数据集的统计分析,用户身份信息的类别对共指关系的识别有一定提示作用,因此,本文在基线模型中引入实体类别信息,提出实体类别敏感的共指关系抽取模型,进一步提高用户身份信息聚合模型的准确率。最后,针对暗网中通过某些身份类别信息无法获取足够多的训练样本这一问题,在基线模型中引入少样本学习任务,构建低资源条件下基于多任务的用户身份信息聚合模型,减少模型对大规模训练集的依赖。1相关技术 1.1实体识别技术传统的命名实体识别是自然语言处理的一项基础任务,其研究的核心是如何在一些特定领域内对文本中的实体名词进行抽取,例如从医药学领域的学术报告中获取药物名称、从报纸中抽取关于
15、机构活动的人名、地名、组织机构名等。基于统计机器学习的命名实体识别方法被广泛应用,包括基于隐马尔可夫模型(Hidden Markov Model,HMM)4的命名实体识别模 型、基 于 支 持 向 量 机(Support Vector Machine,SVM)5的 命 名 实 体 识 别 模 型、基 于 条 件 随 机 场(Conditional Random Field,CRF)6的命名实体识别模型等。当前,基于深度学习的模型效果最佳,在相关研究中:文献 7 提出基于格的长短期记忆(Lattice-based Long Short-Term Memory,Lattice-LSTM)网络,结合
16、了词典匹配和条件随机场进行命名实体的识别;文献 8 使用预训练模型 BERT9获得上下文单词的语义嵌入,提高了模型对实体语义的理解能力。命名实体识别技术可以实现暗网用户身份信息的自动化识别,但是当前的命名实体识别技术面临多个难题,例如在真实的开放环境中,无法列举所有的实体种类和数量、无法完成实体间的歧义消解、难以对实体边界进行界定等。受以往实体识别工作的启发,本文统计并定义了以下种类的用户身份标识信息:社交平台账号(如 Telegram 群组、Raddit账号、GitHub 账号、Discord 账号、Medium 账号、Facebook账 号、Linkedin 账 号、VK 账 号、Twit
17、ter 账 号、Instagram 账号等);加密货币钱包地址(如比特币地址、以太坊地址、门罗币等);个人联系方式(如邮箱地址、电话号码等)。这些信息每一类都有其标志性的特征,因此,对不同类别的信息构建不同的匹配规则是一种简单、有效的实体识别方式。1.2句子级关系抽取给定一个句子S,句子中包含一对实体e1和e2,句子级关系抽取的目标是根据S中的语义信息识别出e1和e2之间的关系。基于统计机器学习的句子级关系抽取方法广泛应用于情报抽取领域,包括最大熵模型(Maximum Entropy Model,MEM)10、隐马尔可夫模型11、条件随机场12、核(Kernel)方法13等。这些方法严重依赖于
18、手工特征,消耗大量人工成本的同时灵活性低下,更换应用场景或数据内容往往需要构建新的特征集合。基于深度学习的关系抽取方法解决了这一难题,在相关研究中:文献 14 使用卷积神经网络(Convolutional Neural Network,CNN)来学习句子的语义嵌入,之后在 CNN 的基础上产生了多个变种,包括使用分类损失函数的 CR-CNN15、添加分 段 最 大 池 化 操 作 的 Pooling-CNN16等。此 外,LSTM 网络也用于学习文本序列的语义嵌入,在相关研究中:文献17提出的双向长短期记忆(Bi-directional LTSM,BiLSTM)网络结合了前向 LSTM188第
19、 49卷 第 11期王雨燕,赵佳鹏,时金桥,等:暗网网页用户身份信息聚合方法层和后向 LSTM 层,该方法被证明能同时捕捉词语前的文本信息和词语后续的语义信息;在此基础上,文献 18 将注意力机制用于 BiLSTM,得到了 Att-BiLSTM。基于经典的 Transformer模型19,文献 20 提出了用于语言理解的生成式预训练转换器 GPT-2,文献 9 提出了大规模预训练模型 BERT。目前,关系提取的最佳模型均使用预训练模型来获得实体的语义嵌入。当前在优化关系抽取模型方面主要有以下2种方式:1)优化预训练模型。ERNIE模型21改进了预训练过程中掩盖关键字的方式,与基线预训练模型BE
20、RT 相比,其将词掩蔽策略扩展到分词、短语和实体。SpanBERT22利用几何分布随机抽取短语片段,并根据片段边界词的向量预测整个掩码词。此外,还可以通过引入外部知识来优化预训练模型,例如KnowBERT23和 ERNIE均通过预训练外部知识库来获取实体嵌入。类似地,K-Adapter24关注如何向语言模型注入事实和语言知识,LUKE25进一步将掩蔽语言建模的训练前目标扩展到实体,并使用了一种实体感知的自我注意机制。2)对实体的标记进行改进。IREBERT26使用一组用于句子级关系抽取的类型化实体标记符号,该方法与传统的实体掩码技术和已有的实体标记技术相比,能得到更符合上下文语义的实体嵌入。当
21、前句子级关系抽取的研究已经取得了令人满意的成果,然而这些方法的性能依赖于丰富的训练资料,随着训练样本的减少,模型性能也随之迅速下降。在暗网用户身份信息聚合的场景中,有多个种类的身份信息在标注样本集合中非常稀缺,在深度学习领域,该问题可以通过少样本学习方法解决。1.3少样本关系抽取少样本关系抽取是指仅通过少量训练样本对实体对关系进行分类的机器学习问题,目前解决该问题的方法主要分为以下 3类:1)使 用 数 据 增 强 手 段 增 加 训 练 样 本 数 量。EDA27是一种用于文本分类任务的数据增强方法,其使用 4 种文本变换手段,包括对原数据集样本进行同义词替换、随机插入单词、随机交换和随机删
22、除。但是该方法需要大量手工操作(如定制同义词集合等),且分类器性能提升并不明显。2)优化模型结构。目前最常见的优化方法是基于度量的方法和基于提示学习的方法。基于度量的方法通过计算实体嵌入与锚点的相似度(或距离)进行分类,例如:匹配网络28使用余弦相似度计算相似度;原型网络29使用欧氏距离计算相似度。基于提示学习的方法将关系抽取任务转换为提示生成任务,使 用 预 训 练 模 型 推 理 获 得 有 关 提 示 的 答 案。LAMA 模型30将关系抽取任务修改为填空题,在使用相同预训练模型的情况下,相比引入外部知识库等传统方法获得了更好的效果。文献 31 研究表明,将任务描述(即提示)作为预训练模
23、型的输入,能够极大地提高少样本模型的性能。随后,文献 32-33 应用 2种不同策略扩展了该方法。为降低手工生成提示的时间成本,文献 34 提出了一种生成文本分类任务提示的有效方法。为了使提示学习能高效地应用于零样本和少样本关系抽取,文献 35 进一步将关系抽取描述为一个文本蕴含任务。3)改进模型算法,利用先验知识初始化已有参数来改变模型的搜索方向,达到减小估计误差的目的。OSVOS 模型36在解决视频对象分割任务时,使用了预训练的卷积神经网络进行图像分类,首先使用大数据集进行前景分割的调整,然后使用单次拍摄的分割对象进一步调整分割,优化后模型的分割准确率从68.0%提升到 79.8%。文献
24、37 对元学习任务的参数进行初始化,新任务的少量梯度步骤和少量训练数据将在该任务上产生良好的泛化性能。虽然目前少样本关系抽取技术飞速发展,但是面对暗网用户身份信息聚合等真实的场景,仍然缺乏相关模型的应用实例和实验数据。2暗网用户身份信息识别和聚合 从初始暗网网页到完成用户身份信息聚合的流程如图 1所示,其中,用户身份标识信息的识别和聚合是关键技术,前者识别网页中的用户身份信息,构建数据集,后者输出数据集中信息对的共指概率,聚合属于同一用户的信息。本文提出一种暗网用户身份信息的识别和聚合方法,实现过程包括以下 3个部分:1)针对缺少公开可用的暗网用户身份信息数据集的问题,提出一种基于规则的用户身
25、份信息识别技术。该技术用于自动化并高效地识别纯文本中的用户身份信息,是构建暗网用户身份信息数据集的图 1暗网用户身份信息识别与聚合流程Fig.1Procedure of identifying and aggregating identity information of darknet users1892023年 11月 15日Computer Engineering 计算机工程关键技术。2)受现有关系抽取技术的启发,提出一种暗网用 户 身 份 信 息 聚 合 的 基 线 模 型 ConRE,然 后 在ConRE基础上加入实体类别信息优化,提出ConREtype和 ConREtype_des
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网页 用户 身份 信息 聚合 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。