用作打印机源识别的多层次语义交互模型MSINet.pdf
《用作打印机源识别的多层次语义交互模型MSINet.pdf》由会员分享,可在线阅读,更多相关《用作打印机源识别的多层次语义交互模型MSINet.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023,59(16)打印机源识别,是通过纸质文件追溯打印机来源的一种文件检验技术,能够通过打印页面上显影碳粉不同的波动1追溯源打印机的类型、品牌、型号等信息。作为文件检验领域中的重要取证技术,打印机源识别不仅有助于刑事调查,同时也能保证行政机关和其他官方打印文件记录的安全性1,近年来受到了研究人员的关注1-3。早期的打印机源识别工作大多由专业检验人员使用物理手段对文件进行分析,但此类方法不仅对检验人员的专业要求高,同时还存在效率低、成本高、影响因素多和文件破坏等问题3。最近的研究往往通过不同的手工特征方法以及深度学习方法从图像纹理中提取特征。其优点是高效且使用成本低,但大多方法强依赖于提取特
2、定字符(例如“e”)的特征进行溯源识别,而这对待检测的打印文件具有一定限制,降低了方法的实用性。另一方面,源打印机的特性独立于字符的结构,能作为溯源的特征(如不用作打印机源识别的多层次语义交互模型MSINet邱雅文1,邹积鑫2,朱子奇11.武汉科技大学 计算机科学与技术学院,武汉 4300812.公安部物证鉴定中心,北京 100038摘要:打印源识别是文件检验领域中重要的取证技术。针对同类打印机文档中字符结构差异导致的显著性类内差异,提出了一种基于空间图像重组的微尺度特征强化方法。该方法通过重组图片字形结构,弱化因字符差异导致的大尺度结构化特征,进而强化模型对不同类型打印机印刷的判别性特征;更
3、进一步,针对不同字号、字体造成的风格差异,提出了一个基于深度学习的多层次语义交互模型MSINet(multi-level semantic interaction network),通过构建不同层次特征的交互方法,降低打印字符的风格差异所带来的影响。在Printing Technique Dataset数据集上验证了所提方法的有效性,识别准确率达到了99.4%,相比目前主流的文本无关打印机源识别方法,具有更高的识别准确率。关键词:文件取证;打印机源识别;特征融合;深度学习;卷积神经网络文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2205-019
4、3Multi-Level Semantic Interaction Model for Printer Source IdentificationQIU Yawen1,ZOU Jixin2,ZHU Ziqi11.School of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan 430081,China2.Institute of Forensic Science,Ministry of Public Security,Beijing 100038,ChinaAbstract:Pr
5、inter source identification is an important forensic technique in the field of document inspection.Due to thestructural differences of characters and stylistic differences of fonts in print documents,there are difficulties in extractingprint text features and analyzing printer specificity.To reduce
6、the structural variability among characters,a spatial imagereorganization method with enhanced fine-grained attention is proposed,which captures and enhances the detailed infor-mation of printed text by weakening the structural independence of individual characters and enhancing the attention tothe
7、basic structure of characters(e.g.,strokes,etc.).A multi-level semantic interaction network(MSINet)based on deeplearning is proposed for the style differences caused by rich fonts.By constructing interaction methods with different levelsof features,the impact of stylistic differences in printed char
8、acters is reduced.The effectiveness of the proposed method isverified on the Printing Technique Dataset,and the recognition accuracy reaches 99.4%,which is higher than the main-stream text-independent printer source identification methods.Key words:document forensics;printer source identification;fe
9、ature fusion;deep learning;convolutional neural networks基金项目:中央级公益性科研院所基本科研业务费专项资金(2020JB005)。作者简介:邱雅文(2001),女,研究方向为计算机视觉及模式识别;邹积鑫(1981),男,博士,研究方向为涉假犯罪情报信息分析、文件检验分析;朱子奇(1983),通信作者,男,博士,副教授,CCF会员,研究方向为计算机视觉、机器学习,E-mail:。收稿日期:2022-05-10修回日期:2022-08-11文章编号:1002-8331(2023)16-0101-07Computer Engineering
10、and Applications计算机工程与应用101Computer Engineering and Applications计算机工程与应用2023,59(16)同打印机墨粉的波动差异)常常体现在笔画的边界信息上。文本无关的打印机源识别方法试图解除这种限制,从而对任意文本内容进行溯源识别。但不同字符在结构和风格上都存在显著差异(如图1所示),这些差异会在提取字符特征和分析不同打印机特异性时产生一定影响4。因此如何降低不同字符结构间的巨大差异和字符大小、字体对结果的影响是此问题的难点所在。针对上述问题,本文提出一种文本无关的打印机源识别方法。一方面通过加强细粒度关注度的图像重组方法减少字符间
11、结构性的差异,使网络更多地关注于字符笔画边缘部分;另一方面设计了一个多层次语义交互模型 MSINet,通过融合不同尺度、不同网络层次的特征,从而降低不同字体、字号带来的影响。该模型首先使网络聚焦在一个小的局部区域,随着网络层次的加深,逐渐学习更大的区域直至整张图片,从而将不同大小的字符特征相关联,因此能够适当避免网络直接训练时受字符风格差异的影响。本文的主要贡献在于:(1)提出一种加强细粒度关注度的图像重组方法,能够弱化不同字符在结构上的独立性,使网络更加专注于由打印机产生的差异。(2)提出一个基于深度学习的多层次语义交互模型MSINet,通过融合多层次的特征,降低不同字号、字体的字符对结果的
12、影响。(3)使用Printing Technique Dataset数据集5进行实验,实验结果表明本文提出的方法在文本无关的打印机源识别方面优于目前其他基于纹理特征和深度学习的方法,证明了本文方法的有效性。1相关工作1.1基于相同字符的打印机源识别对于印刷文件的打印机源识别问题,近年来的研究大多围绕某一特定字符展开,即训练大量相同的字符并对目标文件中的该字符进行检测。初期的研究往往通过不同的手工特征方法从图像纹理中提取特征。例如采用灰度共生矩阵(grey-level co-occurrence matrix,GLCM)6-8、离散小波变换(discrete wavelet transform,
13、DWT)7-8、局部二值模式(local binary patterns,LBP)9以及空间滤波器10等方法从打印文档提取特征,随后计算统计特征并使用分类器进行预测。Mikkilineni等11围绕该问题展开了相关研究,最初通过分析英文字符“e”的灰度变化,提出利用灰度共生矩阵与离散小波变换等多种不同的纹理特征方法进行打印机源识别。该方法提取特定字符“e”的22维GLCM特征,并使用5-NN(5-nearest-neighbor)分类器对特征进行训练和测试;随后,在此基础上使用支持向量机代替5-NN分类器以提高分类准确率12。该团队还提出一种基于度量欧式距离的分类器13,同时证实该方法能够分辨
14、具体的打印机型号。Bulan等14则利用由感光鼓和多面镜的波动引起的几何失真来鉴定文档打印机的来源。Wu等15提出基于整页文档的投影变换方法来鉴定激光打印机。由于上述手工特征方法需要花费大量的时间进行实验来确定合适的参数,在实际应用场景中操作性不强。与此同时,卷积神经网络快速发展而显现出的强大表征能力让研究人员们打开新的研究思路。Ferreira等3首先提出并行使用多个卷积神经网络(convolution neural network,CNN),且并行输入字符“e”的中值残差和平均残差,同时也使用字母“a”进行同样的训练,该方法能够达到很高的精度,但是在检测字符不是“a”“e”时效果并不理想。
15、类似的方法中,Tsai等2,16提出了多种CNN体系结构,用于文本文件和图片文件的打印机源识别。Joshi等17提出一种新的噪声残差技术与现有的CNN网络结合,并通过实验证实原始图像和噪声残差的组合比使用相同数据集的最新技术效果更好。此外,还有针对中文字符“永”5,7和日文字符“”18的打印机源识别的研究。尽管基于相同字符的打印机源识别方法目前已经获得了较好的实验效果,但是仍存在一些问题。例如在使用中必须保证文件包含训练的相同字符,还有在改变字体类型、大小时也会影响识别效果。由于上述问题,基于相同字符的打印机源识别方法在实际应用下存在一定局限性。例如在字符少、无特定字符、字体类型不同的文件中该
16、方法并不适用。文本无关的打印机源识别即针对这些问题展开研究。1.2文本无关的打印机源识别文本无关的打印机源识别方法能够直接从多种结构不同的字符中提取同一打印机的特征用于分类,因此对文本内容没有要求。在已有的研究中,Gebhardt等5首先提出了一个包含发票、合同、论文文档的公共数据集,并在此数据集上利用边缘粗糙度的差异来区分喷墨打印机和激光打印机。在该数据集的子数据集上,Elkasrawi等19将打印文件的背景和字符前景分离,仅采Different font and sizeDifferent character structure图1同一打印机生成文件中字符差异样例Fig.1Example
17、of character differences in filesfrom same printer1022023,59(16)用前景图像检查打印机产生的噪声,并提取特征训练支持向量机分类。近年来,Joshi和Khanna2提出了一种基于局部纹理描述符的纹理识别方法,从所有字符的边缘区域提取特征,能够使用单一分类器对任意字符进行分类,但该方法仅在测试字符数量达到40个才能获得较好的准确率。Bibi等20则将该问题与神经网络相结合,在稍加修改的预训练的卷积神经网络上进行迁移学习,同时验证了该方法相较于纹理特征方法的有效性。对于同样的数据集,Gupta等21叠加使用关键打印机噪声特征(key pr
18、inter noise feature,KPNF)、加速鲁棒特征(speeded up robust feature,SURF)等特征检测方法,获得了不错的效果。文本无关打印机源识别问题的难点在于相同打印机生成的文件中不同字符的形态结构完全不同,而不同打印机打印的同样内容之间差异又比较小。因此如何排除字符间的差异,并且使网络学习到不同打印机之间真正的差异是此问题的难点。而对于以上方法,设计目的大多是在有限的图像数据中提取更多互补的特征,从而更加准确地对文件分类。但是目前暂时没有相关研究针对文本无关问题中字符差异的特点提出解决方法,即如何降低不同字符结构、大小、字体的差异对网络学习的影响。因此本
19、文分别通过减少不同字符形态结构的影响和交互多尺度、多层次的特征信息两方面来解决此问题。2多层次语义交互模型MSINet目前文献中的多数方法都是依赖于特定字符的,在真实的使用环境中具有一定的局限性。因此本文提出一种基于卷积神经网络的方法,结合图像重组方法与多层次语义交互模型进行训练,可以在较低分辨率下完成对任意文件的分类,其具体流程如图2所示。本文方法首先将整页的样本图片分为尺寸相同的图像块,随后使用加强图像细粒度关注度的重组方法打乱字符的基本结构,最后将不同尺寸的重组图像依次输入网络中进行分层训练,并使用原图融合不同层次的不同尺度特征再次训练,使不同字号、字体的字符特征之间相互联系。2.1基于
20、空间图像重组的微尺度特征强化方法打印机硬件生产工艺和配置的不同常以细微的差异体现在打印文档上,将文档或字符作为溯源的基本特征都不能直接将关注点聚焦于打印机的出墨特性上。因此本文设计了一种基于空间图像重组的微尺度特征强化方法,应用该方法的显著优势包括:(1)弱化了字符间的结构差异性;(2)通过重组,增强了笔画、笔锋处的细粒度信息,使能直接反映打印机特异性的特征更加丰富。本文将整页文件数据切割为固定大小的图片块。因为大多数神经网络的输入层尺寸要小于原始文档尺寸,所以这里通过分块的方式调整整个文档的大小以匹配网络输入层。由于打印字符主要特征存在于字符边缘区域5,首先对图像块进行切割,通过内容占比筛选
21、包含笔画边缘的部分作为拼图块,然后从同类拼图块中随机选取多个拼图块重组为新的图像。这里根据切割尺寸的不同可以得到不同尺寸的重组图像。如图3所示,IR表示整页分割后的图像块,IS表示经切割并筛选后的拼图块,IC表示经过重组后的数据集。ISi,j=S(IRi,r)(1)IRi=ISi,1ISi,2ISi,rISi,r+1ISi,r+2ISi,2rISi,r(r-1)+1ISi,r(r-1)+2ISi,rr(2)AttentionbFX2bAttentionAttentionaFX3aFXDataIRICISnFX1nabFCnFCbFCaFCRnRRbRaRLcomLbpLpLapBackward
22、Reconstructed images ofdifferent sizes图2多层次语义交互模型MSINet实现流程Fig.2Implementation process of multi-level semantic interaction model MSINet.Selected PuzzlesIRISICSRCrr图3图像重组方法示意图Fig.3Schematic diagram of image recombination method邱雅文,等:用作打印机源识别的多层次语义交互模型MSINet103Computer Engineering and Applications计算机工
23、程与应用2023,59(16)ISi,j=i1,1i1,WriHr,1iHr,Wr(3)ICi=C(R(IS,rr),r)(4)式(1)中,S表示分割函数,将任一张尺寸为WH图片IRi分割为rr个维度为WrHn的拼图块ISi,j,其中i1,2,|IR,j1,2,rr,得 到 拼 图 块 集 合IS。式(4)中函数R(IS,rr)表示随机从IS中抽取rr个拼图块。抽取的拼图块可能来自多张不同的图片,最后由函数C将拼图块拼接为一张WH的图像,得到重组数据集IC。其中r为重组图像的尺寸,r越小的重组数据集对应训练网络越浅层的部分。2.2多层次语义交互模型为了获取相同源打印机文件中不同风格的字符的统一
24、特征,本文设计了一个通用的多层次语义交互模型。首先将不同尺度的图像分多次投入同一网络进行分层学习,即由浅至深地训练网络。直至输入原图时将各层次的特征图进行融合得到最终结果再次反向传播,这里所有的反向传播都是覆盖全部参数。这样的设计是为了首先让网络学习图像中的局部细节,再进一步学习更大范围内的特征信息,其中每一步的参数更新都是为了在下一次训练时达到最优的效果。该部分能够增加模型各部分间的协作性,使网络能够准确地提取打印机特征信息,从而对不加处理的测试文档进行精准分类。首先将重组图像集记作Xr,表示重组规格为rr的IC数据集,其中X1表示原数据集。本文方法中的网络结构设计是通用的,对于常见的卷积神
25、经网络,首先将其分为n个部分。R=concat(R1,R2,Rp-1,Rp)(5)式(5)中,Ri表示各个网络部分所得到的特征向量,使用concat方法对特征进行拼接,得到融合p个特征后的特征向量R。Ri=FCi(Fi)(6)FC表示全连接层,以特征图Fi作为输入并得到特征向量Ri。将使用数据集Xr输入网络并从第i个部分抽出的特征图记为Fri,这里i=1,2,n。式(7)中Attention表示注意力模块:Fi=Fi,if i=nFi=Attention(Fi)Fi,otherwise(7)式(7)中,对于抽出的特征图和最后抽出的特征图有不同的处理,这是因为浅层的特征图不包含高级语义特征,还需
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 用作 打印机 识别 多层次 语义 交互 模型 MSINet
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。