引入注意力机制的纹样图像识别模型研究.pdf
《引入注意力机制的纹样图像识别模型研究.pdf》由会员分享,可在线阅读,更多相关《引入注意力机制的纹样图像识别模型研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、PRINTING AND DIGITAL MEDIA TECHNOLOGY STUDY Tol.229 No.2 2024.04印刷与数字媒体技术研究 2024年第2期(总第229期)RESEARCH PAPERS研究论文引入注意力机制的纹样图像识别模型研究王建华1*,陈涣予2,陈 渝3(1.昆明学院 美术与艺术设计学院,昆明 650214;2.桂林理工大学 艺术学院,桂林 541006;3.云南开放大学 经济与管理学院,昆明 650503)摘要 织物纹样的图像识别是纺织业中一项重要的技术,为提高民族织物纹样图像的准确识别率,保存纹样数字化信息,本研究以彝族织物为例,提出一种基于ResNet5
2、0模型与多头注意力机制相结合的纹样图像识别算法。首先使用扩充后符合训练要求的图片构建织物纹样数据库;然后构建ResNet模型,在模型中添加多头注意力机制模块,通过注意力机制获取的图像全局信息进行训练;最后采用GN(Group Normalization)层对样本通道求平均值,最后得出模型准确率为90.8%,较未加入注意力机制的ResNet模型提升了14.8%。基于此模型能快速准确识别复杂场景下拍摄或扫描的民族织物纹样图像,提高织物纹样识别的效率。关键词 图像特征;深度卷积神经网络;注意力机制;图像分类中图分类号 TP391.4;TS83文献标识码 A文章编号 2097-2474(2024)02
3、-46-08DOI 10.19370/10-1886/ts.2024.02.005Research on Pattern Image Recognition Model with Attention MechanismWANG Jian-hua1*,CHEN Huan-yu2,CHEN Yu3(1.School of Fine Art and Design,Kunming University,Kunming 650214,China;2.College of Arts,Guilin University of Technology,Guilin 541006,China;3.College
4、of Economics and Management,Yunnan Open University,Kunming 650503,China)Abstract Image recognition of fabric patterns is an important technology in the textile industry.In order to improve the accurate recognition of ethnic fabric pattern images and preserve the digitized pattern information,a fabri
5、c pattern image recognition algorithm based on the combination of ResNet50 model and multihead attention mechanism was proposed in this study through the example of Yi fabrics.Firstly,a fabric pattern database was constructed using the images that have been expanded to meet the training requirements
6、,and then the ResNet model was built with the multihead attention mechanism module.The global information of the image obtained by the attention mechanism was used for training.Finally,the GN(Group Normalization)layer was used to calculate the average value of the 收稿日期:2023-4-11 修回日期:2023-5-21 *为通讯作
7、者项目来源:2022年四川省教育厅现代设计与文化研究中心项目(No.MD22E003)本文引用格式:王建华,陈涣予,陈渝.引入注意力机制的纹样图像识别模型研究J.印刷与数字媒体技术研究,2024,(2):46-53,109.2024年2期印刷与数字媒体技术研究(拼版).indd 462024年2期印刷与数字媒体技术研究(拼版).indd 462024/4/26 17:07:422024/4/26 17:07:4247研究论文王建华等:引入注意力机制的纹样图像识别模型研究0 引言少数民族织物纹样是我国丰富文化的具体体现形式,其丰富的色彩以及厚重的文化底蕴包涵了民族的自豪感、认同感。随着计算机技术
8、的发展和数字时代的来临,数字化转型已经成为少数民族织物产业发展的必然趋势,对于少数民族织物纹样的保护和传承具有重要意义。然而现阶段织物纹样图像识别因采集时的光照条件与设备不同会导致质量参差不齐,纹样图像识别多以人工转译为主,效率低下。图像分类是计算机领域中的基础和重要论题,其核心问题是如何通过计算机对图像进行深度理解和分析,并将其自动分类1-2。近年来,深度学习技术在图像分类领域中表现出了很大的优越性,特别是卷积神经网络(CNN)作为一种有效的深度学习方法,已经被广泛应用于图像分类和识别领域3-4,其局部链接、权值共享及池化操作有效降低了网络的复杂程度,对减少训练步数、应对大量不同设备采集的精
9、度稳定性差的数据集有较强的鲁棒性以及容错能力。然而,由于少数民族织物纹样图像具有形状复杂、色彩多样、数据量庞大等特点,如何利用卷积神经网络和其他图像识别技术来提高纹样图像的分类精度和效率,仍然是一个值得探索的问题5-7。在对织物纹样图像的识别中,有多种基础网络已被印证有效,如AlexNet、CifarNet、VGG16等。甘甜等8以Efficient-Deep Labv3+为基础网络模型,使用Sigmoid分类器,对苗族服饰纹样的识别准确率达到了93.7%。贾小君9对蓝印花纹样图像使用CifarNet进行了识别分类预测并比较了不同模型之间的准确率。刘雪等10在AlexNet的基础上引入了对纹样
10、自动标注的方法。孔谦等11使用了基于区域建议的卷积神经网络(R-CNN),该算法使用选择性搜索提取候选区域,加快了对瑶族纹样目标检测速度。张帆等12使用基于人工神经网络的机器学习算法与图形学算法训练了一个传统纹样轮廓线的自动生成模型。罗雪阳等13基于ResNet引入通道域和空间域注意力机制,同时将自适应卷积核思想和Gem池化引入空间域注意力模块。单月等14提出的NR-IQA模型为图像分类提供一种有效评估图像质量的方法,可以提高图像分类的准确性和效率。虽然深层网络更容易提取到图像更多的信息模块,但网络加深后梯度消失和梯度爆炸现象更加显著,深度残差网络(ResNet)让残差模块间跳跃连接,使得梯度
11、正常回转,有效地解决了这一问题,为让残差网络在图像数字提取特征中更加丰富,增加分类预测准确性。本研究以彝族织物纹样图像为研究对象,基于深度残差网络与注意力机制,提出一种针对织物纹样图像的自动识别与分类方法,旨在提高图像数字化处理的效率和准确性,为织物纹样数字化转型提供技术支持。1 基于注意力机制的纹样图像识别模型1.1 ResNet模型ResNet是由微软实验室于2015年提出的一种经典的神经网络模型。它的特点是使用了残差模块(Residual),具体结构如图1所示。该模型通过引入跨层的残差连接(Residual Connection)来解决梯度消失问题。这种连接允许网络中层级跳跃,使得梯度可
12、以在跨越多层时被保留下来,从而保证了梯度的有效传递,避免了网络深度对模型性能的负面影响。输入x经过第一层权重后得到映射函数F(x),然后通过激活函数ReLU进入第二层权重,同sample channels,and the model accuracy was acquired as 90.8%,which was 14.8%higher than the ResNet model without the attention mechanism.The method can quickly and accurately identify ethnic fabric pattern images
13、captured or scanned in complex scenes,improving the efficiency of fabric pattern recognition.Key words Image feature;Deep convolutional neural network;Attention mechanism;Image classification2024年2期印刷与数字媒体技术研究(拼版).indd 472024年2期印刷与数字媒体技术研究(拼版).indd 472024/4/26 17:07:422024/4/26 17:07:4248印刷与数字媒体技术研究
14、2024年第2期(总第229期)时输入x的跳跃连接。最终的映射函数为F(x)+x。这种结构通过浅层特征的直接映射来加强不同层之间的通信15。ResNet系列网络结构模型迭代多次,目前主流的模型为ResNet18、ResNet34、ResNet50和ResNet101等,本研究使用ResNet50为主干网络,见表1。表1 ResNet50网络结构Tab.1 ResNet50 network architecture层数输出尺寸卷积77,64,步数2,2,2112112112Pool1333 max,步数2,2,2565656Res2565656Pool2311 max,步数 2,1,156565
15、6Res3282828Res4141414Res5 777全局平均池化,FC111ResNet50网络输入模块由卷积层(CONV)和最大池化层(MAX POOL)组成。中间使用ReLU激活函数来提升网络的拟合能力。经过卷积操作后得到特征图,通过最大池化层进行降维,如式(1)。(1)式(1)中,s为步长,m为ykl序列中元素的量,skl表示第l层中第k个滤波器的最大响应值,该值由特征图ykl和步长s决定。经过多次的卷积和池化操作后,通过全连接层使用Softmax函数对结果特征图进行分类,如式(2)。(2)式(2)中,P(j)为输出式 j分类的概率,k为分类的数量,eje表示第j个元素的指数函数。
16、1.2 多头注意力机制模块注意力机制是一种模拟人类视觉中关注重要特征、抑制非必要特征的机制。为了让模型更加关注彝族织物纹样部分,需要在ResNet50网络的基础上引入注意力机制。多头注意力机制(Multihead Attention)是Google公司在2017年提出的并行注意力算法,其结合了空间注意力和通道注意力,将输入特征分成多个头(Heads),并且每个头都计算出一个注意力权重矩阵,然后将多个注意力权重矩阵拼接起来再乘上一个权重矩阵进行线性变换,最终输出经过注意力加权的特征向量16。这种方式可以充分利用多个头的注意力权重来获取更全面的信息,提高模型的表达能力。具体实现是首先给定一个xRC
17、HW,其中C为通道数量,H为高度,W为宽度,然后使用3个11的卷积将x分别映射为输入矩阵Query向量(Q)、Key向量(K)、Value向量(V),在此基础上根据多头注意力机制通过不同的 Heads生成多组特征向量,计算公式如式(3)式(5)所示。(3)(4)(5)式(3)式(5)中h是注意力头的数量,QWiq、KWiK、VWiV是通过学习得来的权重矩阵,W0是一个可学习的权重矩阵,Headi表示第i个注意力头的输出。Wight layerWight layerxF(x)F(x)+xReLU+ReLUxIdentity图1 残差单元结构Fig.1 Residual unit structur
18、e2024年2期印刷与数字媒体技术研究(拼版).indd 482024年2期印刷与数字媒体技术研究(拼版).indd 482024/4/26 17:07:432024/4/26 17:07:4349研究论文王建华等:引入注意力机制的纹样图像识别模型研究式(3)中,Headi为每个注意力机制头所得的结果;Contact表示叠加运算;Attention代表注意力机制;MultiHead代表多头注意力机制,将各个头进行叠加运算后得到最终输出结果。在输入的图像上提供不同的注意力,通过分配权重值,最后将特征图进行叠加生成织物纹样特征图,过程可视化结果如图2所示。W1*W1*W1*+W2*+W2*+W2*
19、+Wn*=+Wn*=+Wn*=图2 模型分类可视化Fig.2 Model cassification visualization多头注意力机制中没有提出图像二维位置信息的编码,这限制了在图像视觉识别任务中的表现,因为MHSA在对图像进行处理时会对各像素点之间的关系进行建模,因此可以将每个像素点的RGB三个通道组成一个向量,然后构建二维映射相对位置编码PW和PH,分别表示二维特征在宽和高上的相对位置(相对位置编码可以与查询向量和键向量相结合,以调整它们之间的相似度得分,模型就能够更加关注相关位置的信息,并更有效地捕捉序列中的长程依赖关系),增加了多头注意力机制对图像的二维信息理解能力,最后加入自
20、学习机制,在优化器中不断优化更新,找到更准确定位的位置信息。改进的MHSA机制结构图如图3所示,其中Rh与Rw用以查询输入序列的特征向量维度,r代表查询向量(Query Vector)、q代表键向量(Key Vector)、k代表值向量(Value Vector),图3中*表示矩阵乘法,将注意力权重矩阵与值矩阵相乘以获得加权后的值,表示张量的维度,“H*Wd”表示一个三维张量,其高度为H,宽度为W,深度(或特征维度)为d,qTr表示查询向量q和向量r转置之间的点积,qTk用以查询向量q与k之间的相似性,以便在计算注意力分数时使用。1.3 网络模型为了提高对彝族织物纹样的识别准确率,本研究将注意
21、力机制和随机裁剪分支融合到ResNet50模型中。将多头注意力机制与ResNet50结合可以进一步提高网络的特征表征能力,增强网络对不同位置之间依赖关系的处理能力。在现今的深度学习中,为了获得更好的特征提取能力,模型变得越来越深,但足够深的神经网络训练往往会比较困难。而ResNet中的残差理念可以在深层网络中表现出较好的性能。再加上使用多头注意力机制,可以使网络更加灵活地处理输入序列中不同位置之间的依赖关系,并增强网络的特征表征能力。ResNet50的输入为一张大小为224224、通道数为3的图像,如图4所示。首先经过一个77的卷积层,步长为2,输出通道数为64,得到112112112的特征图
22、。接着进行33的最大池化操作,步长为2,将特征图的尺寸缩小一半,得到565656的特征图。经过一系列残差块的堆叠,包括Res2、Res3、Res4和Res5,每个阶段包含多个残差块。为了将多头注意力机制加入到ResNet50中,将Res5的输出通过全局平均池化层降维到一个二维矩阵,再使用线性映射将其转换为带有一定数量特征向量的输入序列。该序列被传递到多头注意KW:11SoftmaxQW:11RwRhVW:11xHWdHWdHWdHWdHWdHWdH*WH*WH*WH*WH*WH*WH*Wd1WdH1drqkqTkqTrv图3 多头注意力机制结构图Fig.3 Structure diagram
23、of multihead attention mechanism2024年2期印刷与数字媒体技术研究(拼版).indd 492024年2期印刷与数字媒体技术研究(拼版).indd 492024/4/26 17:07:442024/4/26 17:07:4450印刷与数字媒体技术研究2024年第2期(总第229期)力机制层中进行处理,以获得更具有判别性的特征表示。2 实验及结果分析2.1 数据集的建立与处理在对彝族织物图像分类识别数据库的构建中,图形的采集质量往往会影响数据训练的结果,受拍摄或扫描器材的不同以及光照条件的差异,采集到的图片质量会出现过曝或欠曝以及噪点过多的情况,因此需要对图片数据
24、进行一定的预处理来让模型观察到更多的内容,从而具有更好的泛化能力。本研究使用的图片均来自中国彝族传统织物图典数据集,数据集图片主要是通过扫描和现场拍摄,共计5种纹样分别是:动物纹(Animal pattern)、植物纹(Plant pattern)、几何纹(Geometry pattern)、文字纹(Texture pattern)、现象纹(Phenomenal pattern),共1079张,具体纹样如图5所示。为满足数据在多方面存在的需求,将图片数据进行预处理,扩充图片的广度和深度来防止过度拟合,增强模型鲁棒性,对图像的纹理特征和几何特征进行随机的变换,使用图片旋转、锐度值变换和随机裁剪以
25、及对图片进行高斯处理来扩充数据集数量,扩充后符合训练要求的图片共2134张。使用OpenCV将图片统一输出为224像素224像素,按照91的比例划分训练集和测试集,即1920张训练集和214张测试集,具体类别分布数量图如图6所示,可见训练集中文字纹样本量相对较少,后续可能会影响模型准确度。a.动物纹b.植物纹c.几何纹d.文字纹e.现象纹图5 部分数据集Fig.5 Partial dataset600400200图像数量(张)479动物纹534植物纹359几何纹258文字纹504现象纹图6 纹样图像分类数据集类别分布图Fig.6 Distribution chart of pattern im
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 引入 注意力 机制 纹样 图像 识别 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。