基于多级轴向加性网络的轻量级单图超分辨率.pdf
《基于多级轴向加性网络的轻量级单图超分辨率.pdf》由会员分享,可在线阅读,更多相关《基于多级轴向加性网络的轻量级单图超分辨率.pdf(11页珍藏版)》请在咨信网上搜索。
1、Advances in Applied Mathematics 应用数学进展应用数学进展,2024,13(4),1842-1852 Published Online April 2024 in Hans.https:/www.hanspub.org/journal/aam https:/doi.org/10.12677/aam.2024.134173 文章引用文章引用:邹观哲,黄可言.基于多级轴向加性网络的轻量级单图超分辨率J.应用数学进展,2024,13(4):1842-1852.DOI:10.12677/aam.2024.134173 基于多级轴向加性网络的基于多级轴向加性网络的轻量级单图
2、超分辨率轻量级单图超分辨率 邹观哲邹观哲*,黄可言,黄可言 南京邮电大学理学院,江苏 南京 收稿日期:2024年3月28日;录用日期:2024年4月23日;发布日期:2024年4月30日 摘摘 要要 信息技术发展日新月异,视觉信息的质量广受重视,图像超信息技术发展日新月异,视觉信息的质量广受重视,图像超分辨率技术正因此经过了长久的迭代。但作分辨率技术正因此经过了长久的迭代。但作为一个不适定问题,这项技术仍将是一个长久的难题。随着自注意力机制的出现及引入,传统卷积神经为一个不适定问题,这项技术仍将是一个长久的难题。随着自注意力机制的出现及引入,传统卷积神经网络方法逐渐在性能上落后。然而,包含自注
3、意力的方法通常计算成本高昂,或是只能为节约计算成本网络方法逐渐在性能上落后。然而,包含自注意力的方法通常计算成本高昂,或是只能为节约计算成本在性能上妥协。因此,本文提出了一种多级轴向加性网络,很好地平衡了性能与成本。具体来说,我们在性能上妥协。因此,本文提出了一种多级轴向加性网络,很好地平衡了性能与成本。具体来说,我们首先设计了一种多级轴向注意力模块,在注意力机制内实现了轴向窗口的模式。然后,我们提出了一种首先设计了一种多级轴向注意力模块,在注意力机制内实现了轴向窗口的模式。然后,我们提出了一种高效的加性注意力,使注意力计算免于矩阵乘法运算。同时,我们还构建了一个轻量级的超分辨率网络高效的加性
4、注意力,使注意力计算免于矩阵乘法运算。同时,我们还构建了一个轻量级的超分辨率网络MLAAN。最后,我们在。最后,我们在五个基准数据集上评估了所提出的五个基准数据集上评估了所提出的MLAAN的效果。在与的效果。在与SOTA方法的对比中,方法的对比中,MLAAN在参数量较少的前提下体现了优越的超分辨率性能。在参数量较少的前提下体现了优越的超分辨率性能。关键词关键词 单图像超分辨率,轻量级网络,多级轴向加性网络单图像超分辨率,轻量级网络,多级轴向加性网络(MLAAN),多级轴向注意力模块,多级轴向注意力模块(MLAAB)Lightweight Single Image Super-Resolutio
5、n with Multi-Level Axial Additive Network Guanzhe Zou*,Keyan Huang College of Science,Nanjing University of Posts and Telecommunications,Nanjing Jiangsu Received:Mar.28th,2024;accepted:Apr.23rd,2024;published:Apr.30th,2024 Abstract The importance of visual data has been increasingly emphasized due t
6、o the swift advancement of information technology nowadays.As an ill-posed problem,Single Image Super-Resolution contin-ues to present an enduring challenge even after years of progression.Massive self-attention based *通讯作者。邹观哲,黄可言 DOI:10.12677/aam.2024.134173 1843 应用数学进展 methods proposed have shown
7、 performance exceeding traditional Convolutional Neural Networks based methods.However,methods including self-attention either suffer from large computational cost,or have to compromise on the weakened ability on capturing information thanks to modifica-tion on attention.We propose a Multi-Level Axi
8、al Additive Network with well-balanced trade-off in this work.Specifically,we first elaborate a Multi-Level Axial Attention Block enabling axial window patterns within attention.Then we present an effective additive attention that eliminates the need for expensive matrix multiplication operations in
9、 attention.We also construct a Feature Extrac-tion Module base on shift-convolution to extract local features.We evaluate the efficacy of our pro-posed MLAAN on five benchmark datasets and show that it significantly enhances the super-resolu-tion performance of the network.Our experimental results d
10、emonstrate state-of-the-art perfor-mance in lightweight SISR while using a low number of parameters.Keywords Single Image Super-Resolution,Lightweight Network,Multi-Level Axial Additive Network(MLAAN),Multi-Level Axial Attention Block(MLAAB)Copyright 2024 by author(s)and Hans Publishers Inc.This wor
11、k is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 单图像超分辨(SISR)的目标是从相应的低分辨率(LR)图像中推算出还原的高分辨率(HR)图像。在监控成像、自动驾驶和医疗成像等各种计算机视觉应用中,该技术都发挥着重要作用。作为一个不适定问题,即使经过多年的发展,SISR 仍然是一个持久的挑战。人们提出了许多基于卷积神经网络(CNN)的方法1 2,以直接学习 LR 和 HR 图
12、像对之间的映射。例如,Dong 3等率先提出了基于 CNN 的初始模型SRCNN。SRCNN 仅用三个卷积层,就成功超越了传统方法。之后,研究人员开始设计更多具有更复杂架构的网络,基于 CNN 的 SISR 方法取得了长足进步4。尽管这些模型已经取得了显著的成就,但其庞大的计算成本却一直阻碍着它们的传播与实际应用投产。为了扩大 SISR 的应用范围,必须在性能和计算成本的平衡中求进。因此,学界与业界都把目光投向了轻量级的超分辨率方法,这些方法既有不俗的效果,又能将计算开支降到最低。DRRN 5利用循环网络结构在不增加参数的情况下增加了网络深度。然而,由于牺牲了性能和计算量,这种方法的相对实际效
13、率并未提升。随着人们对 SISR 研究的钻研,高效的网络结构设计分化出了多种路径,包括神经结构搜索(NAS)、多尺度结构和通道分组策略。CARN 6通过级联局部和全局特征来恢复 HR 图像,速度和精度都很高。IMDN 7通过引入多重信息蒸馏模块来聚合和提炼特征。RFDN 8在 IMDN 的基础上进一步改进,加入了特征蒸馏连接(FDC)。BSRN 9引入了蓝图可分离卷积,以更小的模型实现了更好的重建效果。但是,卷积核通常用于提取局部特征,这意味着对图像中长距离依赖关系彻的彻底忽视。在这方面,Transformer 是一个出色的替代品。近年来,凭借它强大的全局建模能力,视觉 Transformer
14、(ViT)在许多视觉任务中崭露头角。近期有研究将 Transformer 引入了 SISR 领域。Swin IR 10利用移位窗口方案对长距离依赖关系进行建模,证明了 ViT 在 SISR 领域同样潜能巨大。ESRT 11将 CNN 和 Transformer结合,构建了高效的轻量级模型。ELAN 12进一步简化了网络,避免了上游视觉任务庞大冗杂的网络。然而,现有的大多数基于 Transformer 的方法都使用密集注意力策略或移动窗口策略。本质上,感受野依Open AccessOpen Access邹观哲,黄可言 DOI:10.12677/aam.2024.134173 1844 应用数学进
15、展 然受到限制,需要堆叠大量模块才可能有效提取全局信息。为此,我们采用了轴向窗口注意力策略。由于相邻区域间的像素元素通常比远距离的像素元素相互作用更强,我们将注意力划分,分配到局部窗口和两个轴上。通过调节这三个部分的权重,实现了对局部与全局注意力的粒度调整。值得注意的是,在我们的架构中,局部窗口、水平轴向和垂直轴向的自注意力是以一种免于额外计算开支的并行模式计算的。同时,我们还提出了一个用于 SISR 的多级轴向加性网络(MLAAN),以基于 ViT 的架构组成。我们首先设计了了多级轴向注意力模块(MLAAB),使提出的轴向窗口模式能够以轻量级的方式收集全局特征。然后,我们提出了一个高效的加性
16、注意力模块(EAA),在注意力计算中将繁杂的矩阵乘法运算实现取代。我们还构建了一个作用于局部的特征提取模块(FEM),其中引入了移位卷积层和 GELU 激活函数。总之,本文的主要贡献可以概括为以下三个方面:(1)为SISR任务提出了一种结构简洁但功能强大的网络MLAAN。在轻量化的网络中巧妙地利用ViT的全局建模能力,在抑制计算成本的同时显著地提高了性能。并且通过标准数据集上的实验,定性和定量地论述了网络的优越性。(2)设计了一种多级轴向注意力模块 MLAAB,在注意力机制内实现了轴向窗口模式,使全局依赖提取的轻量化成为可能。(3)设计了一种高效的加性注意力模块 EAA,让注意力中繁杂的矩阵乘
17、法运算得以被取代,进一步降低了计算复杂度。2.网络结构设计网络结构设计 以 MLAAB 为骨干单元,我们提出了 MLAAN,网络结构如图 1 所示。该网络有着清晰简洁的结构,先后包括了浅层特征提取模块和深层特征提取模块,两部分的输出之间进行残差连接,合并后的输出再输入到上采样模块进行重建。Figure 1.The overall architecture of the proposed MLAAN 图图 1.所提出的 MLAAN 的主体网络架构 邹观哲,黄可言 DOI:10.12677/aam.2024.134173 1845 应用数学进展 2.1.注意力机制注意力机制 在 Transform
18、er 中,核心单元是多头自注意力(MHSA)。所谓自注意,是指将输入N CX?分别线性投影为查询矩阵 qNCQ,键矩阵 kvNC K,以及值矩阵 kvNC V,注意力函数会将每个Q?矩阵转换为V矩阵的求和权重。该权重是通过 Q?和K之间的归一化点积确定的。上述计算可表示为如下矩阵运算:()Attention,softmax.TC=QKQ K VV 这里引入了可变标量 C以避免权重集中和梯度消失,通常根据输入的维度确定。对于视觉 Transformer来说,X是一个二维空间特征图 NHW=,其中 H和 W分别是特征图的高度和宽度。多头是指需要沿通道维度将输出划分为 h段。不同注意力头的投射权重不
19、同。上述计算可表述为:()()01,MHSAConcat,oh=head headheadXW()Attention,QKViiii=headXWXWXW 其中 CNhihead是第 thi注意力头的输出。,CCQKVhiiiWWW矩阵用于输入映射。通过对输入进行 额外的线性变换得到的权重 oC CW,用于各输出进行合并求和。MHSA 中有N个Q,每个Q将处理N个键值对,因此复杂度为()2O N。MHSA 的高复杂度给视觉任务的输入分辨率带来了不少限制。2.2.多级轴向窗口注意力多级轴向窗口注意力(MLAW)Figure 2.The basic scheme of MLAW.The input
20、 scale is set as(9,9)for better understanding.H,W,C stand for input height,input width,and input channel respectively.图图 2.MLAW 的流程结构。为了清晰可视化将输入尺寸设为 9 9,H,W,C 分别为输入的高、宽和通道 与 MHSA 中相同,输入特征()H WCX将首先线性投射到K个注意力头上,而此后每个注意力头在局部窗口或横轴或纵轴内进行自注意力运算,如图 2。2.2.1.轴向窗口注意力轴向窗口注意力 在提出的水平轴向注意力中,X被平均分割成不重叠的水平条状窗口1 ,H
21、XX,每个窗口包含1 W个元素。形式上,假设第 thk注意力头的,Q K V的维度都是kd,那么thk注意力头的水平轴向注意邹观哲,黄可言 DOI:10.12677/aam.2024.134173 1846 应用数学进展 力输出定义为:12,H=XXXX()MSA,iiQiKiVkkkk=YX WX WX W()12H-MSA,Hkkkk=XY YY 其中,()1,1,2,WCiiHX,MSA表示多头注意力。,kkkC dC dC dQKVkkkWWW分别代表 thk 注意力头的,Q K V的投影矩阵,kdC K=。类似可得垂直轴向注意力,其对第 thk注意力头的输出表示为()V-MSAkX。
22、对于局部窗口注意力,X被平均分割成高度和宽度等于 M的非重叠局部窗口1,NmmXX,每个窗口包含 MM元素。类似地,第thk注意力头的局部窗口注意力输出定义为:12,Nmmmm=XXXX()MSA,iiQiKiVkmmkmkk=YX WX WX W()12W-MSA,Nkkkk=XY YY 其中()()NHWMM=。2.2.2.粒度差异的构建粒度差异的构建 我们将 K个注意力头分为三部分,给两个轴向窗口各分配4K个注意力头,给局部窗口分配2K个注意力头。通过这种刻画粒度的方式,我们为局部和稀疏全局特征设置了权重。第一组注意力头执行水平轴向注意力,第二组注意力头执行垂直轴向注意力,第三组注意力头
23、执行局部窗口注意力。并行计算后,输出将被重新合并:()()()H-MSA,1,4,headV-MSA,4 1,2,W-MSA,2 1,kkkkXkKXkKKXkKK=+=+()()1,MLAW=Concat head,headOKXW 其中,OC CW为投影矩阵,用于融合各注意力头的输出。与分别逐步实现轴向和窗口注意力相比,这种并行机制的计算复杂度更低。并且,可以通过改变各组注意力头的数量来实现不同的粒度。2.3.高效的加性注意力高效的加性注意力 此前,加性注意力机制在 NLP 中已被应用,通过元素乘法取代了点积运算,利用成对标记间的交互来获得全局信息。它与惯例方法相同,仍用,Q K V的交互
24、作用来编码输入序列上下文信息的相关性分数。在此之上,本文提出 EAA 只需通过加入线性投影层以聚焦于 Q、K间有效交互,就足以学习表征之间的关系(见图 1)。进一步简化了运算,在提高推理速度的条件下仍能稳健地提取特征。具体来说,输入 X通过两个映射矩阵,QKWW转换成 Q 和K,其中,n dQKd dQ KWW,n是输入长度,d是输入向量的维数。接下来,Q 矩阵可学习参数向量 daw相乘,学习 Q 的注意力权重,然后通过 Softmax运算产生全局注意力查询向量n如下:()()1exp.expanajdd=Q wQ w 邹观哲,黄可言 DOI:10.12677/aam.2024.134173
25、1847 应用数学进展 然后,根据学习到的注意力权重对 Q 矩阵进行池化,最终得到一个单一的全局查询向量dq,如下所示:1.nii=iqQ 接下来,通过元素乘积对全局查询向量q和键矩阵n dK的交互进行编码,从而形成全局上下文(n d)。该矩阵与 MHSA 中的注意力矩阵相似,能捕捉全局的元素信息,在学习输入间的相关性上足够敏锐。不过,与 MHSA 相比,它的计算成本相对较低,复杂度与输入长度呈线性关系。受 Transformer架构的启发,我们在 Q、K交互中加入线性变换,从而学习输入的隐藏层表征。高效加性注意力的输出 X可以描述为:(),=+XQT K q 其中,Q表示归一化查询矩阵,T表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多级 轴向 网络 轻量级 单图超 分辨率
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。