基于Transformer和多尺度CNN的图像去模糊.pdf
《基于Transformer和多尺度CNN的图像去模糊.pdf》由会员分享,可在线阅读,更多相关《基于Transformer和多尺度CNN的图像去模糊.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 9期2023年 9月Computer Engineering 计算机工程基于 Transformer和多尺度 CNN的图像去模糊李现国1,2,李滨1(1.天津工业大学 电子与信息工程学院,天津 300387;2.天津市光电检测技术与系统重点实验室,天津 300387)摘要:卷积神经网络(CNN)单独应用于图像去模糊时感受野受限,Transformer能有效缓解这一问题但计算复杂度随输入图像空间分辨率的增加呈 2次方增长。为此,提出一种基于 Transformer和多尺度 CNN 的图像去模糊网络(T-MIMO-UNet)。利用多尺度 CNN 提取空间特征,并嵌入 Transfo
2、rmer全局特性捕获远程像素信息。设计局部增强 Transformer模块、局部多头自注意力计算网络和增强前馈网络,采用窗口的方式进行局部逐块多头自注意力计算,通过增加深度可分离卷积层,加强不同窗口之间的信息交互。在 GoPro 测试数据集上的实验结果表明,T-MIMO-UNet的峰值信噪比相比于 MIMO-UNet、DeepDeblur、DeblurGAN、SRN网络分别提升了 0.39 dB、2.89 dB、3.42 dB、1.86 dB,参数量相比于 MPRNet减少了 1/2,能有效解决动态场景下的图像模糊问题。关键词:图像去模糊;多尺度卷积神经网络;Transformer编码器;多头
3、自注意力;增强前馈网络开放科学(资源服务)标志码(OSID):中文引用格式:李现国,李滨.基于Transformer和多尺度CNN的图像去模糊 J.计算机工程,2023,49(9):226-233,245.英文引用格式:LI X G,LI B.Image deblurring based on Transformer and multi-scale CNN J.Computer Engineering,2023,49(9):226-233,245.Image Deblurring Based on Transformer and Multi-scale CNNLI Xianguo1,2,LI
4、Bin1(1.School of Electronics and Information Engineering,Tiangong University,Tianjin 300387,China;2.Tianjin Key Laboratory of Photoelectric Detection Technology and System,Tianjin 300387,China)【Abstract】Convolutional Neural Network(CNN)has limitations when applied solely to image deblurring tasks wi
5、th restricted receptive fields.Transformer can effectively mitigate these limitations.However,the computational complexity increases quadratically as the spatial resolution of the input image increases.Therefore,this study proposes an image deblurring network based on Transformer and multi-scale CNN
6、 called T-MIMO-UNet.The multi-scale CNN is used to extract spatial features while the global feature of the Transformer is employed to capture remote pixel information.The local enhanced Transformer module,local Multi-Head Self-Attention(MHSA)computing network,and Enhanced Feed-Forward Network(EFFN)
7、are designed.The block-by-block MHSA computation is performed using a windowing approach.The information interaction between different windows is enhanced by increasing the depth of the separable convolution layer.The results of the experiment conducted using the GoPro test dataset demonstrate that
8、the Peak Signal-to-Noise Ratio(PSNR)of the T-MIMO-UNet increases by 0.39 dB,2.89 dB,3.42 dB,and 1.86 dB compared to the MIMO-UNet,DeepDeblur,DeblurGAN,and SRN networks,respectively.Additionally,the number of parameters is reduced by 1/2 compared to MPRNet.These findings prove that the T-MIMO-UNet ef
9、fectively addresses the challenge of image blurring in dynamic scenes.【Key words】image deblurring;multi-scale Convolutional Neural Network(CNN);Transformer encoder;Multi-Head Self-Attention(MHSA);Enhanced Feed-Forward Network(EFFN)DOI:10.19678/j.issn.1000-3428.00655130概述图像去模糊是利用图像处理技术将模糊图像恢复成有清晰边缘结构
10、和丰富细节的图像。由于造成图像模糊的原因很多,因此图像去模糊问题是一个有多个未知解的高度不适定问题。在图像去模糊任务中,传统方法多数是将其建模为模糊核估计问题进行求解,但在现实世界中模糊核是未知的且非常基金项目:天津市重点研发计划科技支撑重点项目(18YFZCGX00930)。作者简介:李现国(1981),男,教授、博士,主研方向为智能信息处理、光电检测;李 滨,硕士研究生。收稿日期:2022-08-15 修回日期:2022-10-19 Email:图形图像处理文章编号:1000-3428(2023)09-0226-08 文献标志码:A 中图分类号:TP391第 49卷 第 9期李现国,李滨:
11、基于 Transformer和多尺度 CNN的图像去模糊复杂,最终会因为模糊核估计的不准确而导致模糊图像的恢复效果不佳。传统图像去模糊方法主要有基于最大后验概率(Maximum A Posterior,MAP)1-3、基于变分贝叶斯(Variational Bayesian,VB)4-5和基于 LMS自适应算法6。通过将原始图像与模糊核的联合后验概率在图像空间边际化,然后求解模糊核的边际分布,进而实现图像盲复原。传统图像去模糊研究通常集中于解决简单的相机抖动或者目标运动产生的模糊问题,仅在特定模糊图像上具有良好的效果。近年来,学者们对基于卷积神经网络(Convolutional Neural
12、Network,CNN)的图像去模糊方法进行了广泛研究7-9。早期,基于 CNN 的图像去模糊方法将CNN 作为模糊核估计器,构建基于 CNN 的模糊核估计和基于核反卷积的两阶段图像去模糊框架10-11。JIAN 等11提出使用 CNN 估计运动模糊的空间变化核,去除非均匀模糊,但由于模糊特性复杂,模糊核估计方法在实际场景中不能很好地恢复模糊图像。目前,基于 CNN 的图像去模糊方法旨在以端到端方式直接学习模糊-清晰图像对之间的复杂关系12-14。KUPYN 等12提出 DeblurGAN,基于 GAN 和内容损失,以单尺度的方式实现图像去模糊。尽管单尺度在去模糊效率上表现良好,但由于未能提取
13、多种特征信息,导致去模糊性能和恢复图像细节上效果欠佳。NAH 等13基于 coarse-to-fine 策略,引入一种用于 动 态 场 景 去 模 糊 的 深 度 多 尺 度 CNN 网 络DeepDeblur,在不估计任何模糊核的情况下提取图像多尺度信息,直接从模糊图像中恢复清晰图像。ZHAO 等14提出一种轻量化和实时的无监督图像盲去模糊方法 FCL-GAN,既没有图像域限制,也没有图 像 分 辨 率 限 制,保 证 了 轻 量 化 和 性 能 优 势。ZHAO 等15提出一种用于盲运动去模糊的通用无监督颜色保留网络 CRNet,易于扩展到其他受色彩影响的畸变任务,同时引入模糊偏移估计和自
14、适应模糊校正,改进去模糊任务。虽然 CNN 在单图像去模糊领域取得了良好的效果,但存在以下问题:1)卷积算子的感受野有限,难以捕获到远程像素的信息,若要增加感受野,则只能增加网络深度,然而会造成计算量过大和信息丢失问题;2)卷积核在推理时有静态权值,不能灵活地适应输入内容。受 Transformer16-17 具有全局信息建模特性的启发,DOSOVITSKIY等18 提出视觉Transformer(Vision Transformer,ViT)来执行图像识别任务,以具有位置嵌入的 2D 图像块为输入,在大数据集上进行预训练,取得了与基于 CNN 的方法相当的性能。TOUVRON 等19将 Tr
15、ansformer 与蒸馏方法相结合,提出一种高效的图像 Transformer(DeiT),可在中型数据集上训练 Transformer,具有较好的鲁棒性。受UNet多尺度单图像去模糊 20 和 Transformer 16,21-22 工作的启发,本文将 Transformer 引入 CNN 网络,但直接将 Transformer 嵌入 CNN 网络存在以下问题:1)嵌入后应用 CNN 网络的训练策略因 Transformer参数量过多导致无法训练;2)应用局部方式计算多头自注意力(Multi-Head Self-Attention,MHSA)会造成局部窗口之间缺少信息联系且去模糊效果差。
16、针对上述问题,本文提出一种基于 Transformer和多尺度 CNN 的图像去模糊网络(T-MIMO-UNet)。利用CNN 网络提取空间特征,同时对输入图像进行下采样得到多尺度的特征图,通过将多尺度特征相互融合和补充,有效利用每个尺度的信息,更好地处理各种图像模糊问题。设计一种局部增强 Transformer模块(Enhanced Local Transformer Module,EL-TM),能够利用 Transformer的全局特性有效获取全局信息。当每个尺度的特征输入到 EL-TM 中进行全局建模时,针对输入图像尺寸过大的问题,设计一种局部多头自注意力计算网络(Local Multi
17、-Head Self-Attention Network,L-MHSAN),采用窗口的方式在局部逐块计算 MHSA,以解决图像尺寸过大导致的训练难度增加 的 问 题。针 对 在 L-MHSAN 中 划 分 窗 口 计 算MHSA 后跨窗口的信息交互消失问题,设计一种增强前馈网络(Enhanced Feed-Forward Network,EFFN),通过增加深度可分离卷积层,促进不同窗口之间的信息交互,有效获取全局信息,提升图像清晰度和计算效率。1图像去模糊网络本文提出的 T-MIMO-UNet结构如图 1所示。该网络主要由多尺度输入编码器、EL-TM、非对称特征融合(Asymmetric F
18、eature Fusion,AFF)模块和多尺度输出解码器组成,其中,编码器采用两个编码块(Encoder Block,EB),解 码 器 采 用 3 个 解 码 块(Decoder Block,DB),EL-TM 采 用 12 个 局 部 增 强Transformer 层(Enhanced Local Transformer Layer,EL-TL)。T-MIMO-UNet 建立在基于编码器-解码器的单一 UNet 架构上,可充分利用 CNN 从图像中提取的多尺度空间特征。此外,为了捕获全局依赖关系,利用 Transformer编码器对全局空间进行建模,并基于EL-TM 进行局部窗口之间的信
19、息交互,实现多尺度去模糊。2272023年 9月 15日Computer Engineering 计算机工程1.1多尺度输入编码器多尺度架构可以有效地处理不同程度的图像模糊23,同时各种基于 CNN 的去模糊方法13,24-25也都采用将不同尺度的模糊图像作为网络的基本输入。在 T-MIMO-UNet的编码器中,通过编码块将不同尺度的模糊图像作为输入,其中,EB1由卷积层、残差块构成,EB2由卷积层、特征融合模块(FAM)20和残差块 构 成,已 有 实 验20证 明 了 FAM 能 够 提 高 模 型性能。使用多尺度策略作为单个 U-Net的输入,将原始尺度的模糊图像B1进行2次1/2下采样
20、,得到另外2个尺度的模糊图像 B2和 B3。B1和 B2尺度的模糊图像通过 EB1和 EB2提取特征,B3尺度的模糊图像在经过预处理后输入Transformer架构EL-TM进行全局特征建模。此外,除了在每个尺度的编码器或EL-TM中提取特征外,对于 B2和 B3尺度,还会分别从上面尺度的模糊图像中提取缩小的特征,然后将这 2种特征融合,2种信息相互补充,更有助于处理图像模糊问题。在每个尺度的编码器或 Transformer模块中提取特 征 时,使 用 浅 卷 积 模 块(Shallow Convolution Module,SCM)20对下采样图像 B2和 B3进行特征提取处理。SCM 使用
21、 2个堆叠的 33和 11的卷积层,然后在最后一个 11卷积层中将提取的特征与输入的当前尺度图像连接起来,再使用一个 11 卷积层进一步细化连接,经过 SCM 的输出用Zkout表示。对于原始尺度的模糊图像 B1,没有使用 SCM,而是直接输入编码块 EB1。对于使用了 SCM 的模糊图像 B2,将 SCM 的输出Z2out与 B1尺度的编码器输出E1out使用 FAM 进行融合,在融合前使用 stride 取值为 2的卷积层以保证 2个特征具有相同的尺寸,最后使用 1个残差块继续细化特征。对于 B3尺度的模糊图像,将此时 SCM 的输出Z3out与 B2尺度的编码器输出E2out进行特征融合
22、,此时的特征图经过多次浅层特征提取和前 2个尺度的卷积特征提取后,每个像素具备了更深的感受野,这时输入 EL-TM 利用 Transformer 的全局特征信息建模能力,进一步学习与全局感受野的远程相关性,之后将提取的全局特征输入残差块。1.2局部增强 Transformer模块自 Transformer架构16被应用于深度学习领域以来,其全局信息建模特性引起了学者们的广泛关注。CNN作为视觉领域的通用主干网络,在图像去模糊任务中应用广泛,但CNN卷积算子存在感受野有限的问题,随着网络层数的不断加深,CNN这一问题体现的越发明显,Transformer的全局性可以缓解这一缺陷。在处理模糊图像时
23、,Transformer往往因数据集中过大的图像尺寸而造成计算复杂度过高,最终使去模糊的视觉任务失败。为了增强 Transformer架构在去模糊领域的通用性,设计一种局部增强 Transformer模块,如图 2所示。局部增强 Transformer模块由多个局部增强 Transformer层构成。每个局部增强 Transformer层由L-MHSAN和EFFN构成。在 T-MIMO-UNet结构中,将 B1和 B2尺度提取的特征与 B3尺度融合,然后将所获得的特征图I RN D通过 EL-TM 进一步进行特征提取,其中,N表示输入分辨率H W,H 表示图像高度,W 表示图像宽度,D表示输入
24、通道数。B3尺度的图像特征在与其他尺度特征相加并输入局部增强 Transformer模块计算 MHSA 前,需要经过浅卷积模块的处理,处理后的图像与 B2尺度的编码器输出E2out相融合。由于图像去模糊数据集的大尺寸特性导致计算 MHSA 时计算量过大,大大增加了 训 练 难 度。为 了 解 决 这 个 问 题,在 局 部 增 强Transformer层中设计了一种局部多头自注意力计算网络。图 1T-MIMO-UNet结构Fig.1Structure of the T-MIMO-UNet228第 49卷 第 9期李现国,李滨:基于 Transformer和多尺度 CNN的图像去模糊局部多头自注
25、意力计算网络结构如图 3 所示。首先读取融合特征的维度并进行记录,由于融合特征仍然与图像维度一致,即(Y,H,W,D),其中,Y 表示图像批处理大小。使用 Flatten 操作将图像的宽度、高度等展开成一维数据的形式,即(Y,D,HW),之后将展开后的数据形式转换为(Y,HW,D),便可将融合后的图像特征输入局部增强 Transformer层计算 MHSA。图像特征输入局部增强 Transformer层后,局部多头自注意力计算网络将特征图I RN D划分成P 个不重叠的窗口I I1 I2 IP,窗口个数 P 的计算公式如式(1)所示。在每个窗口中独立计算多头自注意力。针对一个局部窗口特征图X
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Transformer 尺度 CNN 图像 模糊
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。