基于全局与局部感知网络的超高清图像去雾方法.pdf
《基于全局与局部感知网络的超高清图像去雾方法.pdf》由会员分享,可在线阅读,更多相关《基于全局与局部感知网络的超高清图像去雾方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、DOI:10.11992/tis.202304013网络出版地址:https:/ 计算机科学与工程学院,江苏 南京 210094)摘 要:当前,为实现图像全局建模的目的,基于多层感知机(multi-layer perceptron,MLP)的模型通常需要将图像上的像素进行平铺,之后实施一个自注意力机制或“混合”增强方案以获得图像的长范围依赖。然而,这些方法通常消耗大量的计算资源来弥补图像重建丢失的空间拓扑信息。特别是对于超高清图像去雾任务,大量堆积 MLP 的模型在资源受限的设备上执行一张超高清带雾图像时会出现内存溢出的问题。为了解决这个问题,本文提出了一种可以在单个 GPU 上对分辨率为 4
2、 k 的图像进行实时去雾(110 f/s)的模型,该模型的建模过程中保持了图像空间结构信息,同时具有低计算复杂度的优点。关键词:图像去雾;超高清图像;多层感知机;空间拓扑信息;局部特征提取;全局特征提取;深度学习;实时去雾中图分类号:TP181 文献标志码:A 文章编号:16734785(2024)01008908中文引用格式:郑卓然,魏绎汶,贾修一.基于全局与局部感知网络的超高清图像去雾方法 J.智能系统学报,2024,19(1):8996.英文引用格式:ZHENG Zhuoran,WEI Yiwen,JIA Xiuyi.UHD image dehazing method based on
3、global and local awarenetworksJ.CAAI transactions on intelligent systems,2024,19(1):8996.UHD image dehazing method based on global and local aware networksZHENG Zhuoran,WEI Yiwen,JIA Xiuyi(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,China)Ab
4、stract:Current multilayer perceptron(MLP)-based models usually require flattening pixels on an image and sub-sequently enforce a self-attention mechanism or“Mix”enhancement scheme to achieve global modeling of images andobtain long-range dependence of the image.However,these approaches generally con
5、sume considerable computing re-sources to bridge the loss of spatial topological information in image reconstruction.Particularly for UHD image dehaz-ing tasks,numerous stacked MLP models suffer from memory overflow when running a UHD-hazed image on a re-source-constrained device.A novel model for r
6、eal-time dehazing of 4 K images on a single GPU(110 fps)is proposedhere to address this issue.This model is advantageous because it maintains spatial information of the raw image and haslow computational complexity.Keywords:image dehazing;UHD image;multilayer perceptron;spatial topology information;
7、local feature extraction;global feature extraction;deep learning;real-time image dehazing 带有雾霾的图像具有低对比度和模糊的特性,这会严重影响下游图像处理模型的表现,例如行人检测、图像分割等。对此,大量的单幅图像去雾方法被开发出来,它们的目的在于把输入的带有雾霾的图像转换成一张清晰图像。然而,伴随着移动设备和边缘设备对分辨率为 4 k 图像处理方法的需求的不断增长,现存的图像去雾的方法很少能高效地处理一张带雾的超高清图像1。对于传统算法来说,大量的研究人员专注于雾霾和环境的物理性质,他们采用各种清晰的图像
8、先验来规范解空间,但这些方法通常需要复杂的迭代优化方案才能找到最佳解。而且,这些手工制作的图像先验知识的复杂性远远不能满足实际应用的要求。例如 Tan2开创了在没有任何额外信息的情况下在单图像实现去雾的可能性。He等3使用暗通道先验(dark channel prior,DCP)借助统计学来估计图像的雾霾以实现图像去雾。Zhu 等4提出了颜色衰减先验,通过估计场景深收稿日期:20230407.网络出版日期:20230801.基金项目:国家自然科学基金项目(62176123).通信作者:贾修一.E-mail:.第 19 卷第 1 期智能系统学报Vol.19 No.12024 年 1 月CAAI
9、Transactions on Intelligent SystemsJan.2024智能系统学报编辑部版权所有度来消除雾霾。Berman 等5观察到,无雾图像的颜色可以很好地近似为 RGB 空间中形成紧密簇的数百种不同颜色,然后基于这一先验知识提出了一种去雾算法。Chen等6提出了一种改进的评价彩色图像去雾效果的方法。该方法考虑了对图像边缘信息的评估以及对颜色失真的评估。最近,基于 CNN 的方法已被应用于图像去雾,并且与传统方法相比取得了显著的性能改进。早期的算法7-9使用可学习的参数代替传统框架中的某些模块或步骤(例如估计透射图或大气光),并使用外部数据来学习参数。从那时起,更多的研究使
10、用端到端的数据驱动的方法来消除图像雾化10-14。例如,Cai 等7提出了 DehazeN-et 来生成端到端的传输图。Zhang 等15将大气散射模型嵌入到网络中,允许 CNNs 同时输出传输图、大气光和去雾图像。GandelSman 等11借助于图像先验知识提出了一种无监督的图像去雾方法。Chen 等16在合成数据集中预先训练了去雾模型,之后使用无监督学习方法使用各种物理先验微调网络参数,以提高其在真实雾霾图像上的去雾性能。还有一系列研究放弃了传统的物理模型,并使用直接的端到端方法来生成去雾图像。Li 等8设计了一个 AOD 网络,通过重新制定的大气散射模型直接生成去雾图像。Qu 等14将
11、去雾任务转换为图像到图像的转换任务,并增强了网络以进一步生成更逼真的无雾图像。尽管基于 CNN 的方法已经取得了最先进的结果,但它们通常需要堆叠更多的卷积层才能获得更好的性能,从而导致在资源受限的设备上计算成本过高。360360除此之外,基于 MLP 的方法已被应用于图像增强任务,例如图像超分辨率17-18、图像去噪19和图像去雨20-21。与 CNN 相比,这些方法在低运算量的基础上取得了更好的视觉效果。不幸的是,目前基于 MLP 的方法有 2 个主要限制。首先,上述方法将图像划分为多个块,以捕获图像上的全局感受野,导致图像像素之间的空间拓扑信息丢失;其次,图像去雾是一个高度不适定的问题,因
12、此需要大量的 MLP 层或一些注意力机制来重建更好的高频细节。为此,这些结构和模块的大量堆叠会严重增加计算负担。例如,Uformer结构22只能使用 24 GB RAM 处理一张分辨率的图像。针对上述存在的问题,本文提出了一种不带有图像补丁的全局和局部感知网络。其中,全局感知网络基于 MLP-Mixer 的设计原则,在多尺度框架中捕获图像的全局特征。此外,局部信息的抽取使用 U-Net 来捕捉图像的局部特征以弥补全局信息建模的不足。最后,通过融合全局和局部特征图生成一个高质量的系数张量,它用于输入图像的仿射变换。值得注意的是系数张量可以看作是一种注意力机制,它表示了带雾图像的局部区域应该有相似
13、的变换。经过大量的实验分析表明,所提出的用于 UHD 图像去雾任务的全局感知网络具有两个优点:1)该模型能够有效地建模出图像的全局特性,同时保留了图像上的元素之间空间拓扑信息。2)全局特征和局部特征相辅相成,协同产生一张高质量的超高清去雾图像。本文算法有能力在单个 24 GB RAM 的 RTX 3 090 上以 110 f/s 的速度处理一张 4 k 分辨率的图像,并实现最佳性能。值得注意的是该模型在 4KID数据集中的峰值信噪比指标达到了 26.99 dB。1 全局和局部感知网络的结构图 1 给出了 4 k 分辨率图像去雾网络的架构,该网络主要由两个分支网络组成,一个全局信息提取网络和另一
14、个是局部信息提取网络。1.1 全局信息提取XXHWCX R(CHW)XRW7 RWXXTRH7 RHXRC7 RC传统的基于 MLP 的图像重构模型需要将图像分割成若干个块再进行特征抽取,这无疑会丢失图像的空间拓扑信息。灵感来自于 MLP-Mix-er 的设计原则,本文设计了一个空间 MLP 混合器(spatial-MLP-mixer,SMM)。具体来说,SMM 将完整的特征图作为输入,其中特征图 的长度域,宽度域和通道域分别为、和,。然后分别使用相同的投影矩阵和激活函数以“滚动的方式”对一张图像的宽度域、长度域和通道域进行非线性的投影。混合器块由尺寸相等的多层 MLP 组成,每层由 3 个
15、MLP 块组成。第 1 个块是图像的宽度混合 MLP,它作用于的行,映射,并在所有行之间共享。第 2 个块是图像的长度混合 MLP,它作用于的列(即它应用于转置的输入),映射,并在所有列之间共享。第 3 个块是图像的通道混合 MLP:它作用于的通道维度,映射,并在所有通道之间共享。每个 MLP 块包含两个完全连接层和一个独立应用于输入数据张量每个维度的非线性层。具体如下:Y,i=X,i+2S(1L(X),i),i=1,2,WZ,j,=Y,j,+4S(3L(Y),j,),j=1,2,HUk,=Zk,+6S(5L(Z)k,),k=1,2,CLS其中:表示层归一化,是 Sigmoid 函数,表示全连
16、接层参数。该结构的整体复杂性在图像中的像第 19 卷智能系统学报90 素数上是线性的,这与 ViT(vision transformer)不同,ViT 的复杂性是二次的。SMM 可以通过“滚动”提取图像的空间域信息进行长范围依赖建模以更好地恢复图像的颜色与纹理信息。除此之外,多尺度特性也被考虑。多尺度特性是空间 MLP 学习高分辨率(high resolution,HR)图像的高质量特征的关键。为了实现更多的跨分辨率特征交互,在 SMM 开始时以不同的尺度插入交叉分辨率特征信息。为了帮助低分辨率(low resolution,LR)特征保持更多图像细节和准确的位置信息,该算法把低分辨率特征与高
17、分辨率特征融合。HR 路径在 LR 路径中增加了更多的图像信息以减少信息损失,并增强了反向传播过程中的梯度流,以促进 LR 变换模块的训练。另一方面,将 LR 特征合并到 HR 路径中,以帮助模型获得具有更大感受野的抽象层次的特征。具体来说,该网络有 3 种规模(256、128 和64)的多尺度 SMM,框架与 HRNet 相同。它始终保持高分辨率表示,以获得空间准确的全局特征图。通过迭代融合由 HR 和 LR 子网络生成的特征来合成可靠的高分辨率特征。所有的图像下采样和上采样的方式都使用了双线性插值。图像带有256256 分辨率下采样输入图像带有 4k分辨率全局信息抽取仿射变换上采样到原始分
18、辨率AL特征融合真值绝对平方误差输出的干净图像RCHWRCHWRCHWRCHWMLPs(C)MLPs(H)MLPs(W)特征图通道增强空间增强空间增强空间 MLP 混合器块TT局部信息抽取+图 1 全局和局部感知网络框架Fig.1 Framework of global and local aware network 1.2 局部信息提取25625633为了进一步增强模型生成一张清晰的超高清去雾图像的能力,该模型引入了图像的局部信息提取网络。该网络首先将 4 k 分辨率带雾输入降低到的固定分辨率(双线性插值的方法),然后由 U-Net 获取其局部特征图。U-Net 添加了一个卷积层,将解码器最
19、后一层的通道数从 64 映射到 3。局部提取模块通过堆叠卷积层和池化层,可以更好地关注图像中的局部信息关系以消除冗余的特征信息。此外,图像局部信息的抽取可以用于恢复清晰的边缘特征,这些特征可以通过依赖图像的短距离依赖进行恢复。如图 2(b)所示,本地信息提取模块的输出图像具有更清晰的边缘。相比之下,图像的色彩信息不能仅根据该像素及其附近像素的色彩信息进行恢复,还需要考虑全局的长距离依赖才能正确恢复图像颜色。因此,通过SMM 来提取图像的长距离依赖色彩空间信息,以更好地恢复图像颜色。如图 2(a)所示,全局信息提取模块更侧重于图像的颜色特征。(a)全局(b)局部 图 2 全局和局部分支归一化特征
20、结果Fig.2 Results of normalized output feature maps of theglobal and the local branches 91郑卓然,等:基于全局与局部感知网络的超高清图像去雾方法第 1 期 2 实验与结果分析在本节中,通过对合成数据集和真实世界图像进行实验来评估所提出的方法。将所有结果与 9 种先进的去雾方法进行比较:AOD17、PSD16、DCP3、CAP4、NL5、GCANet23、MGBL1、FDM-HN24和 PFFNet25。此外,还进行消融研究,以表明该网络在图像去雾任务上每个模块的有效性。2.1 评价指标为定量的评估去雾算法的表
21、现,本文使用了峰值信噪比 P 和结构相似性 H 作为评估指标,其中 K 表示最大值,E 表示方差。P=10lgK2EH 表示干净图像与噪音图像之间的均方差。H(x,y)=(2xy+c)(2xy+c)(2x+2y+c)(2x+2y+c)2.2 数据集训练数据集总共包含 13 136 张雾化/真实图像。它包括来自 4KID 的 12 861 张包含建筑物、人物、车辆、道路等的图像和来自 I-HAZE 的25 张室内场景图像和来自 O-HAZE 的 40 张室外场景图像进一步扩充了数据的多样性。相应地,实验对来自 4Kdehaze 的 200 张图像,来自 I-HAZE的 5 张图像和来自 O-HA
22、ZE 的 5 张图像进行测试。2.3 实验细节512512该模型是使用 PyTorch 1.7 实现的,网络是使用 AdamW 优化器训练的。在这种情况下,一张分辨率为的图像作为输入(输入到模型后会借助双线性插值被强行下采样到 256256 的分辨率),并使用 8 的批量大小来训练网络。初始学习率设置为 0.001。整个模型的使用了 50 轮次的训练。6060对于 DCP,将窗口大小设置为用于测试。对于去雾模型 PSD,GCANet 和 FDMHN,它们分别在 4KID、I-HAZE 和 O-HAZE 数据集上进行微调。网络使用 AdmaW 优化器进行训练,学习率为 0.000 1。特别是对于
23、 PSD,本文使用作者提供的 PSD-MSDBN 模型系数进行微调。此外,对于 AOD、PFFNet 和 MGBL,应用 Adam 优化器并将学习率设置为 0.001 以训练网络。对于去雾算法 NL,灰度系数 设置为 1 进行测试。2.4 实验结果所有方法都在 3 个数据集上进行评估,即4KID、O-HAZE 和 I-HAZE 数据集。图 3 和图 4 中给出了在 4KID 数据集中的一张分辨率为 4 k 的图像和 I-HAZE 数据集中的一张图像的对比结果。可以观察到,传统的基于物理的方法(NL、DCP、CAP)倾向于过度增强结果,导致颜色失真。最近的深度模型(GCANet、FDMHN、AO
24、D、PFFNet、MGBL)由于缺乏全局建模能力,结果中仍然存在一些模糊。虽然 PSD 的结构相似性优于本文算法,但局部与全局感知网络可以更快地处理分辨率为 4 k 的图像并获得更好的色彩结果。图 3(k)、4(k)中局部与全局感知网络法生成的去雾结果接近图 3(l)、4(l)中的真实无雾图像。表 1 表明了本文方法的有效性。同时,在同一台具有 NVIDIA 24GB RAM RTX 3 090 GPU 的机器上评估所有深度模型。运行时只是 GPU 的处理时间,不考虑 I/O 操作。4KID、I-HAZE 和 O-HAZE 数据集的平均运行时间如表 1所示。传统方法(NL、DCP、CAP)需要
25、解决复杂的函数,这不可避免地增加了计算成本。虽然一些轻量级网络(FDMHN、AOD、PFFNet、MGBL)可以实时消除分辨率为 4 k 的图像的雾霾,但它们的性能不如本文模型。此外,虽然一些大型网络(GCANet、PSD)实现了更好的性能,但它们无法实时去除单个分辨率为 4 k 的图像的雾霾。(a)输入(PSNR dB/SSIM)(b)AOD(13.87 dB/0.788 1)(c)CAP(14.96 dB/0.749 1)(d)DCP(16.79 dB/0.890 3)(e)FDMHN(18.23 dB/0.911 2)(f)GCANet(17.83 dB/0.890 4)(g)MGBL(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 全局 局部 感知 网络 超高 图像 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。