基于交叉细化和循环注意力的RGB-D显著性目标检测.pdf
《基于交叉细化和循环注意力的RGB-D显著性目标检测.pdf》由会员分享,可在线阅读,更多相关《基于交叉细化和循环注意力的RGB-D显著性目标检测.pdf(17页珍藏版)》请在咨信网上搜索。
1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023基于交叉细化和循环注意力的基于交叉细化和循环注意力的RGB-D显著性目标检测显著性目标检测董庆庆,吴昊*,钱文华,孔凤玲(云南大学 信息学院,云南 昆明 650504)摘要摘要:针对显著性目标检测区域边界模糊以及检测区域不精确不完整的问题,提出了基于交叉细化和循环注意力的RGB-D显著性目标检测方法。在利用编码器提取特征的阶段设计了交叉细化模块,用于补充对方的特征信息,改善了融合前的特征质量,抑制了质量较差的深度图带来的消极影响,解决了
2、显著性目标边缘模糊的问题。针对融合后的特征,提出联合注意力机制与卷积长短期记忆网络单元的循环模块以模拟大脑的内部生成机制,通过检索过往的记忆帮助推断当前的决策,从而获得需要长期记忆的语义场景,可以全面学习融合特征的内部语义关系,生成检测区域更完整,更准确的显著性图。在6个公开数据集上进行的实验表明,所提的方法可以得到边缘清晰且准确度更高的显著图。关键词关键词:RGB-D;显著性目标检测;交叉细化;注意力机制;卷积长短期记忆网络;循环模块中图分类号:TP391.9;TP391.4 文献标志码:A 文章编号:1004-731X(2023)09-1931-17DOI:10.16182/j.issn1
3、004731x.joss.22-1372引用格式引用格式:董庆庆,吴昊,钱文华,等.基于交叉细化和循环注意力的RGB-D显著性目标检测J.系统仿真学报,2023,35(9):1931-1947.Reference format:Dong Qingqing,Wu Hao,Qian Wenhua,et al.RGB-D Saliency Object Detection Based on Cross-refinement and Circular AttentionJ.Journal of System Simulation,2023,35(9):1931-1947.RGB-D Saliency
4、Object Detection Based on Cross-refinement and Circular AttentionDong Qingqing,Wu Hao*,Qian Wenhua,Kong Fengling(Yunnan University School of Information Science and Engineering,Kuming 650504,China)Abstract:In order to solve the problems that the boundary of the saliency object detection area is vagu
5、e,and the detection area is incomplete or inaccurate,an RGB-D saliency object detection method based on cross-refinement and circular attention is proposed.A cross-refinement module is designed at the stage of extracting features using encoders,which is used to supplement feature information of each
6、 other and improve the feature quality before fusion.It also suppresses the negative impact of poor-quality depth maps and addresses the issue that the edges of the saliency object are blurred.For the features after fusion,the circular module is proposed,which combines the attention mechanism with c
7、onvolutional long short-term memory(LSTM)network unit to simulate the internal generation mechanism of the brain and help infer the current decision by retrieving past memories,so as to obtain semantic scenes that require long-term memory.The module can comprehensively learn the internal semantic re
8、lationships of fusion features to generate a more complete and accurate saliency map for the detection area.Experiments conducted on six public datasets show that the proposed method can obtain a saliency map with clear edges and high accuracy.收稿日期:2022-11-17 修回日期:2023-02-03基金项目:国家自然科学基金(62061049,62
9、162065);云南省基础研究项目(2018FB100)第一作者:董庆庆(1993-),女,硕士生,研究方向为计算机视觉和图像处理。E-mail:通讯作者:吴昊(1982-),男,讲师,博士生,研究方向为计算机视觉和图像处理。E-mail:第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of System Simulationhttp:/www.china-Keywords:RGB-D;saliency object detection;cross-refinement;attention mechanism;convolutiona
10、l long short-term memory network;circular module0引言引言显 著 性 目 标 检 测(saliency object detection,SOD)旨在检测并分割图像或视频中在视觉上最能吸引人的对象,已广泛应用于许多计算机视觉任务,例如场景分类1、语义分割2、真实前景评估3、视觉跟踪4等。虽然SOD在深度学习中取得了一定的进展,但基于 RGB(red green blue)的SOD方法在显著对象与背景具有相似的外观或不同对象之间的对比度较低的情况下,以及包含多个具有复杂形状物体的场景中检测效果不佳,仅使用RGB图像提供信息,不足以有效地预测显著性图
11、。随 着 硬 件 设 备 如 Microsoft Kinect、Intel RealSense 和一些现代智能手机的发展,深度图开始出现,其获取过程不受光照和纹理变化的影响,越来越多的SOD研究开始转向RGB-D图像。基于RGB-D的SOD算法既利用RGB图像中大量的细节和纹理信息,为网络提供丰富的上下文信息,又利用深度图像中的3D布局和空间线索,大大提高了SOD的性能。尽管基于RGB-D的显著性检测技术有效提高了检测准确性,但仍存在其他问题限制了其发展:大多数基于深度学习的RGB-D显著性目标检测算法将深度图像视为辅助信息,只是在深层或者浅层阶段对RGB特征和深度特征进行拼接或求和以获得融合
12、特征,缺少对融合前特征质量的关注,使得质量较差的深度图像对融合过程产生了消极的影响,导致得到边界不清晰的显著性对象。在复杂场景中,基于深度学习的RGB-D显著性目标检测与人类感知视觉信息并识别显著目标的过程相比,人类捕捉到的显著性目标不是视觉输入的直接翻译,而是大脑一系列主动推理的结果,以前的方法通常将融合特征直接用于预测,忽略了对融合特征内部语义关系的进一步研究和推理,导致检测结果不全面、不精确。为解决上述问题,本文提出一种基于多模态交叉细化模块和循环注意力的网络模型。首先,在并行的RGB编码网络分支和深度编码网络分支之间设计了一个多模态交叉细化模块(multimodal cross-ref
13、inement module,MCR),旨在进行特征融合前通过双向的信息传递改进了两个分支的多级特征,不仅利用深度信息增加RGB特征中的空间结构,也通过RGB信息改善深度特征中纹理模糊的缺陷。其次,本文提出一种新的联合混合注意力与卷积长短期记忆网络单元的循环注意力模块(recurrent CBAM-ConvLSTM module,RCL),通过模 拟 人 脑 内 部 生 成 机 制(internal generation mechanism,IGM)5的推理过程,全面学习融合特征的内部语义关系,以粗到细的方式迭代生成更准确的显著性图。在6个传统基准数据集上进行大量的实验表明,与先进的11种模型
14、相比,本文的模型在8种检测指标以及大多数具有挑战性场景的预测中表现出最佳的性能。1相关工作相关工作近年来,虽然基于RGB的SOD算法经过了深入研究,但大多数算法对在杂乱的背景、低强度环境或者变化的光照等复杂场景下产生的RGB图像的检测效果不够理想。深度图像作为RGB图像的补充,提供了RGB图像缺少的3D布局线索和空间结构,这种将其作为辅助图像来协助SOD的方法越来越流行。1.1 传统的传统的RGB-D显著性目标检测算法显著性目标检测算法最早的传统RGB-D显著性目标检测算法,主要通过计算颜色、边缘、纹理和区域对比度来测量局部区域的显著性。例如,文献6通过从深度 1932第 35 卷第 9 期2
15、023 年 9 月Vol.35 No.9Sep.2023董庆庆,等:基于交叉细化和循环注意力的RGB-D显著性目标检测http:/www.china-图像中恢复的三维结构和形状特征如颜色对比度和表面法线等来计算显著性。文献7使用深度对比度、颜色对比度和空间偏差线索进行像素聚类并测量每个聚类的显著性置信度,通过组合上述线索生成最终的显著性预测。随后,文献8提出一种两阶段的RGB-D显著目标检测框架,将区域对比度与背景、深度和方向先验相结合,融合了模糊区域的显著性恢复算法,对模糊区域进行显著性恢复。文献9通过引入特征装袋方法随机生成多个聚类结果和聚类级弱共同显著图整合到每个图像的最终共同显著图中。
16、文献10通过新定义的颜色和深度线索的紧凑性来计算紧凑性显著图,然后基于前景种子选择机制和多线索对比计算前景显著图,最后通过加权求和得到最终的显著图。文献11通过颜色显著图和深度显著图生成初始显著图,然后基于中心显著先验和暗通道先验生成中心-暗通道图,通过融合两种图得到最终显著图。1.2 基于深度学习的基于深度学习的RGB-D显著性目标检显著性目标检测算法测算法随着深度学习的不断发展,大量基于深度学习的RGB-D显著性目标检测算法被提出,打破了传统算法的瓶颈,在性能上取得较大的突破。2017年,文献12使用深度学习的方法进行显著性目标检测,将不同等级显著性特征融合到层次特征中,只采用了一个浅层的
17、网络结构来提取图像中的显著区域,超越了基于手工特征的显著性目标检测算法。文献13提出一种RGB-D融合网络,消除了跨模态和跨层融合过程的歧义。文献14将深度图像视为RGB图像的第四通道,作为单流网络的输入,最终获得显著性图。文献15提出流体金字塔集成模块和对比度增强网络,通过对比先验以提高深度图像的质量,提高检测的性能。文献16提出了一种新颖的联合学习与密集协作融合框架,采用跨模态迁移的思想,将深度图像看作RGB图像的一种特例,联合学习提供了鲁棒的显著性特征学习,密集协作融合用于挖掘互补性特征。文献17提出了一种深度净化单元,用于评估深度图像的质量,以完成低质量深度图像的过滤和跨模态特征学习,
18、避免了低质量深度图像对检测性能的影响。文献18设计了一种双流深度交错网络,以获得用于显著性检测的多层连续多模态特征,并提出跨模态相互引导模块和残差多尺度聚合模块来实现显著性区域的全局引导和局部细化。目前,大多数的显著性目标检测方法主要采用编码器-解码器的卷积架构,编码器将输入图像编码为多级特征,解码器整合提取到的特征来预测最终的显著图,图1展示了基于这种简单架构的主流RGB-D显著性检测模型,在此基础上衍生出了各种变种检测模型,并取得了优秀的研究成果。图1 采用不同融合方式的主流RGB-D显著性检测模型Fig.1 Mainstream RGB-D saliency detection mode
19、ls with different fusion mechanisms 1933第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of System Simulationhttp:/www.china-基于RGB-D的显著性目标检测方法在发展中逐步优化了检测结果,但仍存在显著检测对象边缘不清晰或显著区域检测不完整的问题,针对此问题,文献19在跨模态融合阶段通过区域注意将两种模态联系起来,并通过补充丰富的边界信息最终获得边缘清晰且检测准确度更高的预测结果。文献20添加了边缘预测作为辅助任务,创新性的提出用边缘增强模块来生成更清晰的轮廓。文
20、献21通过设计混合增强损失函数来进一步优化检测结果以得到更锐利的边缘和一致的显著区域。与上述方法不同,本文从新的角度:改善RGB图像和深度图像编码特征质量;对融合特征更进一步的推理探讨了这些问题,采用三流网络框架,不再只是将深度图像当作辅助信息,而是将RGB图像和深度图像作为同等作用的并行分支。首先在RGB编码网络和深度编码网络之间设计了一个多模态交叉细化模块,通过两种特征的交互操作,不仅利用了多级深度信息补充RGB分支特征使其拥有丰富的空间线索更有利于显著性区域的定位,同时利用多级RGB信息细化深度分支特征使其模糊的边界得到改善。其次,针对从融合网络分支解码器输出的融合特征,本文不再直接将其
21、作为结果图,而是设计了RCL模块以模拟大脑的推理过程,在推断和决策当前结果时循环利用之前的记忆,通过面向记忆的场景逐步优化局部细节,生成检测对象更完整,检测区域更精确的显著性预测图。2本文方法本文方法2.1 概述概述首先,RGB网络分支和深度网络分支的编码网络皆是基于预训练的ResNet5022,本文提出的多模态交叉细化模块嵌入两者之间,RGB图像和深度图像分别作为两个分支网络的输入并在经过多模态交叉细化模块以及通道为32的11的卷积后得到增强的多级RGB特征Fir(i=12345)和多级深度特征Fid(i=12345)。在融合网络分支中,采用CIM23对上述两种输出特征进行跨模态融合,得到两
22、者的共享表示fsi(i=12345),CIM的具体结构如图2所示。其次,在3个网络分支中,本文采用U-Net24结构构建解码器。具体而言,对于RGB网络分支和深度网络分支,编码器的最后一层特征F5j(j=rd)作为解码器的输入,自顶向下的每一层输出特征依次通过RFB23增大感受野,进一步提取全局信息,将包含局部和全局信息的特征经过上采样以及在通道维度上连接对应层的编码特征以得到多级解码特征,并在最后一层取消跳跃连接,经过11的卷积和上采样操作得到各个分支的预测结果,其中RFB的具体结构如图3所示。图2 CIM的具体结构Fig.2 Specific structure of CIM 1934第
23、35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023董庆庆,等:基于交叉细化和循环注意力的RGB-D显著性目标检测http:/www.china-与RGB网络分支和深度网络分支不同的是,融合网络分支在RFB和跳跃连接之间增加了MFA模块23用于聚合融合分支、RGB分支和深度分支对应的解码特征,并只在最后一层取消跳跃连接和MFA,经过1*1的卷积和上采样操作得到融合网络分支最终的融合特征,MFA的具体结构如图4所示。最后,将上述得到的融合特征通过循环注意力模块RCL得到融合分支的预测结果,上采样至原始图像大小即本文最终的显著性预测图。本文方法的整体架构如图5所示。图3 R
24、FB的具体结构Fig.3 Specific structure of RFB图5 本文方法的整体架构Fig.5 Overall architecture of proposed method图4 MFA的具体结构Fig.4 Specific structure of MFA 1935第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of System Simulationhttp:/www.china-2.2 多模态交叉细化模块多模态交叉细化模块针对显著区域边缘检测不清晰的问题,本文利用RGB图像包含丰富的颜色和纹理信息以及深度图像包含
25、丰富的空间布局信息且数据特征简单的特性,提出了多模态交叉细化模块,具体结构如图2中的MCR所示。多模态交叉细化模块利用两种模态特征之间的优势互补关系,将RGB图像和深度图像视作同等作用的有效信息。采用ResNet5022从输入图像中提取多级特征时,随着网络结构的深入,特征中的背景干扰因素逐渐被抑制,低层特征包含更多的纹理与细节信息,而高层特征为用于定位显著区域的语义信息,因此在多模态交叉细化模块中依靠选择机制优化一个分支的一层特征时,忽略另一个分支的低层特征,只选择其同级及更高级的特征。通过两种特征的交互操作,多级深度特征补充RGB特征使其包含辅助的3D布局线索,更有利于显著性区域的定位,且多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 交叉 细化 循环 注意力 RGB 显著 目标 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。