一种密集多尺度特征引导代价聚合的改进立体匹配网络.pdf
《一种密集多尺度特征引导代价聚合的改进立体匹配网络.pdf》由会员分享,可在线阅读,更多相关《一种密集多尺度特征引导代价聚合的改进立体匹配网络.pdf(10页珍藏版)》请在咨信网上搜索。
1、西 安 工 程 大 学 学 报J o u r n a l o f X ia n P o l y t e c h n i c U n i v e r s i t y 第3 8卷第1期(总1 8 5期)2 0 2 4年2月V o l.3 8,N o.1(S u m.N o.1 8 5)引文格式:张博,张美灵,李雪,等.一种密集多尺度特征引导代价聚合的改进立体匹配网络J.西安工程大学学报,2 0 2 4,3 8(1):1 2 1-1 3 0.Z HAN G B o,Z HAN G M e i l i n g,L I X u e,e t a l.I m p r o v e d s t e r e o
2、m a t c h i n g n e t w o r k b a s e d o n d e n s e m u l t i-s c a l e f e a-t u r e g u i d e d c o s t a g g r e g a t i o nJ.J o u r n a l o f X ia n P o l y t e c h n i c U n i v e r s i t y,2 0 2 4,3 8(1):1 2 1-1 3 0.收稿日期:2 0 2 3-0 7-1 0 修回日期:2 0 2 3-0 8-1 4 基金项目:国家自然科学基金(6 1 9 7 1 3 3 9);陕西
3、省自然科学基础研究计划(2 0 1 9 J Q-3 6 1);陕西省教育厅科研计划项目自然科学专项(1 9 J K 0 3 6 1)通信作者:张博(1 9 8 5),男,讲师,博士,研究方向为信号检测与信息处理、三维重建等。E-m a i l:b o z h a n g x p u.e d u.c n一种密集多尺度特征引导代价聚合的改进立体匹配网络张 博,张美灵,李 雪,朱 磊(西安工程大学 电子信息学院,陕西 西安 7 1 0 0 4 8)摘要 针对目前立体匹配算法在重复纹理、无纹理、边缘等不适定性区域仍存在匹配不准确的问题,提出了一种基于P S MN e t的密集多尺度特征引导代价聚合的立
4、体匹配算法D GN e t(D e n s e m u l t i-s c a l e f e a t u r e s G u i d e d a g g r e g a t i o n N e t w o r k)。首先,基于密集连接空洞空间金字塔池化结构设计了密集多尺度特征提取模块,该模块利用不同膨胀率的空洞卷积提取不同尺度的区域级特征,并通过密集连接方式有效整合不同尺度的图像特征,使网络捕获丰富的上下文关系;其次,在每个视差等级下将左右特征图串联形成初始代价体,再提出密集多尺度特征引导代价聚合结构,在聚合代价体的同时自适应融合代价体和密集多尺度特征,从而使后续的解码层在多尺度上下文信息的
5、引导下解码出更加精确和高分辨率的几何信息;最后,将全局优化后的高分辨率代价体送入视差回归模块以获得视差图。实验结果表明:所提算法在K I T T I 2 0 1 5和K I T T I 2 0 1 2数据集上的误匹配率分别降至1.7 6%和1.2 4%,S c e n e F l o w数据集上的端点误差降至0.5 6 p x,与GWC N e t、C P O P-N e t等先进算法相比,所提算法在不适定区域有明显改善。关键词 双目视觉;立体匹配;密度多尺度特征;自适应融合开放科学(资源服务)标识码(O S I D)中图分类号:T P 3 9 1 文献标志码:AD O I:1 0.1 3 3
6、 3 8/j.i s s n.1 6 7 4-6 4 9 x.2 0 2 4.0 1.0 1 6I m p r o v e d s t e r e o m a t c h i n g n e t w o r k b a s e d o n d e n s e m u l t i-s c a l e f e a t u r e g u i d e d c o s t a g g r e g a t i o nZHANG B o,ZHANG M e i l i n g,L I X u e,ZHU L e i(S c h o o l o f E l e c t r o n i c s a n d I
7、 n f o r m a t i o n,X ia n P o l y t e c h n i c U n i v e r s i t y,X ia n 7 1 0 0 4 8,C h i n a)A b s t r a c t T o f u r t h e r i m p r o v e t h e d i s p a r i t y p r e d i c t i o n a c c u r a c y o f s t e r e o m a t c h i n g a l g o r i t h m i n t h e i l l-p o s e d r e g i o n s s u
8、 c h a s r e p e a t i n g t e x t u r e s,n o t e x t u r e,a n d e d g e,a n i m p r o v e d d e n s e m u l t i-s c a l e f e a t u r e g u i d e d a g g r e g a t i o n n e t w o r k(D GN e t)b a s e d o n P S MN e t w a s p r o p o s e d.F i r s t l y,a d e n s e m u l t i-s c a l e f e a t u r
9、 e e x t r a c t i o n m o d u l e w a s d e s i g n e d b a s e d o n t h e d e n s e a t r o u s s p a t i a l p y r a-m i d p o o l i n g s t r u c t u r e.T h i s m o d u l e e x t r a c t e d r e g i o n-l e v e l f e a t u r e s o f d i f f e r e n t s c a l e s b y u s i n g a t-r o u s c o n
10、 v o l u t i o n o f d i f f e r e n t e x p a n s i o n r a t e s,a n d e f f e c t i v e l y f u s e d i m a g e f e a t u r e s o f d i f f e r e n t s c a l e s t h r o u g h d e n s e c o n n e c t i o n,s o t h a t t h e n e t w o r k c a n c a p t u r e c o n t e x t u a l i n f o r m a t i o
11、 n.S e c-o n d l y,t h e i n i t i a l c o s t v o l u m e w a s o b t a i n e d b y c o n c a t e n a t i n g l e f t f e a t u r e m a p s w i t h t h e i r c o r r e-s p o n d i n g r i g h t f e a t u r e m a p s a c r o s s e a c h d i s p a r i t y l e v e l.T h e n,a d e n s e m u l t i-s c a
12、 l e f e a t u r e g u i d e d c o s t a g g r e g a t i o n m o d u l e w a s p r o p o s e d,w h i c h a d a p t i v e l y f u s e d t h e c o s t v o l u m e a n d d e n s e m u l t i-s c a l e f e a t u r e s w h i l e a g g r e g a t i n g t h e c o s t v o l u m e,s o t h a t t h e s u b s e q
13、 u e n t d e c o d i n g l a y e r s c a n d e-c o d e m o r e a c c u r a t e a n d h i g h-r e s o l u t i o n g e o m e t r y i n f o r m a t i o n w i t h t h e g u i d a n c e o f m u l t i-s c a l e c o n t e x t i n f o r m a t i o n.F i n a l l y,t h e h i g h-r e s o l u t i o n c o s t v o
14、 l u m e w i t h g l o b a l o p t i m i z a t i o n w a s i n p u t i n t o t h e r e g r e s s i o n m o d u l e t o o b t a i n t h e d i s p a r i t y m a p.C o m p r e h e n s i v e e x p e r i m e n t a l r e s u l t s d e m-o n s t r a t e d t h a t t h e m i s m a t c h i n g r a t e o f t h
15、 e p r o p o s e d a l g o r i t h m o n K I T T I 2 0 1 5 a n d K I T T I 2 0 1 2 d a t a s e t s w a s r e s p e c t i v e l y r e d u c e d t o 1.7 6%a n d 1.2 4%,a n d t h e e n d p o i n t e r r o r o n S c e n e F l o w d a t a s e t w a s r e d u c e d t o 0.5 6 p x.C o m p a r e d w i t h e
16、x i s t i n g s t e r e o m a t c h i n g a l g o r i t h m s s u c h a s GWC N e t a n d C P O P-N e t,t h e p r o p o s e d a l g o r i t h m p e r f o r m s w e l l i n t h e i l l-p o s e d r e g i o n s.K e y w o r d s b i n o c u l a r v i s i o n;s t e r e o m a t c h i n g;d e n s e m u l t
17、i-s c a l e f e a t u r e s;a d a p t i v e f u s i o n0 引 言 双目立体视觉是计算机视觉领域的重要研究分支之一,该技术基于视差原理恢复物体三维几何信息,在三维重建、自动驾驶、工业检测等诸多领域具有广泛应用。立体匹配是实现双目感知的核心技术,旨在为一对左右视图查找同名像素点。立体匹配方法可分为传统立体匹配方法和基于深度学习的立体匹配方法1。传统立体配方法通常包含匹配代价计算、代价聚合、视差计算和视差优化4个步骤2。一般采用手工设计的特征比较同名点的差异性,缺乏上下文信息,且经验参数的设置存在一定局限性,导致其在无纹理、重复纹理、反射等复杂
18、场景下的匹配效果不尽人意。基于深度学习的立体匹配方法根据是否直接端到端输出视差图被划分为非端到端方法和端到端方法,其中非端到端方法专注于将传统立体匹配方法4个步骤中的某个步骤或某几个步骤用深度神经网络替代,本质上仍旧使用传统方法的框架,未解决视差后处理、图像上下文信息缺乏等问题3。端到端方法以左右视图作为输入,利用深度神经网络的强大学习能力直接学习原始数据而后输出视差图,不需要任何后处理。该种方法在立体匹配任务中呈现出巨大的潜力,研究者们致力于从特征提取、代价聚合等不同角度提升网络性能以获得更加准确的视差估计。图像多 尺 度 特 征 已 被 广 泛 应 用 于 多 种 任 务中4-6。在立体匹
19、配方面,特征提取网络获得的特征图质量直接决定了初始代价体的精度,而饱含丰富上下文信息的图像特征不仅可以驱动网络更好地学习目标对象与其子区域的隶属关系(如汽车与窗户、轮胎等子区域间的关系),还可以动态减小搜索范围,有利于匹配估计。为了捕获上下文信息,文献7 在特征提取阶段引入空间金字塔池化模块(s p a-t i a l p y r a m i d p o o l i n g,S P P)提取不同尺度和不同位置的区域级特征,探索对象和子区域的上下文关系。文献8 提出了一种浅层编码器-解码器结构融合网络不同层的输出,从而获得具有较大感受野和不同级别的多尺度特征,提高特征区分性。文献9 构建具有跳跃
20、连接的类似于U-N e t的编码器-S P P-解码器金字塔特征提取架构,提取多尺度图像特征并合并不同层次的上下文信息,有效增强特征表示。利用左右特征图构建的4 D初始代价体通常缺乏全局信息,在遮挡、无纹理等区域误匹配率较高。为了解决此问题,文献1 0-1 3 提出不同的代价聚合网络对初始代价体进行全局优化。文献1 0 利用3 D编码器-解码器结构聚合代价体,以推理全局场景的几何信息,端到端输出预测视差。在此基础上,文献7,1 1 设计了新颖的堆叠式沙漏结构,学习更多的上下文信息以正则化代价体,展示了出色的匹配效果。文献1 2 基于可变形卷积构建了2种不同的自适应代价体聚合结构,有效利用了多尺
21、度代价体之间的互补关系。为了提高模型性能,文献1 3 将特征提221 西安工程大学学报 第3 8卷取网络获取的图像特征与代价体共同输入至代价聚合网络,利用注意力机制计算初始图像特征的权重激励代价体通道,显著提高视差预测精度。文献7-9 在提取多尺度特征时使用S P P模块,但池化操作损失了空间分辨率,导致其在细节和边缘区域匹配效果不佳;文献7,1 1 在代价聚合时创新性地使用堆叠沙漏结构,虽使精度有一定的提升,但未考虑参考图像特征与代价体之间的交互性。文献1 3 已经意识到图像特征引导代价聚合的重要性,然而该方法通常为代价体与初始图像特征之间建立联系,忽略了多尺度上下文信息。为了充分挖掘图像多
22、尺度特征,同时探索图像多尺度特征和代价体之间的相互作用性,本文提出一种基于P S-MN e t的改进立体匹配网络D GN e t。在特征提取阶段,构建密集多尺度特征提取(D e n s e M u l t i-s c a l e f e a t u r e E x t r a c t i o n,DME)模块捕获包含多尺度信息和语义信息的图像特征,改进用于立体匹配的特征表示;在代价聚合阶段,提出密集多尺度特征引导代价聚合(D e n s e m u l t i-s c a l e f e a t u r e s g u i d e d c o s t a g g r e g a t i o n
23、,D G C A)结构,使代价体在多尺度图像特征的帮助下自适应聚合有效的上下文信息,有利于解码出更加准确的立体几何信息。1 D GN e t立体匹配网络结构D GN e t整体结构如图1所示。该网络主要包括密集多尺度特征提取、密集多尺度特征引导代价聚合以及视差回归3部分。基本流程如下:首先,将标准左右图像输入到具有共享权重的初始特征提取网络获得初始特征图;接着通过密集连接的空洞空间金字塔池化结构(D e n s e A t r o u s S p a t i a l P y r a m i d P o o l i n g,D e n s e A S P P),在扩大特征点感受野的同时获得像素采
24、样密集的多尺度特征以增强特征显著性表示。其次,对含有多尺度信息的左右特征图以像素为单位逐个错位串联构成初始串联代价体,并在改进的代价聚合网络中融合串联代价体和密集多尺度上下文特征,获得高质量的代价体几何信息;最后,通过双线性插值和视差回归获得视差图。图 1 D GN e t结构F i g.1 T h e s t r u c t u r e o f D G N e t1.1 密集多尺度特征提取模块本文基于初始特征提取网络和D e n s e A S P P1 4构建DME模块,初始特征提取网络用于提取初始图像特征,D e n s e A S P P依赖于不同膨胀率的空洞卷积和密集连接方式提取,整
25、合多尺度信息。1.1.1 初始特征提取首先将一对左右视图输入至权值共享的类似于R e s N e t的初始特征提取网络。不同的是,为了获得较大感受野,第一个卷积层使用3个33卷积代替77卷积获得浅层特征,随后经过包含3个残差321第1期 张博,等:一种密集多尺度特征引导代价聚合的改进立体匹配网络块、1 6个残差块、3个残差块、3个残差块的4个残差结构,输出大小为BH/4W/44C的初始特征图f,以此作为D e n s e A S P P结构的输入。其中B是批量大小,H、W分别是左右视图的高和宽,4C是特征通道数1 2 8。1.1.2 密集连接的空洞空间金字塔池化结构D e n s e A S
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 密集 尺度 特征 引导 代价 聚合 改进 立体 匹配 网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。