基于单目视觉的类别级六自由度位姿估计方法.pdf
《基于单目视觉的类别级六自由度位姿估计方法.pdf》由会员分享,可在线阅读,更多相关《基于单目视觉的类别级六自由度位姿估计方法.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 年第 8 期计算机与数字工程收稿日期:2023年2月9日,修回日期:2023年3月21日作者简介:郭凌,女,硕士研究生,研究方向:位姿估计。史金龙,男,教授,硕士生导师,研究方向:计算机视觉。茅凌波,男,硕士研究生,研究方向:机器人抓取。1引言物体6D位姿估计技术具有很高的研究价值,其中6D是指沿X、Y、Z三个直角坐标轴方向的旋转与平移,位姿决定了物体在摄像机中心坐标系下的三维位置与姿态。近年来,该技术在越来越多的领域中发挥着至关重要的作用,如:虚拟现实1、无人机2、智能机器人3等。由于6D位姿估计任务的复杂性,目前主流的方法主要致力于实例级物体的位姿估计46。“实例级位姿估计”是指
2、系统需预先获得目标的CAD模型才能对目标进行位姿估计,与之对应的是“类别级位姿估计”,是指系统可以对已知类别中未知CAD模型的实例估计位姿。目前,已有的不需要 CAD模型的类别级位姿估计技术通常应用于室外场景,文献 78 利用雷达、激光获取深度信息,做到在室外环境下检测行人类与车辆类。然而由于室外场景的天然属性,系统可忽略对于目标在Z轴上的平移与旋转信息,实际上得到的是物体的4D位姿,而对于机器人抓取基于单目视觉的类别级六自由度位姿估计方法郭凌史金龙茅凌波(江苏科技大学计算机学院镇江212000)摘要目前,6D位姿估计技术主要针对实例级别的物体,而对网络预先没有获取精准CAD模型的实例,无法估
3、计其6D位姿信息。针对这一问题,论文提出了一种类别级6D位姿估计的网络框架。首先,进行目标识别与掩膜分割,再通过逐像素预测目标的三维坐标,获取其标准化模型点云;其次,设计了一种单目深度估计网络,再通过三维重建得到实例对象的局部点云;最后,利用局部点云与标准化模型点云配准,计算得到类别级物体的6D位姿信息。实验表明:方法仅通过单张图像就能实现类别级6D位姿信息估计,平均精度达到89.2%。关键词位姿估计;六自由度;类别级;单目视觉中图分类号TP181DOI:10.3969/j.issn.1672-9722.2023.08.019Method for Category-level 6DOF Pos
4、e Estimation Based onMonocular VisionGUO LingSHI JinlongMAO Lingbo(College of Computer Science and Technology,Jiangsu University of Science and Technology,Zhenjiang212000)AbstractCurrently,6D pose estimation techniques mainly target instance-level objects,while 6D pose cannot be estimatedfor which t
5、he network has not acquired accurate CAD models in advance.To address this problem,a network framework for category-level 6D pose estimation is proposed in this paper.Firstly,a target identification and segmentation mask can be obtained.Andpoint cloud of the normalized model can be obtained by per-p
6、ixel predicting the 3D coordinates of the target.Secondly,a monoculardepth estimation network is designed to calculate the depth.The depth information with the segmentation mask is aligned,and thepartial point cloud of the instance object through 3D reconstruction is obtained.Finally,the partial poi
7、nt cloud is registered with thepoint cloud of normalized model to calculate the 6D pose information of the category-level objects.Experiments on real datasetsshow that this method can effectively achieve the category-level 6D pose information estimation of a single image,and the averageaccuracy reac
8、hes 89.2%.Key Wordspose estimation,6 DOF,category-level,monocular visionClass NumberTP181总第 406期2023 年第 8 期计算机与数字工程Computer&Digital EngineeringVol.51No.81787第 51 卷所面对的桌面级别的目标对象,该类方法并不适用。目前现有的方法中,文献 9 利用同类物体3D骨架结构不变性,对给定类别的实例提取的局部特征进行学习,通过图匹配算法提高算法泛化能力,实现类别级物体的位姿估计。NOCS10、CASS11均将同一类别的所有实例规定到统一的形状空间中
9、,从而获得同一类别的模板表示方法,再通过网络训练将实例与类模板匹配,最终回归位姿。然而这几种类别级6D位姿估计算法均要使用深度或点云信息,而这些信息并不总是易于获得的,比如:在增强现实的应用中,普通的平板电脑或手机等硬件设备不具备获取深度信息的能力。对目前的问题总结如下:1)目前位姿估计技术通常针对实例级物体;2)针对类别级物体,主要实现的是室外4D位姿估计;3)在某些场景下深度信息不易获得。鉴于此,本文设计了一种基于单目视觉的类别级6D位姿估计算法,仅利用二维图像对目标进行类别级的识别与检测,并得到类别模型,再融合单目深度估计技术,结合点云配准最终实现对类别级物体估计6D位姿。通过对公共类别
10、级数据集的评估,表明本文提出的方法能在单目情况下具有精准的对物体的检测识别定位能力,且能较好地完成对类级别物体6D位姿估计。2本文方法2.1网络结构图1展示了本文方法的网络结构,该网络结构仅通过输入单张RGB图像,就能实现针对类别级物体的检测识别、实例分割、尺寸估计和6D位姿估计。为更清晰地介绍网络结构,将网络分为三个模块,分别是:图1(a)标准化模型点云生成模块、图1(b)单目深度估计模块、图1(c)位姿估计模块。2.1.1标准化模型点云生成模块该模块结构如图1(a)所示,输入为二维图像,输出为图像中多目标的类别标签、实例分割掩膜和标准化预测模型点云P。“标准化”是指将同一个类别下的所有实例
11、的三维坐标归一化到 1,1,1 的空间中,且将每个实例的方向统一为与ShapeNetCore12数据集中模型相同的方向。标准化模型点云生成模块框架具体描述如下。第一步,输入一张RGB图像,经过一个VGG卷积模块得到特征图;第二步,根据候选区域生成算法(Region Proposal Network,RPN)13得到多个感兴趣区域(Region of Interest,ROI),最终回归ROI候选框,并映射得到ROI特征图。ConvLabel、Bounding BoxMask(a)(c)3DReconstruction2828256102410241414256 2828256282825614
12、142562828N2828N2828NPoint Cloud QROI Align141425677256XYZROI AlignROIRPN28282561414256RegistrationR|TPoint Cloud PAdaptive OutputFeatureFusionInputConvConv33331281DepthRGBResNet-50 FPN(b)图1网络结构郭凌等:基于单目视觉的类别级六自由度位姿估计方法17882023 年第 8 期计算机与数字工程第三步,利用ROI对齐(ROI Align)操作,将多个大小不一的ROI特征图转化为固定尺寸的特征图。第四步,该模块经过
13、三个网络分支最终输出三部分信息:类别与边框、实例掩膜、标准化模型点云P。在三个网络分支中,除全连接层外,卷积核均为33,反卷积核均为22,步长均为2。在预测类别与边框分支中,将 77256的特征图输入全连接层,分别对每一个ROI图像回归类别与边框。在预测实例掩膜分支中,ROI图像对齐后,经过8个连续的卷积,得到1414256的特征图,再通过反卷积得到最终的掩膜。在预测标准化模型点云分支中,经 ROI图像对齐后,分别预测各对象的 X、Y、Z 坐标,输出为 2828N的张量,其中 N为对象个数。最终通过后处理,得到预测的标准化模型点云P。2.1.2单目深度估计模块本文提出的网络结构融合了单目深度估
14、计模型,如图1(b)所示。该模型基于ResNet14架构,首先,将图像进行四次下采样,得到尺寸为原图像1/32的图像;接着,对前四层进行跳跃连接,利用多尺度特征融合(Feature Pyramid Network,FPN)以获得更多层次的语义信息,同时对其进行上采样,直到将其放大到原图像尺寸;最后,利用一个自适应模块得到最终的深度图,该模块由两个通道数分别为128和1的卷积层以及一个双线性插值层组成。2.1.3位姿估计模块该模块结构如图1(c)所示,将2.1.2节中得到的深度图与2.1.1节中得到的实例掩膜对齐,重建后得到目标实例的局部点云Q。具体的深度图转化点云过程如式(1)。XYZ=Z1
15、fx0001 fy0001-x-y1(1)其中,是图像中的像素坐标,Z是深度值,fx、fy分别是相机在x轴与y轴的焦距,xy是图像的中心坐标,XYZ是对应点的三维坐标。根据标准化模型点云P与实例的局部点云Q,利用 Umeyama算法15进行点云配准,具体算法如式(2)。计算一组旋转与平移矩阵 R|T 使目标函数F达到最优。其中R为33的矩阵,T为31的向量。Pm为标准化模型点云上的第 m 个点,Qm为局部点云Q上的第m个点。c为缩放比例,M为点对总数(m=1,2,M)。F=1Mm=1m=MPm-()cRQm+T22(2)2.2损失函数设计2.2.1标准化模型点云生成模块在该模块中损失函数L1如
16、式(3)(7)所示,其中Lcls表示对目标进行标签识别时造成的损失,Lreg表示边框回归时造成的损失,Lmask表示掩膜预测部分造成的损失,Lpre表示预测目标对象在三维空间中的标准化点云时造成的损失。L1=Lcls+Lreg+Lmask+Lpre(3)Lcls()pip*i=-logp*ipi+()1-p*i()1-pi(4)其中pi是预测的目标概率,当预测值为正样本时,p*i=1,当预测值为负样本时,p*i=0。Lreg()tit*i=0.5()ti-t*i2|()ti-t*i0.1(7)其中oi为目标模型的逐像素的三维坐标预测值,o*i为对应的基准值,oiR3,o*iR3。上述公式中i为
17、像素点的索引。2.2.2单目深度估计模块在该模块中对于一张输入图像I,在图像中随机采样K个点对()dkek,损失函数L2用来衡量点对之间的相对距离如式(8),其中K12k。()dkek表示第k个点对,k代表第k个点对的前后顺序关系,k+1-10,分别用来表示ek距离dk“更远”、“更近”、“相同”。z为估计的相对深度。L2()Idkekkz=k=1k=Klog()1+exp-zdk+zekkk0()zdk-zek2k=0(8)3实验与结果3.1实验细节本文实验在 Pytorch中实现了文中所述方法,1789第 51 卷并使用ADAM优化器在Nvidia GPU上训练,型号为GTX-2080Ti
18、。在网络训练阶段,由在COCO数据集上进行2D实例分割任务所得的训练权重对本文模型进行初始化,设置初始学习率为0.001,批大小设置为2。3.2数据集实验在NOCS数据集上完成,该数据集是目前在研究类级别位姿估计领域运用最广泛且数据量最大的数据集,其由两部分组成:1)结合真实世界渲染后的合成数据集;2)拍摄于真实场景的数据集。3.3评价指标本文使用两种维度的评价指标:1)联合交集3D IoU(Intersection over Union)为50%时的平均精度。3D IoU表示真实包围框与网络预测包围框之间的三维重叠部分在二者总区域的占比;2)在规定的旋转、平移误差下的平均精度,旋转误差ER与
19、平移误差ET分别可用式(9)(10)表示,其中Tr表示模型绕中心轴的轨迹,R*为旋转的基准值,R为预测值,T*为平移的基准值,T为与预测值。ER=arccosTr()R*R-12(9)ET=|T*-T2(10)3.4实验结果分析为更模拟实际工业生产环境,选择在真实场景的数据集测试。各类物体在不同阈值的3DIoU下的平均精度如图2(a)所示,3DIoU指标反映了三维检测效果和目标尺寸估计效果。本文算法在3DIoU等于50%时,平均精度达到85.6%。在3DIoU小于50%时,数据集中的笔记本、相机等类别表现出色,由此说明本文方法对于系统未知CAD模型的实例有较好的三维检测效果与目标尺寸估计效果。
20、各类物体在不同阈值的旋转误差、平移误差下的平均精度如图2(b)、(c)所示,该图反映了6D位姿估计效果。当平移误差小于5cm时,平均精度达到 89.2%,旋转误差小于 10时,平均精度达到21.4%。6D位姿估计算法普遍对于平移误差容忍度高,而旋转误差对最终位姿估计结果影响较大。对于瓶子、碗和罐头这类对称的物体类别,算法允许预测的3D包围框围绕对象Z轴自由旋转,而不受惩罚。3.5实验结果对比首先定义一种基准算法,选取Mask R-CNN13来预测目标对象的实例掩模图,再通过与深度图的映射关系得到目标对象的 3D点云,最终利用 ICP算法15对目标对象的点云进行校准,实现实例级6D姿态估计。将本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 目视 类别 自由度 估计 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。