基于深度学习的动态场景RGB-D SLAM方法研究.pdf
《基于深度学习的动态场景RGB-D SLAM方法研究.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的动态场景RGB-D SLAM方法研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、1引言视觉 SLAM(Simultaneous Localization and Map-ping)是搭载相机的主体在未知环境中运动时利用相机获取信息、估计自身位置并建立周围环境地图的一种方法1。搭载 RGB-D 相机的 SLAM 系统具有体积小、功耗低且性价比高等优点2,因此 RGB-DSLAM 系统已成为当前研究热点之一,广泛应用于自动驾驶、增强现实和移动机器人等领域。传统视觉 SLAM 系统基于静态场景的条件进行自身定位和建图,然而在实际应用中,SLAM 系统通常会面对高动态场景,基于直接法的 LSD-SLAM3、DTAM4和基于特征点的 ORB-SLAM25、PTAM6等算法在这类场景
2、下都存在相机位姿估计精度差的问题。近年来,越来越多的研究人员将深度学习框架与传统视觉SLAM 方法相结合以解决动态场景下的 SLAM 定位精度与建图问题。文献7将 Mask R-CNN 与多视图几何方法结合从而识别动态区域,并使用深度、光度和重投影误差细分静态特征点和动态特征点。基于深度神经网络的视觉 SLAM 方法在动态环境中基本上可以达到实时运行,但容易导致特征点的过度去除,最终导致位姿估计失败。针对上述问题,在此提出一种基于深度学习的动态场景下的 RGB-D 视觉SLAM 算法。基于深度学习的动态场景 RGB-D SLAM 方法研究许丽媛,刘振宇(沈阳工业大学信息科学与工程学院,沈阳 1
3、10870)摘要:为解决传统 RGB-D 视觉 SLAM 方法在动态场景中的错误数据关联等问题,提高位姿估计精度和避免算法性能下降,提出一种适用于动态场景的 RGB-D SLAM 算法。该方法基于深度学习的目标识别算法,对动态目标区域进行检测与分割;使用 k-means 聚类算法对动态区域内的特征点深度值进行聚类;根据聚类结果去除场景中动态目标的特征点,将真实静态特征点用于计算相机位姿,以提高 SLAM 算法在动态场景中的精度和鲁棒性。基于 TUM 数据集对算法进行实验验证,结果表明,所提方法在室内动态场景下不仅定位精度高,而且具有很好的实时性。关键词:视觉 SLAM;深度学习;动态场景;目标
4、检测;聚类DOI:10.3969/j.issn.1002-2279.2023.04.010中图分类号:TP391.41文献标识码:A文章编号:1002-2279(2023)04-0034-04Stduy on Dynamic Scene RGB-DSLAM Method Based on Deep LearningXU Liyuan,LIU Zhenyu(School of Information Science and Engineering,Shenyang University of Technology,Shenyang 110870,China)Abstract:In order t
5、o solve the problems of incorrect data association in dynamic scenes by traditionalRGB-D visual SLAM method,improve the accuracy of pose estimation and avoid the performance degra-dation of the algorithm,an RGB-D SLAM algorithm suitable for dynamic scenes is proposed.Based onthe target recognition a
6、lgorithm of deep learning,the method detects and segments the dynamic targetarea.k-means clustering algorithm is used to cluster the depth values of feature points in the dynamicregion.According to the clustering results,the feature points of dynamic objects in the scene are removed,and the real sta
7、tic feature points are used to calculate the camera pose,so as to improve the accuracy androbustness of SLAM algorithm in dynamic scenes.The experimental results based on TUM data set showthat the proposed method not only has high positioning accuracy,but also has good real-time performancein indoor
8、 dynamic scenes.Key words:Visual SLAM;Deep learning;Dynamic scene;Target detection;Clustering作者简介:许丽媛(1997),女,辽宁省辽阳市人,硕士研究生,主研方向:机器视觉,SLAM 技术。收稿日期:2023-02-02微处理机MICROPROCESSORS第 4 期2023 年 8 月No.4Aug.,20234 期2系统构建与实现2.1整体框架所设计算法的基本思想是:先利用目标检测网络划分出动态和静态区域,然后使用 k-means 聚类算法对深度图动态区域进行聚类,最后根据聚类结果确定并剔除动态区
9、域的真实动态特征点,将剩余特征点用于计算相机位姿的估算。由此提出 SLAM的系统框架如图 1 所示。该系统基于 ORB-SLAM2 的 RGB-D 模式,并在此基础上添加目标检测网络和深度值 k-means 聚类算法。首先,通过目标检测网络确定 RGB 图像中包含动态对象的区域,该区域内不仅包含大量动态特征点,还存在一些静态特征点。然后,对上述动态区域内的所有特征点深度值使用 k-means 聚类算法,细化图像中的动态和静态特征点,根据细化结果剔除真实动态特征点,大幅度提高 SLAM 系统对相机的位姿估计精度。2.2目标检测网络为保证系统的实时性,针对动态环境中移动物体的检测,选用 YOLOv
10、5 的轻量化版本 YOLOv5s 实现动态目标的实时检测。它是 YOLOv5 系列的四种网络结构中速度最快、体积最小的网络,同时还保持了较高精度。网络的目标检测结果如图 2 所示。原始 RGB 图像输入到目标检测网络以后,该网络将一些可能的动态物体(如人、电脑和椅子等)检测出来,并通过边界框给出粗略的动态区域。其中,将第 k 帧的 RGB 图像表示为 Rk。第 k 帧的动态目标检测结果表示为 Tk,如下式所示:式中,ti,Idk、ti,Boxk分别表示 Rk中识别出的第 i 个动态对象及其边界框,tj,Idk则表示 Rk中识别出的第 j 个静态对象;Nk为 Rk检测出的对象总数;Bi,topk
11、、Bi,bottomk、Bi,leftk、Bi,rightk分别表示第 k 帧识别出的第 i 个动态对象边界框的上、下、左、右像素边界线。2.3动态区域的静态特征点识别所设计的基于 k-means 聚类算法识别动态区域静态特征点的步骤可归纳如下:(a)选取 k 个聚类中心,记为 滋1(0),滋2(0),.,滋k(0);(b)计算各特征点深度值与各聚类中心的距离;(c)将每一个特征点的深度值分配到距离最近的聚类中心;(d)计算各个类的特征点深度值的均值,并将其作为新的聚类中心;(e)不断重复步骤(c)和(d),直至损失函数收敛或者迭代次数超过设定阈值。损失函数的形式为:式中,dx代表第 x 个特
12、征点的深度值,cx是 dx所属的簇,滋cx代表簇对应的中心点,S 是特征点总数。损失函数为各个样本距离所属簇中心点的误差平方和。在动态目标检测结果 Tk第 i 个动态对象的边界框ti,Boxk内,动态物体往往占据了该区域的大部分像素,而静态背景只占据边界框内的少部分像素。因此将聚类中心 k 设置为 2 类,将含有特征点深度值样本数量最多的一个类别表示为 Cd,并将此类别中的特征点视为真实动态特征点。将另一类别表示为Cs,并将此类别中的特征点视为真实静态特征点。为消除动态对象对该系统的影响,需准确判断出当前帧的真实动态特征点。本设计联合动态目标检测结果 Tk和深度聚类结果 Cd判断并剔除真实动态
13、特征点。首先,根据目标检测结果确定动态对象的边界框ti,Boxk,并遍历第 k 帧的所有 ORB 关键点 Pk,若ORB 关键点在第 k 帧的第 i 个动态对象的边界框图 2目标检测结果图 1SLAM 系统框架21(,)xSxcxJ cdRGB图像提取ORB特征点目标检测网络动态区域深度图像相机位姿估计ORB-SLAM2 后端框架局部BA回环检测全局BA(1)(2),Box,left,top,right,bottom(,),kkkkkiiiiitBBBB(3)许丽媛等:基于深度学习的动态场景 RGB-D SLAM 方法研究,Id,Box,Id,1kkkkkiijTtttijN 窑35窑微处理机
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于深度学习的动态场景RGB-D SLAM方法研究 基于 深度 学习 动态 场景 RGB SLAM 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。