基于目标检测和语义分割的视觉SLAM算法.pdf
《基于目标检测和语义分割的视觉SLAM算法.pdf》由会员分享,可在线阅读,更多相关《基于目标检测和语义分割的视觉SLAM算法.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于目标检测和语义分割的视觉 SLAM 算法徐春波,闫娟,杨慧斌,王博,吴晗(上海工程技术大学 机械与汽车工程学院,上海 201620)摘要:目前多数视觉同步定位与建图(VSLAM)算法基于静态场景设计且未考虑场景中的动态物体,然而现实场景中存在的动态物体会造成视觉里程计的特征点误匹配,影响 VSLAM 系统定位与建图精度,降低其在实际应用中鲁棒性。针对室内动态环境,提出一种基于 ORB-SLAM3 主体框架的 VSLAM 算法(RDTS-SLAM)。利用改进的YOLOv5目标检测与语义分割网络对环境中的物
2、体进行精准快速分割,同时将目标检测结果与局部光流法相结合准确识别动态物体,并对动态物体区域内的特征点进行剔除,仅使用静态特征点进行特征点匹配以及后续的定位与建图。在 TUM RGB 数据集和真实环境数据上的实验结果表明,相较于 ORB-SLAM3 和 RDS-SLAM 算法,RDTS-SLAM 算法对于 walking_rpy 序列的轨迹估计均方根误差分别降低了 95.38%和 86.20%,可以显著提高VSLAM 系统在动态环境中的鲁棒性和准确性。关键词:视觉同步定位与建图;目标检测;语义分割;YOLOv5网络;局部光流法开放科学(资源服务)标志码(OSID):中文引用格式:徐春波,闫娟,杨
3、慧斌,等.基于目标检测和语义分割的视觉 SLAM 算法 J.计算机工程,2023,49(8):199-206,214.英文引用格式:XU C B,YAN J,YANG H B,et al.Visual SLAM algorithm based on target detection and semantic segmentation J.Computer Engineering,2023,49(8):199-206,214.Visual SLAM Algorithm Based on Target Detection and Semantic SegmentationXU Chunbo,YAN
4、 Juan,YANG Huibin,WANG Bo,WU Han(School of Mechanical and Automotive Engineering,Shanghai University of Engineering Science,Shanghai 201620,China)【Abstract】Currently,most Visual Simultaneous Localization And Mapping(VSLAM)algorithms are based on static scene design and do not consider dynamic object
5、s in a scene.However,dynamic objects in an actual scene cause mismatches among the feature points of the visual odometer,which affects the positioning and mapping accuracy of the SLAM system and reduce its robustness in practical applications.Aimed at an indoor dynamic environment,a VSLAM algorithm
6、based on the ORB-SLAM3 main framework,known as RDTS-SLAM,is proposed.An improved YOLOv5 target detection and semantic segmentation network is used to accurately and rapidly segment objects in the environment.Simultaneously,the target detection results are combined with the local optical flow method
7、to accurately identify dynamic objects,and the feature points in the dynamic object area are eliminated.Only static feature points are used for feature point matching and subsequent positioning and mapping.Experimental results on the TUM RGB dataset and actual environment data show that compared to
8、ORB-SLAM3 and RDS-SLAM algorithms,the Root Mean Square Error(RMSE)of trajectory estimation for sequence walking_rpy of RDTS-SLAM algorithm is reduced by 95.38%and 86.20%,respectively,which implies that it can significantly improve the robustness and accuracy of the VSLAM system in a dynamic environm
9、ent.【Key words】Visual Simultaneous Localization And Mapping(VSLAM);target detection;semantic segmentation;YOLOv5 network;local optical flow methodDOI:10.19678/j.issn.1000-3428.00655220概述 视觉同步定位与地图构建(Visual Simultaneous Localization And Mapping,VSLAM)是指机器在未知环境中通过视觉传感器(如单目相机、RGB-D 相机和深度相机)进行自身位姿估计和环境地
10、图构基金项目:上海市企事业单位委托项目(19)JQ-009)。作者简介:徐春波(1997),男,硕士研究生,主研方向为计算机视觉、智能控制;闫 娟,副教授、硕士;杨慧斌,实验师、硕士;王 博、吴 晗,硕士研究生。收稿日期:2022-08-16 修回日期:2022-09-20 Email:图形图像处理文章编号:1000-3428(2023)08-0199-08 文献标志码:A 中图分类号:TP391.412023年 8月 15日Computer Engineering 计算机工程建1。随着机器人技术的发展,VSLAM 已成为计算机视觉、自动驾驶、增强现实、机器人、无人机等领域的研究热点2。VSL
11、AM 根据视觉里程计计算方法的不同可分为直接法(如 LSD-SLAM3和 DSO4)和特征点法(如 ORB-SLAM5和 PTAM6)。直接法是基于光度不变假设,通过两帧图像之间的像素灰度值构建最小化光度误差来求解相机位姿并进行地图构建7。特征点法是基于特征点进行匹配,通过最小化重投影误差来求解相机位姿并进行稀疏地图构建8。文献3提出一种基于直接法的大尺度单目SLAM 算法(LSD-SLAM),LSD-SLAM 可以构建大尺度的全局一致性的环境地图,不仅可以通过直接图像配准对位姿进行估计,而且能够将三维环境地图实时重构为姿态图和对应的半稠密深度图。文献4提 出 一 种 基 于 稀 疏 直 接
12、法 的 视 觉 里 程 计(DSO),DSO 是少数完全使用直接法计算视觉里程计的系统之一,但是由于 DSO 并不包含回环检测线程和位姿图优化线程,因此它会产生无法消除的累计误差。文献 9-10 提出一种将特征点法和直接法相结合的半直接视觉里程计(SVO),SVO支持鱼眼、透视和双目相机,可以生成轻量级、全局一致性的环境地图。文献 6 提出的并行跟踪与建图算法(PTAM)是较 早 将 跟 踪 和 建 图 独 立 为 两 个 线 程 的 一 种 单 目VSLAM 算法,选择特征加速分段测试方法(FAST)作为特征提取的方法来实现跟踪和建图,提高了SLAM 的实时性。文献 11 提出的 ORB-S
13、LAM3 系统是 ORB-SLAM 系列的最新版本,该系统通过匹配当前帧和前一帧之间的 ORB12特征来估计相机的运动轨迹,ORB-SLAM3是基于特征的紧耦合的 VIO系统,仅依赖于最大后验估计,同时也是一个支持视觉、惯导和混合地图的多源 SLAM 系统。传统的特征点法容易受到环境中运动物体的干扰导致特征点数量不足和特征点错误匹配的问题。为了解决上述问题,使 SLAM 系统在动态环境中具有更好的应用,众多专家学者开始研究如何利用深度学习技术来提高 SLAM 系统的鲁棒性,其中通过深度学习技术对环境中动态特征点进行检测和剔除在 VSLAM 中的研究较为广泛。文献 13 提出一种基于 ORB-S
14、LAM2 的面向动态环境的语义 VSLAM方法,该方法在 ORB-SLAM 系统中添加了语义分割模块,以减少动态物体对系统的影响。文献 14 提出的 Dyna-SLAM 方法同样是基于 ORB-SLAM2 进行的改进,该方法在 ORB-SLAM 系统中添加了动态目标检测模块,利用实例分割和多视图几何的方法对动态区域特征点进行提取和剔除,但是该方法对算力要求较高,无法满足机器人 SLAM 系统轻量化和实时性的要求。文献 15 提出的 DDL-SLAM 在传统 SLAM 系统中添加了动态对象分割和背景绘制模块,它能够利用语义分割和多视图几何来检测移动物体,同时利用静态场景图在背景被移动物体遮挡的情
15、况下绘制背景。文献 16 提出一种用于动态室内环境的视觉语义 SLAM 算法(OFM-SLAM),该算法首先使用 Mask R-CNN 网络17检测潜在的运动对象,将光流法18与 Mask R-CNN 相结合进行动态特征点的剔除,但是使用光流法对全局图像进行计算 的 计 算 量 较 大 且 非 常 耗 时,无 法 满 足 机 器 人SLAM 系统的实时性要求。文献 19 提出一种基于ORB-SLAM3 和语义分割的实时动态 SLAM 算法(RDS-SLAM),该算法在 ORB-SLAM3 系统中添加了语义线程和基于语义的优化线程,但是其基于语义的剔除原则,容易造成特征点过度剔除或漏剔除,例如根
16、据语义原则,静止中的人会被剔除,而运动中的椅子不会被剔除。综上所述,目前针对动态场景设计的 SLAM 算法虽然可以识别并移除部分动态特征点,但是仍然存在计算量过大、应用场景要求高、不具备实时性等问题。为了在满足实时性的前提下提高 VSLAM 系统在高动态环境下的鲁棒性和精度,本文提出一种基于 ORB-SLAM3 主 体 框 架 的 VSLAM 算 法(RDTS-SLAM),可同时进行目标检测和语义分割,并准确剔除动态特征点。1RDTS-SLAM 总体框架 在实际应用场景中,一般都存在移动的物体,而移动的物体会造成特征点匹配错误。因此,如何确保特征点匹配的正确性是需要考虑的首要问题。目前,ORB
17、-SLAM3 是较为完善、在各种环境中都有 突 出 性 能 的 开 源 VSLAM 系 统 之 一20。因 此,RDTS-SLAM 采用 ORB-SLAM3 的主体框架作为自身框架的主体结构,主要有三大线程,分别是跟踪线程、局部建图线程和回环检测线程,改进部分集中 于 跟 踪 线 程。RDTS-SLAM 系 统 框 架 如 图 1所示。跟踪线程负责对每帧图像之间的 ORB 特征点进行跟踪和计算,主要任务是对当前帧的位姿进行优化21。首先,对原始 RGB 图像进行 ORB 特征提取,同时利用改进的 YOLOv5 网络对 RGB 图像进行目标检测和语义分割。接着,利用局部光流法对动态物体进行识别,
18、对图像中动态物体区域内的特征点进行剔除,仅保留静态特征点。然后,依次进入局部地图跟踪阶段和新关键帧生成阶段。最后,将生成的新关键帧添加到关键帧集合。局部建图线程的主要任务是对局部地图进行构建22。首先,将跟踪线程中生成的新关键帧插入局部地图。接着,对地图点进行筛选,剔除不必要的地图点。然后,使用过滤后的地图点进行局部位姿优化。最后,进入局部关键帧筛选阶段,对冗余关键帧进行剔除。200第 49卷 第 8期徐春波,闫娟,杨慧斌,等:基于目标检测和语义分割的视觉 SLAM 算法回环检测线程的主要任务是利用所有关键帧的信息进行关联检测,寻找关联错误,并依据全局关系进行位姿校正23。首先,进行回环检测,
19、利用 Sim3算法进行计算,筛选相似关键帧。然后,进入闭环修正过程,主要进行闭环融合和图优化。最后,对全局位姿进行优化。2改进的跟踪线程 2.1改进的 YOLOv5网络为了准确识别动态物体,提出一种简单高效的前馈网络,它可以对每帧图像同时进行目标检测和语义分割任务。同时,由于 SLAM 系统是移植到移动机器人上进行应用,而目前移动机器人 CPU 和GPU 的性能并不是十分强大,因此选取业界公认的兼顾轻量化和精确性的 YOLOv5网络24作为主体框架网络。图 2 为基于 YOLOv5 的目标检测与语义分割网络框架,该网络包含一个共享的编码器和两个后续的解码器来完成目标检测和语义分割任务。下面分别
20、对改进的 YOLOv5 网络的各部分(包括编 码 器、解 码 器 和 损 失 函 数)和 训 练 范 式 进 行介绍。2.1.1 编码器改进的 YOLOv5 网络全局共用一个编码器,该编码器由一个 Backbone 网络25和一个 Neck 网络组成。下面分别对这两个部分进行介绍:1)Backbone网络。该网络利用骨干网络提取输入目标的特征。为了实现深度学习网络的轻量化,使用 YOLOv5 的 Backbone 特征提取网络作为目标检测和图像分割网络的骨干网络。该网络可以解决其他大型卷积网络结构中存在的重复梯度问题,并减少模型参数量和 FLOPS。这有助于在减小模型规模的同时保证推理速度和准
21、确率。2)Neck 网络。该网络由一系列混合和组合图像特征的网络层组成,主要包括两个模块,分别是在空间金字塔池化(Spatial Pyramid Pooling,SPP)模块基础上改进的快速空间金字塔池化(Spatial Pyramid Pooling-Fast,SPPF)模块和特征金字塔网络(Feature Pyramid Network,FPN)模块。SPPF 生成不同尺度的特征,然后进行融合。FPN 对不同语义层次的特图 1RDTS-SLAM 系统框架Fig.1Framework of RDTS-SLAM system图 2目标检测和语义分割网络框架Fig.2Framework of t
22、arget detection and semantic segmentation network2012023年 8月 15日Computer Engineering 计算机工程征进行融合,可使生成的特征包含多个尺度和多个语义层次的信息。本文采用串联的方式对特征进行融合。2.1.2 解码器由于需要同时完成目标检测和语义分割这两个任务,因此改进网络的解码器需要两个头,分别是检测头和分割头。1)检测头。与 YOLOv5 类似,采用基于锚点的多尺度检测方法。首先,利用 FPN 自顶向下传递语义特征,同时通过路径聚合网络(Path Aggregation Network,PAN)自底向上传递定位特征
23、,将 FPN 和PAN 这两个模块进行组合,可以获得较优的特征融合效果。然后,直接使用 PAN 中的多尺度融合特征图进行检测,同时在网络每次训练数据集前,利用内嵌 的 K-means 算 法 自 动 计 算 该 数 据 集 最 适 合 的Anchor尺寸,并生成带有类概率、对象得分和包围框的最终输出向量。2)分割头。图像分割头采用与上述检测头相同的网络结构。分割分支与检测分支共用 FPN 底层,其大小为(W/8,H/8,256),其中,W 表示图像水平方向上的像素数,H 表示图像垂直方向上的像素数。经过 3次上采样后输出特征图,其大小为(W,H,2),同时上采样层使用最近插值法来减少计算成本。
24、这可以在具有高推理速度的同时获得高精度的输出。2.1.3 损失函数由于改进的 YOLOv5 网络中有两个解码器,因此损失函数包含两个部分,分别是检测损失Ldet和分割损失Lseg。检测损失是分类损失Lclass、目标损失Lobj和边框损失Lbox的加权和,如式(1)所示:Ldet=1Lclass+2Lobj+3Lbox(1)其中:1、2、3为可调参数;Lclass和Lobj是焦点损失,焦点损失减少了简单示例的损失,并加强了对纠正错误分类示例的重视;采用 GIoU_Loss 作为边框损失的损失函数,即Lbox=LGIoU,解决了传统 IoU 存在的不重合和重合面积相等的问题。分割损失Lseg采用
25、交叉熵损失Lce,可使网络输出像素与目标之间的分类误差最小化。总之,网络的最终损失是检测损失和分割损失的加权和,如式(2)所示:Lall=1Ldet+2Lseg(2)其中:1、2为可调参数,能对总损失进行平衡调节。2.1.4 训练范式采用交替优化算法来逐步训练模型:1)训练编码器和检测头;2)冻结训练好的编码器和检测头,只训练分割头;3)通过整个网络的训练来完成目标检测和语义分割两个任务。在各步骤中,模型只对单个或具有相关关系的多个任务进行训练,这样可以降低训练复杂度,提高训练速度。算法 1 模型训练算法输入 目标神经网络R输入参数:=enc,det,seg,训练集T,收敛阈值 tc,损失函数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 目标 检测 语义 分割 视觉 SLAM 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。