基于改进DeepLabv3 的火龙果园视觉导航路径识别方法.pdf
《基于改进DeepLabv3 的火龙果园视觉导航路径识别方法.pdf》由会员分享,可在线阅读,更多相关《基于改进DeepLabv3 的火龙果园视觉导航路径识别方法.pdf(9页珍藏版)》请在咨信网上搜索。
1、2023年9 月第54卷第9 期农报学业机械doi:10.6041/j.issn.1000-1298.2023.09.004基于改进DeepLabv3+的火龙果园视觉导航路径识别方法周学成1,2肖明玮1梁英凯商枫楠陈桥罗陈迪(1.华南农业大学工程学院,广州510 6 42;2.南方农业机械与装备关键技术教育部重点实验室,广州510 6 42)摘要:针对视觉导航系统应用在火龙果园环境中面临干扰因素多、图像背景复杂、复杂模型难以部署等问题,本文提出了一种基于改进DeepLabv3+网络的火龙果园视觉导航路径识别方法。首先,采用MobileNetV2取代传统DeepLabv3+的主干特征提取网络Xc
2、eption,并将空间金字塔池化模块(Atrousspatialpyramidpooling,A SPP)中的空洞卷积替换成深度可分离卷积(Depthwise separable convolution,D SC),在提升模型检测速率的同时大幅减少了模型的参数量和内存占用量;其次,在特征提取模块处引人坐标注意力机制(Coordinate attention,CA),增强了模型的特征提取能力;最后,通过设计的导航路径提取算法对网络模型分割出的道路掩码区域拟合出导航路径。实验结果表明:改进后的DeepLabv3+的平均交并比和平均像素准确率分别达到95.8 0%和97.8 6%,相较原模型分别提升
3、0.79、0.41个百分点。同时,模型内存占用量只有15.0 MB,和原模型相比降低97.0 0%,与Pspnet和U-net模型相比则分别降低91.57%、91.0 2%。另外,导航路径识别精度测试结果表明平均像素误差为2 2 像素、平均距离误差7.58cm。已知所在果园道路宽度为3m,平均距离误差占比为2.53%。因此,本文研究方法可为解决火龙果园视觉导航任务提供有效参考。关键词:火龙果园;导航路径识别;视觉导航;语义分割;坐标注意力机制;深度可分离卷积中图分类号:TP242.6文献标识码:A文章编号:10 0 0-12 98(2 0 2 3)0 9-0 0 35-0 9OSID:Navi
4、gation Path Recognition between Dragon Orchard Using ImprovedDeepLabv3+NetworkZHOU Xuecheng1,2XIAO MingweilLIANG YingkailSHANG FengnanCHEN QiaoLUO Chendi(1.College of Engineering,South China Agricultural University,Guangzhou 510642,China2.Key Laboratory of Key Technology on Agricultural Machine and
5、Equipment,Ministry of Education,Guangzhou 510642,China)Abstract:Visual navigation has the advantages of low cost,wide applicability and high degree ofintelligence,so it is widely used in orchard navigation tasks.Therefore,how to quickly and accuratelyidentify the navigation path is a key step to ach
6、ieve visual navigation.Aiming at the problems of multipleinterference factors and complex image background in the application of visual navigation system in dragonorchard environment,a visual navigation path recognition method was proposed for dragon orchard basedon improved DeepLabv3+network.Firstl
7、y,the traditional DeepLabv3+backbone feature extractionnetwork was replaced by MobileNetV2 from Xception,and the atrous convolution in atrous spatialpyramid pooling(ASPP)was replaced with depthwise separable convolution(DSC).While improving themodel detection rate,the number and memory footprint of
8、model parameters were greatly reduced.Secondly,coordinate attention(CA)was introduced at the feature extraction module,which was helpfulfor the model to locate and identify road areas.Then,experiments were conducted on a self-built dragonorchard road dataset containing three different road condition
9、s.The results showed that compared with thetraditional DeepLabv3+,the MIoU and MPA of the improved DeepLabv3+were increased by 0.79percentage points and 0.41 percentage points,respectively,reaching 95.80%and 97.86%.Frames persecond(FPS)was increased to 57.89 f/s,and the number of parameters and memo
10、ry footprint werereduced by 92.92%and 97.00%,respectively,to 3.87 10 and 15.0 MB.The recognition results ofthe improved model on the orchard road were verified on the test set,indicating that the model had goodrobustness and anti-interference.In addition,comparing the proposed model with Pspnet and
11、U-net收稿日期:2 0 2 3-0 2-2 4修回日期:2 0 2 3-0 5-0 4基金项目:国家重点研发计划项目(2 0 17 YFD0700602)作者简介:周学成(196 8 一),男,教授,博士,主要从事机器视觉与智能检测研究,E-mail:z x c e m s c a u.e d u.c n农2023年报机36学业械networks,the results showed that the improved models offered significant advantages in detection rate,amount of parameters,and model
12、 size,making them more suitable for deployment to embedded devices.According to the segmentation results of the model,the edge information on both sides of the road wasextracted,the road boundary line was fitted by the least squares method,and finally the navigation pathwas extracted by the angle bi
13、sector line fitting algorithm.The navigation path recognition accuracy wastested in three different road environments,and the test results showed that the average pixel error was 22pixels and the average distance error was 7.58 cm.The road width of the orchard in this test was 3 m,andthe average dis
14、tance error accounted for only 2.53%.Therefore,the research result can provide aneffective reference for the visual navigation task of dragon orchard.Key words:dragon orchard;navigation path recognition;visual navigation;semantic segmentation;coordinate attention;depthwise separable convolution0引言水果
15、产业已成为我国继粮食和蔬菜之后的第3大农业种植产业,我国水果种植面积和产量常年稳居世界首位。尽管我国水果产业已经逐步实现规模化种植,但是机械化采摘程度依然较低,大多仍以人工采摘为主,和发达国家相比存在明显差距。由于果园环境多为半结构化环境,大型机械作业受限,限制了果园机械智能化的发展2 。因此我国迫切需要提高果园机械化、智能化水平,提高生产效率3。视觉导航作为果园机械提升智能化水平的关键技术之一,具有成本低、信息丰富等特点,适用于不规则地块4。而且有效弥补了果园因树叶遮挡、卫星信号弱而无法进行导航的情况5。能够实时准确地识别导航路径是当前国内外学者研究的重点。目前在果园环境下的导航路径识别研究
16、中,研究人员通常将果树树干或者作物行作为获取导航信息的参照物,利用参照物具有的颜色、形态和纹理特征运用传统的图像处理技术提取出导航路径。目前已有针对苹果园6 、黄瓜园7 、橙园【8 、枸杞园9、桃园10 等环境的视觉导航研究。但是,在设施农业、果园等复杂环境中,图像处理算法易受光照、阴影的影响1。而且果园道路属于非结构化道路,无明显道路边界线,传统图像处理算法不能完全适用。近年来随着深度学习技术的不断发展,许多研究人员将深度学习技术应用在导航路径的识别研究中12-15,与传统的语义分割方法相比,基于深度学习的语义分割方法能获取更多、更高级的语义信息来表达图像中的信息16 。SONG等17 利用
17、全卷积网络(FCN)对小麦、地面和背景进行语义分割,进而拟合出导航路径。KIM等18 提出了一种半结构化环境自主路径检测方法实现路径区域分割。YANG等19 提出了一种基于神经网络和像素扫描的可视化导航路径提取方法。韩振浩等2 0 提出了一种基于UNe t 网络的果园视觉导航路径识别方法。以上基于深度学习算法的导航路径识别研究为本研究提供了借鉴。然而在火龙果园导航路径检测识别任务中,果园道路存在的杂草以及掉落的枝条,使得道路的边界信息模糊,增加了导航路径的识别难度。而且大多数研究较少关注模型的部署问题,所提出的网络结构较为复杂,使得模型的参数量大,不利于部署至硬件条件有限的果园视觉导航系统。为
18、此,针对视觉导航应用在果园环境中面临干扰因素多、图像背景复杂、复杂模型难以部署等问题,本文以火龙果园的自然环境为研究对象,提出一种基于改进DeepLabv3+网络的果园视觉导航路径识别方法。本研究选择轻量化的MobileNetV2替换原网络中的主干特征提取网络,并将空间金字塔池化模块(Atrous spatial pyramid pooling,A SPP)中的空洞卷积替换成深度可分离卷积(Depthwise separableconvolution,DSC),以降低模型的复杂度。为了提高模型对道路特征的提取能力,考虑在特征提取模块处引人坐标注意力机制(Coordinate attention
19、,CA);最后利用网络模型生成的道路掩码,得到道路的边界信息并通过最小二乘法拟合道路边界,再运用角平分线算法拟合出导航路径。1材料与方法1.1图像数据获取本研究所需的果园图像数据于2 0 2 2 年7 月采自广州市番禺区火龙果种植园。拍摄设备为英特尔公司生产的D435i深度相机,图像数据通过USB接口传输并保存在计算机内,自动曝光;图像分辨率为1920像素10 8 0 像素,以PNG格式存储,图像采集顿率为30 f/s。数据采集时将深度相机固定在相机支架上,向下倾斜10,拍摄方向为道路正前方。根据研究目标,本文只对果园垄间道路进行图像数据采集,不包括果园地头以及果树行间。为了提高样本的多样性,
20、分别在不同道路条件下共采集原始图像456 幅,如图1所示。1.2果园道路数据集制作通过相机直接获取的原始图像分辨率较高,在37周学成等:基于改进DeepLabv3+的火龙果园视觉导年航路径识别方法第9 期(a)白色地膜覆盖道路(b)黑色地膜覆盖道路(c)无地膜覆盖道路图1火龙果园道路图像示例Fig.1Example of dragon orchard roads训练时会占用过多显存,降低训练速度,同时图像没有语义标签,需要预先进行标注,才能传入神经网络进行训练。为了减少模型训练时间,将456 幅原始图像尺寸等比例缩放为96 0 像素540 像素,再使用像素级标注工具Lableme进行语义标注,
21、标注后的文件以.json格式存储。针对现场采集的数据样本量不足,本文通过几何变换(平移、旋转)与颜色变换(对比度、亮度)进行数据增强。增强后的图像共10 7 4幅,按照8:1:1比例划分为训练集、验证集和测试集。训练集用于训练深度网络模型参数权重;验证集用于训练过程中对模型参数进行调优;测试集用于评估最终模型的泛化能力。2果园道路场景语义分割2.1改进的DeepLabv3+语义分割算法DeepLabv3+网络被称为语义分割网络的新高峰,但也存在不足。首先,为了追求分割精度,选择了网络层数较多、参数量大的Xception作为特征提取网络,同时ASPP模块中采用空洞卷积,使得模型参数量增加,提高了
22、模型的复杂度;另外,这些特点也对硬件提出了更高要求2 1。为了使得移动机器人能够实时准确地识别果园道路,确保该网络模型能够部署在嵌入式设备上,本文针对上述问题对传统的DeepLabv3+网络进行了如下改进:首先,为了减小参数计算量并降低模型的复杂度,将DeepLabv3+模型中原本用于主干特征提取的Xception网络更换成更为轻量级的MobileNetV2。为了增强模型学习特征的表达能力,在主干提取网络输出的高层特征层处添加CA模块。为了提高模型的检测速率,减小内存占用量,将ASPP模块中的空洞卷积替换成深度可分离卷积。改进后的网络结构如图2 所示。2.2轻量化特征提取模块传统的卷积神经网络
23、通过扩充网络深度和广度,提高网络模型准确性,但也存在复杂度高、运行速度慢等问题。MobileNetV2是由谷歌团队在2 0 18年提出的高性能轻量化的卷积神经网络,相对于MobileNetV1而言准确率更高,模型更小2 。MobileNetV2采用一种具有线性瓶颈的残差结构,该模块将输人的低维压缩表示首先扩展到高维并用轻量级深度卷积进行过滤。随后用线性卷积将特征投影回低维表示。最后采用跨连接层将输人特征与输编码器空间金字塔池化模块IxIDSC1xIDSC1x1 ConvMobileNetV2空间系数为6Conv2d3x3DSC输人CA空间系数为123x3DSCbottleneck空间系数为18
24、1-7ImagePooling解码器Upsamplcby4低级特征UpsampleIxl ConvConcat1xl Convby4输出图2改进后的DeepLabv3+网络结构图Fig.2Improved DeepLabv3+network structure diagram农382023年报学机械业出特征相加,从而增加网络的实时性和准确性。为了让MobileNetV2模块能够适用于语义分割,本文对该网络结构做了如下修改:将第1部分用于提取特征的33卷积块以及包含多个深度可分离卷积的中间部分保留,把包含全局平均池化层与特征分类层的第3部分去掉。2.3CA模块注意力机制常用来告诉模型需要更关注哪
25、些内容和哪些位置,已经被广泛使用在深度神经网络中来加强模型的性能。HOU等2 3 为轻量级网络设计提出了新的注意力机制,该机制将位置信息嵌入到了通道注意力中,称为坐标注意力机制(Coordinateattention,CA)。不同于通道注意力将输入通过2 维全局池化转化为单个特征向量,CA将通道注意力分解为两个沿着不同方向聚合特征的1维特征编码过程。这样,可以沿一个空间方向捕获远程依赖关系,同时可以沿另一空间方向保留精确的位置信息。然后,将生成的特征图分别编码,将其互补地应用于输入特征图,以增强关注对象的表示。该模块的结构如图3所示,图中C表示通道数,H表示特征图高度,W表示特征图宽度。输人R
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于改进DeepLabv3 的火龙果园视觉导航路径识别方法 基于 改进 DeepLabv3 火龙 果园 视觉 导航 路径 识别 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。