分销赏收藏举报申诉 / 10

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于改进YOLO v4和ICNet的番茄串检测模型.pdf

基于改进YOLO v4和ICNet的番茄串检测模型.pdf

上传人：自信****多点

文档编号：2256712

上传时间：2024-05-24

格式：PDF

页数：10

大小：6.78MB

《基于改进YOLO v4和ICNet的番茄串检测模型.pdf》由会员分享，可在线阅读，更多相关《基于改进YOLO v4和ICNet的番茄串检测模型.pdf（10页珍藏版）》请在咨信网上搜索。

1、2023年10 月第54卷第10 期农报机械业doi:10.6041/j.issn.1000-1298.2023.10.021基于改进YOLOv4和ICNet的番茄串检测模型刘建航何鉴恒1陈海华2王晓政1翟海滨（1.中国石油大学（华东）海洋与空间信息学院，青岛2 6 6 555；2.中国科学院计算技术研究所，北京10 0 0 94；3.国家计算机网络应急技术处理协调中心，北京10 0 0 2 9）摘要：针对深层神经网络模型部署到番茄串采摘机器人，存在运行速度慢，对目标识别率低，定位不准确等问题，本文提出并验证了一种高效的番茄串检测模型。模型由目标检测与语义分割两部分组成。目标检测负责提取番茄串

2、所在的矩形区域，利用语义分割算法在感兴趣区域内获取番茄茎位置。在番茄检测模块，设计了一种基于深度卷积结构的主干网络，在实现模型参数稀疏性的同时提高目标的识别精度，采用K-means+聚类算法获得先验框，并改进了DIoU距离计算公式，进而获得更为紧凑的轻量级检测模型（DCYO L O v 4）。在番茄茎语义分割模块（ICNet）中以MobileNetv2为主干网络，减少参数计算量，提高模型运算速度。将采摘模型部署在番茄串采摘机器人上进行验证。采用自制番茄数据集进行测试，结果表明，DC-YOLOv4对番茄及番茄串的平均检测精度为99.31%，比YOLOv4提高2.0 4个百分点。语义分割模块的ml

3、oU为8 1.6 3%，mPA为91.8 7%，比传统ICNet的mloU提高2.19个百分点，mPA提高1.47 个百分点。对番茄串的准确采摘率为8 4.8%，完成一次采摘作业耗时约6 s。关键词：番茄串；采摘机器人；深度学习；YOLOv4；I CNe t；采摘模型中图分类号：TP391.4文献标识码：A文章编号：10 0 0-12 98（2 0 2 3）10-0 2 16-0 9OSID:Development of Detection Model for Tomato Clusters Based onImproved YOLO v4 and ICNetLIU JianhangHE Ji

4、anhengCHEN HaihuaWANG XiaozhengZHAI Haibin23(1.College of Oceanography and Space Information,China University of Petroleum(East China),Qingdao 266555,China2.Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100094,China3.National Computer Network Emergency Response Technical Team

5、/Coordination Center of China,Beijing 100029,China)Abstract:For the deep neural network model deployed to embedded devices(such as tomato clusterspicking robots),there are some problems,such as slow running speed,low recognition rate of pickingtargets,inaccurate positioning and so on,an efficient mo

6、del for tomato clusters detection was proposedand verified.The model was composed of two modules:detection and semantic segmentation.Targetdetection was responsible for extracting the rectangular region where the tomato cluster was located,andthen using the semantic segmentation algorithm to obtain

7、the tomato stem position in the rectangularregion.In the tomato detection module,a backbone network based on deep convolution structure wasdesigned to improve the accuracy of crop recognition while realizing the sparsity of model parameters.K-means+clustering algorithm was used to obtain a priori fr

8、ame,and DIoU distance calculationformula was improved to obtain a more compact lightweight detection model(DC-YOLO v4).In thesemantic segmentation module(ICNet),MobileNetv2 was used as the backbone network to reduce theamount of parameter calculation and improve the operation speed of the model.The

9、model was deployedon the tomato clusters picking robot for verification.The self-made tomato data set was used for testing.The results showed that the average detection accuracy was 99.31%on tomato test set,outperformingYOLO v4 by 2.04 percentage points.The mloU and mPA achieved 81.63%and 91.87%on t

10、omatostem set,exceeding ICNet by 2.19 percentage points and 1.47 percentage points,respectively.Theaccurate picking rate of tomato clusters was 84.8%,it took 6s to complete a picking operation.Key words:tomato clusters;picking robot;deep learning;YOLO v4;ICNet;picking model收稿日期：2 0 2 2-0 9-0 1修回日期：2

11、 0 2 2-10-16基金项目：山东省自然科学基金项目（ZR2020MF005）作者简介：刘建航（197 8 一），男，副教授，博士，主要从事人工智能研究，E-mail：l i u j i a n h a n g u p c.e d u.c n通信作者：翟海滨（198 3一），男，高级工程师，博士，主要从事智能信息处理研究，E-mail：z h a i h a i b i n 16 3.c o m217刘建航等：基于改进YOLOv4和ICNet的番茄串检测模型第10 期0引言我国农作物采摘主要以手工为主，采摘工作季节性强、劳动强度大、成本高。随着人工智能和农业机械相互结合，使农作物采摘智能化

12、成为可能，采摘机器人在提高采摘率、推动现代化农业发展等方面具有重要意义2 番茄作为中国种植的主要经济作物，其采收方式分为粒收与串收，串收有着较高的采摘效率，并且串收番茄更容易保存和运输。快速且精确地采摘番茄串是目前串型番茄采摘机器人的重点研究内容。番茄串检测以及番茄茎定位主要通过计算机视觉实现。因此，视觉感知系统的性能直接影响番茄串的采摘率3。文献4 采用颜色分量运算和彩色空间转换实现图像阈值分割和目标特征提取，同时对末端执行器进行了设计，实现了串型番茄的采摘，但采摘时间较长，成熟番茄串果实识别成功率为90%。文献5 借鉴AdaBoost学习算法在人脸识别中的成功应用6-7 ,提出了基于Haa

13、r-like特征及其编码和AdaBoost学习算法的番茄识别方法。实验结果表明，单幅图像的处理时间为15s，正确识别率为93%。文献8 提出使用MaskR-CNN模型对果园中重叠绿色苹果进行识别和分割，将残差网络与密集连接卷积网络相结合作为骨干网络提取特征，对120幅苹果图像进行检测，结果表明，平均检测准确率为97.31%，但由于数据集太少，仍需增加样本集和丰富样本多样性以更具说服力。文献9 使用双目视觉技术对番茄进行识别，根据番茄颜色特征用拟合曲线对番茄分割，并通过双目视觉测量原理计算出番茄的三维坐标，测量误差低于4%，但仍有待进一步优化提升检测精度。文献10 提出一种番茄果实串采摘点识别方

14、法，该方法对垂直向下的番茄果实串采摘点识别效果较好，但不能对其他姿态的番茄果实进行识别。文献11 提出了一种基于改进型YOLO的复杂环境下番茄果实快速识别方法，能够提取多特征信息，模型对番茄检测精度为97.13%。综上，国内外研究人员针对番茄串的识别和定位问题提出的研究方法尚未达到理想的精度和工业级实时性的要求，对多样的特征变化鲁棒性不足。因此，难以满足实际需求。为进一步提高农作物的识别率和采摘率，本文以番茄为研究对象，提出一种视觉感知模型，模型包括检测和语义分割2 个模块，即番茄串检测和番茄茎分割。采用一种基于深度卷积结构的主干网络，取代残差块结构中的普通卷积运算，降低主干网络的计算量，从而

15、获得更为紧凑的主干特征提取网络，通过K-means+聚类算法获得先验框，并改进DIoU距离计算公式，获得更为紧凑的轻量级检测模型（DCYO L O v 4），在实现模型参数稀疏性的同时提高识别精度。将MobileNetv2作为ICNet分割模型的主干网络，以有效减少计算量，达到实时分割效果1材料与方法1.1图像采集番茄数据集、番茄茎数据集采集于黄河三角洲农业高新技术示范园区的设施农业测试验证平台（山东省广饶县）。通过IntelRealSenseD435型深度相机采集番茄样本，图像分辨率为40 32 像素3024像素，如图1a所示，相机安装在末端执行器上方5cm处，通过图1b所示的方式，在移动端

16、遥控机器人进行番茄样本采样，模拟番茄采摘机器人的实际工作场景。（a）深度相机安装位置(b）采摘机器人图1采摘机器人采集番茄样本Fig.1Picking robot collects tomato samples采摘机器人的主要结构如图2 所示，包括机械臂、可移动装置、机器人控制系统、深度相机和末端执行器5部分。默认状态下，末端执行器的安装位置距地面10 cm。3215图2采摘机器人主要结构Fig.2Main structureof picking robot1.末端执行器2.深度相机L3.机械臂4.机器人控制系统5.可移动装置番茄植株种植在桁架上，行距约0.4m，高约2m，为保证数据集样本的多

17、样性，分别采集不同光照强度、不同果实数量、不同拍摄角度的番茄串样本共2 0 0 0 幅，番茄茎样本图像10 0 0 幅。采集的部分番茄样本如图3所示。1.2番茄检测网络1.2.1YOLO目标检测网络番茄采摘机器人的视觉感知模型包括目标检测和语义分割两部分2 。针对番茄检测模型，本文借2023年农218机报学业械（a）混合遮挡的番茄（b）被叶遮挡的番茄（c）番茄间遮挡(d）背光角度(e)逆光角度(f)正常角度图3温室环境下采集的番茄样本Fig.3Tomato samples collected in greenhouse environment鉴YOLO系列的模型结构13,其突出特点是快速和精确

18、。与Two-Stage（如FasterR-CNN）使用Regionproposal区域建议特征提取方式不同，YOLO的工作原理14 如下：对输入图像的全局区域进行训练。利用主干特征提取网络完成番茄样本的特征初次提取。融合加强特征提取网络，增大感受野的同时反复提取特征信息。采用Boundingbox预测方式，预测目标类别、置信度和预测框。YOLO系列网络模型中，YOLOv1存在网络模型检测精度差、目标定位不准确等问题15；YOLOv2中加入了锚框和批量归一化，并通过更改网络模型结构等操作提升了训练模型性能，但不适用于检测目标重叠的情况16 ,YOLOv3中引人了多尺度融合训练、残差结构、改变网络

19、模型结构等操作，使得训练模型性能得到了极大提升，但其主干网络深度达53层且采取了多尺度融合，导致检测速度慢1，YOLOv4本质上继承了YOLOv3的结构，主干网络更改为CSPDarkNet53优化特征提取性能，采用Mish激活函数使梯度下降过程更为平滑，相较于ReLU、Sigmod等激活函数，Mish在处理负值时不会完全截断，保证了特征信息流动18 ，同时加入了更多目前流行的技巧（如Mosaic数据增强、标签平滑、CIOU等）。但实际上，在检测精度和速度方面并没有明显提升，未达到工业级番茄检测的要求，1.2.2改进的YOLOv4网络模型在剖析YOLOv4网络结构的基础上，设计了一个基于深度卷积

20、结构的主干网络，用于对番茄串图像的初步特征提取。深度卷积结构如图4所示。1258335128（a）逐通道卷积滤波器883388（b）逐点卷积滤波器图4深度卷积结构Fig.4Depth convolution structure番茄检测模块由DarkNetBN_Mish模块、主干网络、空间金字塔池化（Spatialpyramidpooling，SPP）、像素聚合网络（Pixel aggregation network,PANet）和YOLOHead构成。如图5所示，将深度卷积结构替换主干网络中Resblock_body的普通卷积，降低主干网络的计算量。1x1Conv3x3DepthwiseCon

21、v1x1 ConvBN3x3ConvReLU1x1 ConvIxlPointwiseConv(a)普通卷积（b）深度可分离卷积图5改进后的Resblock_bodyFig.5Improved Resblock_body基于深度卷积结构的主干网络提取输人图像的特征信息，并将特征信息通过卷积传递到DarkNetConv2D_BN_Mish模块中，对输人图像进行归一化和非线性操作，SPP和PANet负责对特征信息加强提取。深度卷积结构处理3个通道的特征信息，最后，通过卷积核尺寸为113的卷积核将3个通道的属性进行融合，传递给加强特征提取网络。相较于普通卷积，深度卷积结构产生的网络参数少，有效解决了深

22、度学习网络重复学习特征信息造成计算量大的问题，提高了运算速度。网络模型的参数如表1所示。可以看出DCYO L O v 4在参数量、处理速度、模型内存占用量等方面均优于一些主流模型的主干网络。YOLOv4使用K-means设计先验框尺寸，但是它存在预先人为确定k个初始聚类中心的缺点，导致生成的先验框不稳定，难以反映真实框尺寸情况。之后提出的K-means+针对这一问题，进行了一219刘建航等：基于改进YOLOv4和ICNet的番茄串检测模型第10 期表1不同网络模型的主干网络参数Tab.1Backbone network parameters of differentnetwork models

23、模型内存占处理速度/模型参数量用量/MB(fsl)YOLOv460040001244.2924.4MobileNetv3-YOLOv439989933149.0127.8YOLO v5-m21375 64581.5428.6CenterNet32665 432124.6122.4YOLOv61100851541.9930.0DC-YOLOv410.80114941.2032.0系列改进，不再预先人为确定初始聚类中心，具体实现流程如图6 所示。本文采用改进的交并比（GIoU）计算公式，通过引人检测框宽高的比例因子，避免GIoU在某些情况下退化成IoU的问题，改进的GIoU表达式为C-(AUB)G

24、loU=loU-U,(1)C其中WWbbgtmaxhhgt(2)WWgt66minhgtN计算任一样本与随机选取某一点用轮盘法选出下一已选出个开始当前已有聚类作为初始聚类中心个初始聚类中心初始聚类中心？中心点的最短距离LY根据分配好的点，输出最终的个N中心点较上次根据预定义距离公结束重新计算新的k个聚类中心点发生变化?式，分配所有点聚类中心图6K-means+算法流程图Fig.6K-means+aalgorithm flow chart式中WOgi/hgi真实框的宽、高Wbb/hbb预测框的宽、高C-两框最小外接矩形的面积AUB两框并集的面积并将式（1)作为K-means+的距离计算公式，提高

25、了网络预测精度。在网络训练前对数据集进行了聚类处理，共得到9种尺寸的Anchorbox，如图7 所示，其尺寸分别为(18,2 0),(2 8,34),(40,45),(59,50),(45,6 9),（7 5,7 9），（12 6,55），（55,138），（2 6 6,2 95）。相较于K-means聚类结果，采用K-means+得到的锚框拟合程度更好，便于模型的训练。40030022001000100200300400图79种尺寸的聚类中心分布图Fig.7Distribution of cluster centers of nine sizes1.3番茄茎分割网络1.3.1ICNet语义分

26、割网络番茄串检测问题大部分采用传统图像处理与机器学习相结合的方式，会受到图像本身噪声等多种因素的制约，为了解决番茄串检测中的局限性，本文将基于深度学习的语义分割算法应用于番茄串分割领域。ICNet网络模型19 是基于高分辨率图像的实时语义分割网络。它利用处理低分辨率图像的效率以及高分辨率图像的高质量。思路是使低分辨率图像先通过全语义感知网络来取得大概的语义预测图，然后提出级联特征融合单元和级联标签指导策略整合中等和高分辨率特征，这逐渐提炼了粗糙的语义预测图。ICNet的网络架构如图8 所示。它使用PSPNet的金字塔池化模块融合多尺度上下文信息，并将网络结构划分为3个分支，分别为低分辨率、中分

27、辨率和高分辨率。配合ResNet50使用3个分支进行特征融合形式的训练，前2 个分支增加辅助训练，增加模型收敛。对于每个输出特征，在训练时会以真实标签的1/16、1/8、1/4来指导各分支训练，使得梯度优化更加平滑，随着每个分支学习能力的增强，预测没有被某一分支主导。分支1将原图下采样到1/4尺寸，然后经过连续3次下采样降维到原图的1/32，使用空洞卷积层扩展感受野的同时不缩小尺寸，最终输出1/32 原图的特征图。分支1的卷积层数多但特征图尺寸小，速度快，且第2 个分支与第1个分支共享前3层卷积的权值。分支2 将1/2 尺寸的原图作为输人，经过卷积后降维到1/8 原图，得到1/16 尺寸的特征

28、图，再将第1个分支中由低分辨率图像提取出的特征图通过级联特征融合单元得到最终输出。分支3以原图像为输入，经3次卷积后得到原图1/8 尺寸的特征图，再将处理后的输出和分支2农2023年220机报学业械1/161/161/321/321/32（1/4原图）1/8级联标签指导策略1/81/81/161/16(1/2原图）1/41/4CFF1/81/81/41/41/4(原图）1/2级联输人图8ICNet网络结构Fig.8ICNetnetwork structure的输出通过CFF融合。分支3的图像分辨率大，但卷积层数少，耗时较少。ICNet的损失函数是通过构建多分支loss实现，损失函数表达式为TF

29、L1L=-1bNe(3)t=1Y=1x=1FLen,Y,xn=1式中T分支数量，取3中T分支数量，取3分支的特征图尺寸F位置（n，y,x）的值n,y,x相关的真实标签入每个分支的损失权重FL真实标签（n，y，x）的值n,y,x通常，高分辨率分支权重入3设置为1，中分辨率和低分辨率分支的权重入，和入，分别设置为0.4和0.16。1.3.2改进的ICNet语义分割网络在一些经典的深度学习语义分割算法中，主要采用VGG系列或者ResNet系列作为主干特征提取网络，虽然二者都能够提取图像的深层信息，但是对于部署到嵌人式设备上而言，其网络模型的参数量过大，分割速度慢。因此，采用MobileNetv2替换

30、ResNet,取消传统的卷积计算，采用深度卷积以及11的逐点卷积来提取图像特征，可以成倍减少卷积层的时间复杂度和空间复杂度。同时还引人了倒残差结构，先升维后降维，增强梯度的传播，显著减少推理期所需的内存占用量。倒残差结构如图9所示。在残差结构中，首先通过11卷积实现降维，再通过33卷积提取通道特征，最后使用11卷积实现升维。但在倒残差结构中，先通过11卷积实现升维，再通过33的逐通道卷积提取AddConv Ix1,LinearConv 1x1,LinearDwise3x3,Stride为2,ReLU6Dwise3x3,ReLU6Dwise1x1.ReLU6Dwise 1x1,ReLU6Inpu

31、tInputStride为1blockStride为2 block(a)短径(b）无短径图9倒残差结构Fig.9Inverted residuals特征，最后使用11卷积实现降维。调换了降维和升维的顺序，并将33的标准卷积换为逐通道卷积，呈两头小、中间大的菱形结构。其次，改变了之前所采用的激活函数。残差结构中通常采用ReLU激活函数，但是，在倒残差结构中，采用ReLU6作为激活函数，最后1个卷积使用的是线性激活函数。用ReLU6替换ReLU,目的是为了保证在嵌人式设备低精度也能保有很好的数值分辨率。如果对ReLU的输出值不加限制，那么输出范围就是零到正无穷，无法精确描述其数值，这将带来精度损失

32、。ReLU6激活函数如图10 所示。最后1个卷积使用线性激活，则是线性瓶颈结构的内容。瓶颈结构是指将高维空间映射到低维空间，缩减通道数；膨胀层则相反，其将低维空间映射到高维空间，增加通道数。沙漏型结构和梭型结构，都可看做是1个膨胀层和1个瓶颈结构的组合。瓶颈结构和膨胀层本质上体现的都是11卷积。线性瓶颈结构是末层卷积使用线性激活的瓶颈结构。ReLU容易导致逐通道卷积部分的卷积核失活，即卷积核内数值大部分为零，这是因为在变换过程中，需要将低维信息映射到高维空间，再经ReLU重新映射回低维空间。若输出的维度221刘建航等：基于改进YOLOv4和ICNet的番茄串检测模型第10 期相对较高，则变换过

33、程中信息损失较小；若输出的维度相对较低，则变换过程中信息损失很大。因此，末层采用线性激活来避免这一问题76543210-1-10-8-6-4-20246810输人图10ReLU6激活函数Fig.10ReLU6 activation function2网络模型训练与评价指标2.1验证平台主机操作系统为Ubuntu16.04，中央处理器为Intel Core i9-10920X GPU 3.50 GHz,运行内存32GB，显卡为NvidiaQuadroP2200（5CB/戴尔）。神经网络在Anaconda 3虚拟环境下训练，采用Pytorch1.2.0深度学习框架，配置安装Python3.8编程环

34、境、GPU并行计算架构Cuda10.0和神经网络GPU加速库Cudnn10.0。2.2番茄检测网络模型训练采用PASCALVOC2007数据集的预训练权重训练，训练图像分辨率为416 像素416 像素，每个批次处理8 幅图像，总送代次数为10 0 0，前450 次采用冻结训练加快训练速度，训练学习率为0.0 0 1，每迭代10 0 次，学习率降低0.1，后550 次的解冻训练学习率为0.0 0 0 1。可以看出前2 0 0 次代中网络快速拟合，2 0 0 次送代之后损失函数基本稳定，番茄检测网络开始收敛。图11反映了损失函数的变化趋势1.00.9一训练损失验证损失0.80.70.60.50.4

35、0.30.20.1001002003004005006007008009001000送代次数图11目标检测模型训练曲线Fig.11Target detection model training curves2.3番茄串语义分割网络模型训练采用PASCALVOC2007数据集的预训练权重训练，输入图像分辨率为512 像素512 像素，格式为JPG,对应的标签图像格式为PNG,类别数为2，下采样倍数为16，每个批次处理8 幅图像，总迭代次数为50 0，前10 0 次为冻结训练，学习率为0.0 0 0 5，后400次的解冻训练学习率为0.0 0 0 0 0 5。由图12 可以分析出，在前10 0 次

36、迭代中网络快速拟合，10 0 次迭代后损失函数基本稳定，番茄串语义分割检测网络开始收敛。0.20一训练损失验证损失0.150.100.050050100150200250300350400450500送代次数图12语义分割模型训练曲线Fig.12Semantic segmentation model training curves2.4评价标准为了客观分析DCYO L O v 4对番茄数据集以及ICNet模型对番茄串数据集的语义分割性能，本文引人平均交并比（mloU）、准确率（Precision）、召回率（Recall）、平均精度均值（mAP）、综合评价指标（F1值）、类别平均像素准确率（mP

37、A）和检测时间（T i m e）等评价指标。本文的目的是快速准确识别番茄并分割番茄茎，因此把平均交并比、平均精度均值和检测时间作为主要评价指标。利用IoU阈值为0.5的平均精度来测定番茄识别模型的准确性。此度量标准用于测量目标检测器的精度，因为它平衡了精度和召回率。3结果分析3.1番茄检测效果本文设计的检测模块借鉴了YOLO系列的架构，融合了深度卷积结构，因此有必要与传统的YOLO系列算法的番茄识别性能进行对比分析。同时，使用批量为8、尺寸为416 像素416 像素的图像，对经过训练的MobileNet-YOLOv4、YO L O X、YOLOv5-m、YO L O v 6 进行测试和比较，在

38、测试模型中获得的结果存在差异，测试结果如图13所示。DCYO L O v 4模型对番茄和番茄串的识别正确率高于YOLOv4模型，YOLOv4模型深度图中存在大农2023年222机报学业械YOLOv4YOLOXMobileNet-YOLOv4YOLOv5-mCenterNetYOLOv6DC-YOLOv4YOLOv4深度图YOLOX深度图MobileNet-YOLOv5-m深度图CenterNet深度图YOLOv6深度图DC-YOLOv4深度图YOLOv4深度图图13不同检测模型测试效果Fig.13Test results of different test models量噪点，导致其识别精度不

39、足，误检率高。MobileNet-YOLOv4检测模型在实际应用中，对番茄串的识别不敏感，且在深度图中，DCYO L O v 4模型的番茄串轮廓更为光滑。YOLOX模型2 0 1是由旷视科技在2 0 2 1年提出的全新检测模型，DC-YOLOv4模型与YOLOX模型在实际测试中，并无明显区别。YOLOv5-m模型的检测速度快，但丧失了一定的识别准确度，虽然能够获取图像的高级特征，但这些特征具有平移不变性2 1，不利于对目标信息的区域采样。为论证本研究提出的DC-YOLOv4模型的有效性，又与YOLOv5模型系列中最为主流的YOLOv5-m、YO L O v 6 以及CenterNet检测模型比

40、较。YOLOv6模型是美团视觉智能部研发的一款目标检测框架，致力于工业应用。CenterNet模型2 2 是无锚框目标检测器，由于没有复杂的Anchor操作，检测速度优于Two-Stage及预锚框系列，算法性能良好，对小目标检测具有优势【2 3。CenterNet模型只通过FCN（全卷积）的方法实现了对于目标的检测与分类，即使没有Anchor与NMS等操作，它在高效的同时精度也较好。可以将其结构进行简单修改就可以应用到农业场景下的番茄目标检测之中。表2 展示了不同网络模型对番茄串和番茄的检测性能,DC-YOLOv4模型的mAP最大，对于番茄和番茄串的识别准确率及召回率最高，单幅图像预测时DC-

41、YOLOv4模型比YOLOv4模型的mAP高2.04个百分点。比MobileNetv3-YOLOv4模型的mAP高1.0 8 个百分点。原因是卷积层较多，计算量大，检测速度偏慢，神经网络层数过深，因此检测精度较低。与DCYO L O v 4模型相比，CenterNet模型难以对纹理特征进行有效提取,mAP低于DC-YOLOv4模型2.34个百分点，并且检测时间差，不满足工业条件下的实时性要求表2不同识别模型性能比较Tab.2Performance comparison of different recognition models准确率/%召回率/%F1值/%模型mAP/%时间/ms(toma

42、to_c/tomato_g)(tomato_c/tomato_g)(tomato_c/tomato_g)YOLOv492.00/95.9088.46/91.6790/9497.277.62MobileNetv3-YOLOv494.30/94.3093.94/93.9494/9698.236.74YOLOX88.46/91.5188.46/95.1088/9395.695.58YOLO v5-m92.59/97.1896.15/97.6494/9798.037.06YOLO v698.30/97.4198.99/96.2398/9798.976.93CenterNet96.15/93.4896.

43、15/91.9896/9596.9719.00DC-YOLO v498.86/97.5698.48/97.3599/9799.316.32另外，DCYO L O v 4模型的召回率稍低于YOLOv5-m模型与YOLOv6模型，原因是YOLOv5-m模型的Backbone是基于CSPNet搭建的，而YOLOv6模型的Backbone则是引人了RepVGG结构2 4，二者的主干检测网络较为复杂，对于单番茄果实的特征提取能力强。相对于YOLOX模型，虽然DC-YOLOv4模型的检测时间增加0.7 4ms，实时性略低于YOLOX模型，但是检测精度提高3.6 2个百分点。可以看出,DC-YOLOv4模型

44、能同时兼顾实时性和准确性，满足工业条件下采摘机器人的需求。3.2番茄茎分割效果为了更好地展现改进的ICNet模型性能提升的直观效果，本研究还选取目前有代表性的主流语义分割网络DeepLab_v3+2 5、U-Ne t 2 6 和PSPNet27进行实际测试实验。对比实验结果如图14所示，相较于ICNet，改进后的ICNet能够完整分割出番茄茎，较好地保存逐像素点含有的位223刘建航等：基于改进YOLOv4和ICNet的番茄串检测模型第10 期置信息和语义信息，U一Net只能捕捉大致外形，且包含大量噪点，PSPNet缺少分割细节，不能很好地表征目标特征,DeepLab_v3+在实际测试中，效果与

45、改进后的ICNet无明显差异。根据本研究提出的量化指标，结合表3可以得出，改进的ICNet网络与其他网络相比分割性能有了一定的提高，本文提出的改进ICNet网络mloU和mPA分别为81.63%和9 1.8 7%，相较于ICNet模型，mloU和mPA分别提升2.19个百分点和1.47 个百分点；相较于DeepLab_v3+模型，mloU和mPA分别提升7.04个百分点和3.51个百分点；相较于UNe t模型，mloU和mPA分别提升7.7 4个百分点和4.88个百分点；相较于PSPNet模型，mloU和mPA分别提升9.7 1个百分点和4.6 6 个百分点。结果表明，改进ICNet网络相较于

46、其他网络在番茄茎分割上更有优势原图ICNet改进后的ICNetDeepLab_v3+U-NetPSPNet图14不同分割模型测试效果Fig.14Test results of different segmentation models表3不同分割模型性能比较Tab.3Performance comparison of differentsegmentation models模型mloU/%mPA/%时间/msICNet79.4490.408.16DeepLab_v3+74.5988.369.74U-Net73.8986.9912.58PSPNet71.9287.2110.71改进的ICNet8

47、1.6391.878.213.3温室中视觉感知模型验证为了验证本文提出的农作物采摘视觉感知模型在实际应用场景下的性能，将模型部署到山东中科智能农业机械装备创新技术中心自主研发的番茄采摘机器人系统中进行采摘实验。如图15所示，采摘机器人核心组成部件包括众为创造xARM型六轴机械臂、IntelRealSenseD435型深度相机、可移动吊轨以及工控机。图15吊轨采摘机器人Fig.15Rail picking robot在实际应用中，当完成检测任务后，控制系统会给机械臂发送一个前移指令，末端执行器带动RealSenseD435型深度相机向番茄茎大概方位移动，拉近感受视野，使ICNet能够实时分割出视

48、频流数据中的番茄茎。如图16 所示，彩色图中的蓝色掩膜为ICNet模型在视频流中的分割效果，为了满足工程级的实时性要求，采用霍夫变换将其转换为二值图进行处理，加快系统的处理速度。（a）番茄茎掩膜（b）霍夫变换处理后结果图16实际场景中的分割效果Fig.16Segmentation effect in real scene本文共进行了8 0 次采摘实验，由于吊轨采摘机器人每次仅能采摘一串红色番茄，故只统计了红色番茄串的采摘成功率，最终的平均采摘成功率为84.8%RealSenseD435型深度相机检测到番茄串后，会计算并返回感兴趣区域的的中心点，控制系统驱动末端执行器移动到中心点前的10 cm处

49、，经过ICNet模型处理后，得到分割番茄茎，末端执行器会根据计算得到的采摘点进行采摘，最后将采摘的番茄串放人收纳篮中，完成上述采摘流程平均用时6s。影响工作时间的主要原因是番茄茎与背景颜色相近，对于番茄茎的形状特征提取能力差，同时枝叶的遮挡也增加了番茄茎提取的难度。4丝结论（1）番茄和番茄串测试集上的实验结果表明，下转第2 54页）农2023年224机报学业械检测模块对番茄的识别准确率为98.8 6%，召回率为98.48%，F1值为99%，对番茄串的识别准确率为97.56%，召回率为97.35%，F1值为97%，模型平均精度为99.31%，模型平均识别单幅图像需要6.32ms。相比于本研究中选

50、用的一些目标检测对比模型，在性能上有明显的提升,DC-YOLOv4模型的mAP相比于YOLO v4、M o b ile Ne t v 3YO L Ov4、YO L O X、YO L O v 5-m、Ce n t e r Ne t、YO L O v 6 模型提高2.0 4、1.0 8、3.6 2、1.2 8、2.34、0.34个百分点。（2）番茄茎测试集上的实验结果表明，改进的ICNet分割模型对番茄茎的平均召回率为9 1.8 7%，mloU为8 1.6 3%，mPA为91.8 7%，模型平均分割单幅图像需要8.2 1ms，改进的ICNet模型的mPA相比于ICNet、D e e p L a b

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于改进YOLO v4和ICNet的番茄串检测模型基于改进 YOLO v4 ICNet 番茄检测模型

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。