分销赏收藏举报申诉 / 14

立即下载开通VIP

当前位置：首页 > 学术论文 > 毕业论文/毕业设计 > 基于改进YOLOv5和Bytetrack的牦牛跟踪.pdf

基于改进YOLOv5和Bytetrack的牦牛跟踪.pdf

上传人：自信****多点

文档编号：2349439

上传时间：2024-05-28

格式：PDF

页数：14

大小：2.18MB

《基于改进YOLOv5和Bytetrack的牦牛跟踪.pdf》由会员分享，可在线阅读，更多相关《基于改进YOLOv5和Bytetrack的牦牛跟踪.pdf（14页珍藏版）》请在咨信网上搜索。

1、基于改进 YOLOv5 和 Bytetrack 的牦牛跟踪王建文1,张玉安1,朱海鹏1,宋仁德21(青海大学计算机技术与应用系,西宁810016)2(玉树州动物疫病预防控制中心,玉树815099)通信作者:张玉安,E-mail:摘要:目前,我国青藏高原地区的牦牛养殖方式以传统的人工放牧为主.为解决人力养殖方式无法快速跟踪统计牦牛数量的问题,本文提出了一种改进 YOLOv5 和 Bytetrack 的牦牛跟踪方法,以实现在视频输入情况下快速检测跟踪牦牛.采用基于深度学习的 YOLOv5 目标检测网络,结合 CA 注意力、跨尺度特征融合和空洞卷积池化金字塔等优化方法,减少牦牛检测中因遮挡而导致检测

2、难度大、误检漏检的问题,实现对视频中牦牛更精确的检测;使用 Bytetrack 跟踪器通过卡尔曼滤波和匈牙利算法实现帧间目标关联,并为目标匹配 ID;使用 ImageNet 中的部分牦牛数据和青海玉树地区采集的牦牛样本图像来训练模型.实验结果表明:本文改进模型的平均检测精确度为98.7%,比原 YOLOv5s、SSD、YOLOX 和 FasterRCNN 模型分别提高 1.1、1.89、8.33、0.4 个百分点,能快速收敛,检测性能最优;改进的 YOLOv5s 和 Bytetrack 跟踪结果最优,MOTA 提高了 7.1646%.本研究改进的模型能够更加快速准确地检测和跟踪统计牦牛,为青海

3、地区畜牧业的智慧化发展提供技术支持.关键词:牦牛;目标检测;注意力机制;SwinTransformer;多目标跟踪;Bytetrack引用格式:王建文,张玉安,朱海鹏,宋仁德.基于改进 YOLOv5 和 Bytetrack 的牦牛跟踪.计算机系统应用,2023,32(11):4861.http:/www.c-s- Tracking Based on Improved YOLOv5 and BytetrackWANGJian-Wen1,ZHANGYu-An1,ZHUHai-Peng1,SONGRen-De21(DepartmentofComputerTechnologyandApplicatio

4、ns,QinghaiUniversity,Xining810016,China)2(YushuPrefectureAnimalDiseasePreventionandControlCenter,Yushu815099,China)Abstract:Atpresent,theyakbreedingmethodintheQinghai-TibetPlateauregionofChinaismainlybasedontraditionalmanualgrazing.Tosolvetheproblemthathumanbreedingmethodscannotquicklytrackandcountt

5、henumberofyaks,animprovedYOLOv5andBytetrackyaktrackingmethodisproposedinthisstudytoachievethefastdetectionandtrackingofyaksundervideoinput.TheYOLOv5objectdetectionnetworkbasedondeeplearning,combinedwithoptimizationmethodssuchascoordinateattention,cross-scalefeaturefusion,andatrousspatialpyramidpooli

6、ngpyramid,isadoptedtoreducethedifficultyofdetectionandmisdetectioncausedbyocclusioninyakdetection,soastoaccuratelydetectyaktargetsinvideos.TheBytetracktrackerisusedtoimplementtheinter-frameobjectassociationthroughKalmanfilteringandHungarianalgorithm,andtheIDsarematchedtothetargets.Themodelistrainedb

7、yusingpartoftheyakdatainImageNetDatasetandyaksampleimagescollectedfromtheYushuregionofQinghai.Theexperimentalresultsshowthattheaveragedetectionaccuracyoftheimprovedmodelproposedinthisstudyis98.7%,whichis1.1,1.89,8.33,and0.4percentagepointshigherthantheoriginalYOLOv5s,SSD,YOLOX,andFasterRCNNmodels,re

8、spectively.Itcanconvergequicklyandhasthebestdetectionperformance.TheimprovedYOLOv5sandBytetracktrackingresultsare计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(11):4861doi:10.15888/ki.csa.009306http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:青海省科技计划(2020-QY-218);国家现

9、代农业产业技术体系(CARS-37);青海省“昆仑英才高端创新创业人才”收稿时间:2023-04-28;修改时间:2023-05-29;采用时间:2023-06-28;csa 在线出版时间:2023-09-19CNKI 网络首发时间:2023-10-0748专论综述SpecialIssuethebest,withMOTAincreasedby7.1646%.Theimprovedmodeldevelopedinthisstudycandetectandtrackyaksmorequicklyandaccurately,providingtechnicalsupportfortheintelli

10、gentdevelopmentofanimalhusbandryintheQinghairegion.Key words:yak;objectdetection;attentionmechanism;SwinTransformer;multi-objecttracking;Bytetrack牦牛作为我国高寒地区的特色畜牧业品种之一,主要分布在青藏高原地区.其产业规模呈现上升态势,中国的牦牛产量约占世界产量的 95%左右1.牦牛养殖业逐步成为青海省的支柱性产业和区域特色优势产业,以牦牛和藏羊养殖为主的现代畜牧养殖业已经成为当前乡村振兴战略的重要驱动力.高效发展牦牛养殖业对畜牧经济的可持续性发展和

11、增加农牧民群众经济收入有着重要作用.以青海玉树地区为例,大多数牧民的牦牛养殖规模达到上百头,牧场区域面积大,传统的放牧方式难以快速准确地跟踪计数牦牛数量,人力投入多且管理效率较低.而计算机图像处理技术与畜牧业的结合,可实现快速检测和跟踪统计牦牛数量,提高畜牧业生产效率的同时,推动畜牧业向着更加科技化的方向发展.目前,国内外学者们已经将深度卷积神经网络算法应用于动物检测和跟踪中.文献 2 提出一种基于视频数据的牦牛统计方法,使用分辨率高的牦牛视频,人工设计牦牛检测的外观特征信息,结果表明模型的泛化能力不是很好.文献 3 利用 YOLOv3 检测猫、老鼠和鸟类等动物,检测平均精度为 75.2%.文

12、献 4 利用生成对抗网络模型,检测野生动物的夜间红外图像,使检测精确度得到提升.文献 5 将 RFID 技术应用到动物检测和跟踪管理中,它把 RFID 标签固定在动物身上,这种方法虽然提升了统计精度,但损害动物福利,且标签容易受到外界干扰而脱落,无法大范围展开应用.文献 6 提出一种基于参数迁移策略的再训练源模型的方法,用神经网络检测识别水产动物,检测精度为97.4%.文献 7 通过改进 YOLOv3 进行猪脸检测识别,模型检测精度有一定的提升,但是仍存在小目标检测边界定位不准的问题.文献 8 提出 Siamese-FC 算法,将全卷积网络嵌入到跟踪算法中,提升了跟踪效果和检测速度.文献 9

13、提出 Siamese-RPN 算法,通过结合Siamese 跟踪算法和 RPN 网络,将多尺度测试跟踪任务转变为 one-shot 检测任务.文献 10 提出基于 YOLOv4_tiny 的网络模型,通过结合迁移学习和权重加权使模型能在数据集较少时提高检测精度,但平均精度为61.18%.文献 11 提出一种基于 SSD 的网络模型,利用 DenseNet-169 网络提取特征,然后联合训练中心损失函数和归一化指数来加快模型的收敛速度,但降低了模型的检测准确率.上述算法的应用可以提高检测准确率,并且在不同的应用场景下都取得了较好的性能表现.然而,这些方法仍然存在一些问题,如模型泛化能力不足、计算

14、量大、检测速度慢和误检漏检率高等缺点.因此,本文通过改进 YOLOv5 和 Bytetrack 算法,实现快速检测和跟踪统计牦牛,在兼顾推理速度和跟踪准确度的同时,提高模型的泛化能力,帮助牧民更加高效的监测牦牛,为牦牛养殖业的可持续发展和乡村振兴提供有力支持.1实验数据 1.1 目标检测数据集本研究将牦牛目标检测定义为二分类问题,简化了原 YOLOv5 网络对 80 类物体进行分类检测的问题.数据集来源于 ImageNet 数据集12的部分图像和在青海省玉树藏族自治州使用 GoPro8 拍摄的牦牛视频数据.处理视频数据时,保留 80%的牦牛躯干出现在视野中的视频段.利用 FFmpeg 工具将视

15、频分割为图片,筛选去除帧间相似度过高的图片,得到牦牛样本图像 3164张,使用 Labelimg 工具标注得到 3164 个 XML 文件.为了提升模型泛化能力,使用随机旋转、裁剪、平移、镜像、增加噪点和调整亮度的数据增广技术,扩充牦牛检测数据,增强后得到 19704 张图片.其中,对图像进行随机旋转可以扩大数据集的规模,以获得理想的训练效果;改变图像的色调和亮度可以模拟光照情况变化对图像的干扰,在一定程度上消除光环境的影响13.然而,增强后的样本数据中背景重复率高,如果全部用于学习,会降低训练速度,且容易导致模型过拟合.故本研究设计两种实验方案.实验 1:从数据集中抽取 7020 张图片做消

16、融实验,用于测试各模块对模型性能的影响.按照比例 7:1.5:1.5 随机划分为训练2023年第32卷第11期http:/www.c-s-计算机系统应用SpecialIssue专论综述49集、验证集和测试集.其中训练集 4900 张,验证集和测试集各 1060 张.实验 2:抽取全部数据的 80%用于训练以评估模型的整体性能.数据集划分和实验 1 相同,其中训练集 11034 张,验证集和测试集各 2364 张.每个图像样本按顺序编号,训练集和验证集的样本编号互斥.部分数据集图片如图 1 所示.图 1牦牛目标检测部分数据集 1.2 跟踪评价数据集为了全面评估跟踪算法在实际放牧环境下

17、的性能,选取 10 段不同条件下的视频段,记为 video0110.每段视频的时长均在 10s 以上,分辨率为 1920 像素1080 像素.数据集包含牦牛活动频繁与较少场景、目标拥挤与稀疏场景.使用 Darklabel 软件标注,得到10 个 CSV 文件,内容包括所有帧中实际牦牛的 ID、位置和大小等信息,用来评估跟踪算法的准确度和鲁棒性.2YOLOv5 2.1 算法结构及原理YOLO(youonlylookonce)14最初由 Redmon 等提出.相比于 FasterRCNN15算法的两阶段检测,YOLO接收整张图片作为输入,经过推理后直接输出目标框位置、类别信息和检测置信度大小.YO

18、LOv5 有 4 个版本的检测网络,分别是 YOLOv5s,YOLOv5m,YOLOv5l和 YOLOv5x1618.其中最小、最浅的是 YOLOv5s,其余 3 种都是在此基础上不断加深加宽的.YOLOv5s 模型文件大小只有 14.1MB,计算参数少,故本文选择在此基础上进行改进和提升,以达到更好的训练效果.YOLOv5s 网络由 4 个通用模块组成,分别是输入端(Input),骨干网络(Backbone),Neck 网络和 Head 预测输出层.Input:通常包括图像预处理操作,如将图像缩放到适应网络的输入大小并进行归一化处理等.该模块使用包括随机缩放、裁剪和排布等操作的 Mosaic

19、数据增强方式,以此提高模型的预测精度.此外,YOLOv5使用一种自适应锚框计算方法来减少冗余信息并加快网络的训练速度.Backbone:实质上是卷积神经网络,用于在不同图像粒度上提取特征.YOLOv5s 网络使用 Focus 和 CSP结构.Focus 结构的关键操作是切片,例如将 443 的特征图经过切片后,尺寸变成 2212.值得注意的是,YOLOv5s 网络中的 Focus 结构使用 32 个卷积核进行卷积操作,而其他 3 种网络的卷积核数量均有所增加.计算机系统应用http:/www.c-s-2023年第32卷第11期50专论综述SpecialIssueYOLOv5s 中

20、有两种 CSP 结构,CSP1_X 位于骨干网络中,CSP2_X 位于 Head 预测输出层.在骨干网络中加入 CSP,可以增强网络的学习能力,降低计算复杂度,使网络更轻量化,同时提高查准率.Neck:位于骨干网络和预测输出层之间,用于加工特征信息.该模块使用特征金字塔网络(featurepyramidnetwork,FPN)19和路径聚合网络(pathaggregationnetwork,PANet)20多尺度的融合特征,结构如图 2 所示.FPN 是自顶向下的,通过上采样向低层传递高层的强语义特征,增强特征金字塔的语义信息.PANet 则相反,是自底向上的,通过下采样融合低层特征和高层特征

21、,以增强高层特征的定位信息.经过 FPN 和 PANet融合的特征,不同尺寸的特征图都包含图像的语义信息和位置信息,以此保证对不同尺寸图片的准确预测.(a)FPN backbone(b)Bottom-up with augmentation(c)Adaptivefeature pooling(d)Box branch(e)Fully-connected fusionP5N5N4N3N2P4P3P2ClassBoxMask图 2FPN 和 PANet 的网络架构Head:输出目标检测结果.该层沿用之前 YOLOv3的检测头.对于不同的网络结构,输出层的分支个数不尽相同,但通常都包含一个分类分支和

22、一个回归分支.2.2 模型的改进与优化针对原 YOLOv5s 模型在牦牛检测任务上误检漏检率高、小目标检测效果不好等问题,通过改进其骨干网络和 Neck 网络,实现更精确的牦牛检测.改进的YOLOv5s 网络如图 3 所示.在骨干网络中加入改进的SwinTransformer 模块,并使用空洞空间卷积池化金字塔(atrousspatialpyramidpooling,ASPP)以多比例提取图片的上下文信息,增强网络对小目标的检测效果.颈部使用双向特征金字塔网络跨尺度融合特征图,通过增加同层级网络间的跳转连接,以保留原始节点的未融合信息;同时加入改进的协同注意力(coordinateattent

23、ion,CA)机制,以获取较多的远程依赖关系.在预测输出层,从上到下分别是融合特征图的 1/8、1/16、1/32、1/64 倍下采样后的特征信息.使用二元交叉熵计算置信度损失(obj_loss)和分类损失(cls_loss)、EIoUloss(efficientintersectionoverunion)计算定位损失,采用非极大值抑制算法筛除冗余目标框.改进普通卷积模块的激活函数为 FReLU(funnelReLU).相较于 SiLU,FReLU 有更快的收敛速度、更好的泛化能力和稀疏性,同时减少计算量,从而提高模型的鲁棒性.FReLU=max(0,x)+min(a(xm)(1)xam其中,

24、表示输入,和为可学习的参数.2.2.1D-STB 模块Transformer21是一种基于自注意力机制的深度神经网络模型,在计算机视觉领域应用广泛.基于 Trans-former 的网络模型在目标检测领域取得了显著的性能提升,因为它能提取图像的全局信息并关注重要的区域.但在像素级别上进行预测的视觉任务的自注意力计算复杂度是图像大小的二次方,这限制了 Transformer在高分辨率图像处理任务中的应用.而 SwinTransfor-mer22有效解决了 Transformer 的应用缺陷,它将自注意力计算限制在窗口区域内,并允许跨窗口进行信息交互.因此,本研究中在 YOLOv5s 骨干网络添

25、加 SwinTransformerblock(STB),以此增强骨干网络的特征提取能力.2023年第32卷第11期http:/www.c-s-计算机系统应用SpecialIssue专论综述516406403C3CoNFk1,s1,p0,c64ConcatCoNFk1,s1,p0,c64CoNFk1,s1,p0,c128CoNFk6,s2,p2,c64P1CoNFk3,s2,p1,c128P2CoNFk3,s2,p1,c256P3C3CoNFk1,s1,p0,c128ConcatCoNFk1,s1,p0,c128CoNFk1,s1,p0,c256CoNFk3,s2,p1,c512P4

26、C3CoNFk1,s1,p0,c256ConcatCoNFk1,s1,p0,c256CoNFk1,s1,p0,c512CoNFk3,s2,p1,c768P5C3CoNFk1,s1,p0,c384ConcatCoNFk1,s1,p0,c384CoNFk1,s1,p0,c768CoNFk3,s2,p1,c1024P6ASPPCoNFk1,s1,p0,c512ConcatCoNFk1,s1,p0,c512CoNFk1,s1,p0,c1024D-STBc1024CoNF,dilation-rate=12k3,s1,p12,c512CoNF,dilation-rate=6k3,s1,p6,c512CoN

27、F,dilation-rate=18k3,s1,p18,c512ConcatCoNFk1,s1,p0,c1024RF:11RF:1313RF:2525RF:3737Pool 11UpsampleConv2dk1,s1,p0,c512CoNFC3ConcatCoNFk1,s1,p0,c768CoNFk1,s1,p0,c768CoNFk1,s1,p0,c768CoNFk1,s1,p0,c768P6CoNFk1,s1,p0,c512UpsampleBiFPN_ConcatUpsampleBiFPN_ConcatC3ConcatCoNFk1,s1,p0,c512CoNFk1,s1,p0,c512CoN

28、Fk1,s1,p0,c512CoNFk1,s1,p0,c256UpsampleBiFPN_ConcatCABottleNeckConcatCoNFk1,s1,p0,c256CoNFk1,s1,p0,c256CoNFk1,s1,p0,c2563CoNFk3,s2,p0,c256BiFPN_ConcatCABottleNeckConcatCoNFk1,s1,p0,c512CoNFk1,s1,p0,c512CoNFk1,s1,p0,c5123CoNFk3,s2,p0,c512BiFPN_ConcatCoNFk3,s2,p0,c768BiFPN_ConcatCoNFk1,s1,p0,c1024CoNF

29、k1,s1,p0,c1024CABottleNeckConcatCoNFk1,s1,p0,c10243CoNFk1,s1,p0,c768CoNFk1,s1,p0,c768CABottleNeckConcatCoNFk1,s1,p0,c7683Conv2dk1,s1,p0Conv2dk1,s1,p0Conv2dk1,s1,p0Conv2dk1,s1,p0BottleNeck 13BottleNeck 16BottleNeck 19BottleNeck 13BottleNeck 13BottleNeck 23BottleNeck 23BottleNeck 1CoNFk1,s1,p0,cCoNFk3

30、,s1,p0,cCoNFk1,s1,p0,cCoNFk3,s1,p0,cBottleNeck 2CoNFConvBNFReLU01234567891011121314261516171819202122232425272829303132CoNFk1,s1,p0,cCoNFk3,s1,p0,cCABottleNeckhwchwchwchwConv2dk1,s1,p0,cBatchNrom2dh_swishConv2dk1,s1,p0,cConv2dk1,s1,p0,cAttentionAdaptive Max Pool2dAdaptive Max Pool2dCA-MCA-MD-STBCA-M

31、CA-M图 3改进的 YOLOv5s 网络模型结构图SwinTransformer 网络结构如图 4 所示.首先,输入为 HW3 的图像会被传入图块分割层(patchpartition),该层将每个大小为 MM 的像素块划分为一个图块,并在通道方向展开,从而将图像维度变为H/4,W/4,48.接下来,线性嵌入层对通道数做线性变换,将图像维度进一步变为 H/4,W/4,C,然后将其输入 STB 进行自注意力计算,提取图像特征.模块的输出将成为下一阶段的输入.阶段 24 的操作相同,先使用图块拼接层(patchmerging)将上一个阶段的输出特征图中相邻的大小为 MM 的窗口合并,然后将结果送入

32、 STB 构建分层特征图.其中,图块拼接层实现下采样和维度变换.SwinTransformer 在每个阶段间使用图块拼接(patchmerging)实现图像下采样来构建分层特征图,如图 5 所示.当对特征图进行 4或 8的下采样时,图像被分割成多个小尺寸的图块.然后将图块输入到计算机系统应用http:/www.c-s-2023年第32卷第11期52专论综述SpecialIssueSTB 中提取特征.考虑到模型可能存在过度参数化问题而导致模型过拟合,故在 STB 模块的残差连接层后添加一层 DropBlock 层,对卷积层提取的特征图中移除相邻区域,以此提高模型的泛化能力,使卷积神经

33、网络可以更好地提取有用信息.同时减少模型参数量,降低模型的计算复杂度.实验结果表明使用 block_size=7 时可以获得最佳准确度.改进的 STB 结构(D-STB)如图 6(a)所示,由 4 个 LN 层、1 个 W-MSA(windowsmulti-headself-attention)层、1 个 SW-MSA(shiftedwindowsmulti-headself-attention)层、2 个二层的多层感知机(multilayerperceptron,MLP)、4 个zl1 zl zl zl残差连接层和 4 个 DropBlock 层组成.其中,W-MSA和 SW-MSA 交替组

34、成基于窗口的 multi-head 自注意力模块.输入到 D-STB 的特征先经过 LN 层进行归一化,然后将结果送入 W-MSA 层提取特征.接着进行残差层和 DropBlock 层计算得到,然后再次归一化后输入到 1 个使用 GELU 非线性激活函数的MLP 中做通道维度的线性变换,最后通过残差连接层和 DropBlock 层得到经过 W-MSA 处理的输出特征.把输入到包含 SW-MSA 层的相似模块中计算23.D-STB 引入了残差连接层,以解决神经网络的退化问题.HW3图块分割层图块拼接层图块拼接层图块拼接层线性嵌入层SwinTransformer模块2SwinTransforme

35、r模块2SwinTransformer模块2SwinTransformer模块6Stage 1Stage 2Stage 3Stage 4H4W448H4W4CH8W82CH16W164CH32W328C图 4SwinTransformer 网络架构图分类classification分割 segmentation检测 detection1684图 5SwinTransformer 构建的分层特征图窗口 Multi-head自注意力层滑动窗口 Multi-head 自注意力层窗口 Multi-head自注意力层滑动窗口 Multi-head自注意力层Multi-head 自注意力Multi-hea

36、d 自注意力层组合窗口组合窗口分割窗口分割窗口反向循环移位循环移位多层感知机多层感知机标准化层标准化层标准化层输出图像标准化层输入图像ztztztzt+1zt+1zt1DropBlock 层DropBlock 层DropBlock 层DropBlock 层(a)DropBlock+Swin Transformer block(D-STB)结构图(b)W-MSA 和 SW-MSA结构图图 6SwinTransformer 模块结构D-STB 中的 W-MSA 和 SW-MSA 结构如图 6(b)所示.其中,W-MSA 包括分割窗口(windowpartition)、2023年第32卷第11期ht

37、tp:/www.c-s-计算机系统应用SpecialIssue专论综述53组合窗口(windowreverse)和 MSA 计算.分割窗口是指将特征图从左上角像素划分为多个 MM 的互不重叠的独立窗口.组合窗口用于将 W-MSA 计算的特征拼接还原为完整的 multi-head 自注意力特征图.MSA用于在窗口内部进行 multi-head 自注意力计算,使计算复杂度与图像大小成线性关系,从而降低模型的训练成本.但也隔绝了窗口间的信息交互,从而导致全局特征缺失的问题.SW-MSA 通过移位操作解决了该问题,它将原本不相邻的像素点组成独立窗口计算 MSA,实现跨窗口间的信息传递,SW

38、-MSA 窗口移位如图 7所示.第 L 层第 L+1 层执行自注意力的窗口图像块图 7SW-MSA 中的窗口移位方法2.2.2ASPP 金字塔空洞卷积也叫扩张卷积或膨胀卷积,其原理是在卷积核元素之间填充一些空格(零)来扩大卷积核感受野,以此来获取图像更多的特征信息.改进的 YOLOv5s网络中存在池化采样操作,导致部分特征信息丢失.同时 SwinTransformer 在进行 4和 8倍率下采样时,相较于 VisionTransformer 一直不变的 16倍率下采样,会使卷积核感受野变小;且在 D-STB 提取特征时,使用 DropBlock 层移除了特征图的部分信息.而空洞卷积通过在不同尺

39、度下使用不同的空洞卷积核来获取上下文信息,得到不同尺寸的特征图.这样就可以在不增加网络参数的情况下增大卷积核感受野来提取更多的全局特征,同时不丢失空间分辨率,保持像素点的空间位置不变.对于空洞数为 d 的膨胀卷积,卷积结果为:S(i,j)=mnIi+m(d+1)+1,j+n(d+1)+1K(m,n)(2)K(d+1)K+1d+1d其中,为当前卷积核大小,等价于一个新的卷积核,为膨胀比.该卷积核的首行、首列、尾行、尾列权重均是零,每间隔个像素点的权重非零,否则权重为零.ASPP 结构如图 8 所示,对输入特征图使用 6、12、18 扩张率(dilationrate)的多个并行空洞卷积层并行采样

40、.同时,经过 11 的池化层、11 的卷积层和上采样后,将得到的特征图连接到一起扩大通道数.最后使用 11 的卷积将通道数降低到预期的数值.注意要谨慎选择扩张率,因为过大的扩张率可能会产生无意义的权重.InputConv33Conv33,dilation-rate=6Conv33,dilation-rate=12Conv33,dilation-rate=18Pool 11Conv11UpsampleConcatConv11Output全局感受野rate=6rate=12rate=18RF:11RF:1313RF:2525RF:3737图 8空洞空间卷积池化金字塔结构图2.2.3跨尺度特征融合目

41、标检测查准率的高低受特征图信息表达多样性的影响,融合多尺度特征是提高准确率的重要手段.YOLOv5 使用 FPN+PANet 实现高层语义信息和低层细节信息的交流.为了进一步增强多尺度信息的融合能力,本研究借鉴了双向特征金字塔网络(bi-directionalfeaturepyramidnetwork,BiFPN)24的结构优势,并将其思想迁移到 YOLOv5s 的特征融合网络中,结构如图 9计算机系统应用http:/www.c-s-2023年第32卷第11期54专论综述SpecialIssue所示.通过添加同一层级的输入和输出结点之间的跳跃连接,使同层网络的特征图可以互相共享特征

42、信息,增强了特征图表达的多样性.P5P4P3P2BiFPN图 9跨尺度特征融合模块结构图2.2.4CA-M 注意力为了提高神经网络的检测性能,注意力机制被广泛应用.然而,考虑到 SE(squeeze-and-excitationnetwork)25注意力仅关注构建通道之间的依赖关系,忽略了位置信息.CBAM(convolutionalblockattentionmodule)26注意力引入大尺度的卷积核提取空间特征,但普通卷积操作只能提取局部空间关系,无法获取大范围空间依赖关系.此外,大多数注意力机制的计算开销较大.鉴于本文待检测数据的目标是牦牛,其中部分目标较大且分布疏密不均.为了增强网络对

43、牦牛特征提取的能力,本文引入“协同注意力机制”27.该机制的核心思想是将候选框的位置信息编码到信道注意力中,避免二维池化将特征张量转化为单个特征向量而造成信息丢失,进而使网络可以关注大范围的位置信息.考虑到牦牛有较多显著的特征,如牦牛头大、肩部隆起、耳朵较小、黑色犄角等,原 CA 注意力的全局平均池化可以有效减少参数量,但无法提取上述显著特征.因此,为了帮助网络更好地捕捉牦牛的显著特征,改进后的 CA 注意力用全局最大池化层替换全局平均池化层.改进的 CA-M 注意力结构如图 10 所示.先将输入的特征分解为两个一维特征,分别沿着 x 和 y 方向聚合特征进行全局最大池化操作.这样在捕获一个空

44、间方向远程依赖关系的同时,获得另一个方向的位置结构信息.具体地,高度 h 处的第 c 通道的输出为:zhc(h)=max0iWxc(h,i)(3)同理,宽度 w 处的第 c 通道的输出为:zwc(w)=max0j0.5 的,mAP0.5:0.95 表示在不同 IoU 阈值(从 0.5 到 0.95,步长为 0.05)上的平均.mAP=ni=1AP(i)n(10)4.2.2目标跟踪评价指标MOTAIDF1RecallGTFNFPS本实验采用多目标跟踪基准31中使用的指标来评价牦牛跟踪算法的性能,其中包括衡量单摄像头下多目标跟踪准确度的指标(multipleobjecttrackingaccura

45、cy)、识别分数(identificationF1-score)、召回率、实际目标框数量、未命中目标总数和帧率.MOTA=1t(FNt+FPt+IDSWt)tGTt(11)IDF1=2IDTP2IDTP+IDFP+IDFN(12)IDR=IDTPIDTP+IDFN(13)tFPIDSWIDIDSW IDTPIDFPIDFNIDIDID其中,为时间索引,为误检数量.表示目标被遮挡再次被检测到时,如果发生变化,则定义为发生一次.、分别代表真正数、假正数和假负数.4.3 实验结果与分析4.3.1目标检测本文实验在 YOLOv5s 网络的基础上,添加具有4 个检测尺度的检测层,其将更低层级的特征图引入

46、到特征融合网络中,使网络能捕获更丰富的细粒度特征,从而提高牦牛检测精度.消融实验结果如表 1 所示,其中“CA”是指使用原 CA 模块替换颈部的部分 C3 模块;“CA-M”是指使用本文改进的 CA 注意力替换颈部的部分 C3 模块;“跨尺度特征融合”是指使用本文的跨尺度特征融合模块替换原特征融合网络;“STB”是指在骨干网络中加入原 SwinTransformer 模块;“D-STB”是指在骨干网络中加入改进的 SwinTransformer 模块.表 1消融实验结果对比ModelF1-score(%)Precision(%)Recall(%)mAP0.5(%)mAP0.5:0.95(%)参

47、数量(M)模型大小(MB)YOLOv5s9090.490.593.870.87.0214.3YOLOv5s+CA9290.892.89577.27.1514.8YOLOv5s+CA-M9293.391.295.782.27.1214.7YOLOv5s+STB9089.490.492.668.17.2815.0YOLOv5s+D-STB9190.191.793.381.27.2515.0YOLOv5s+D-STB+CA-M9293.591.396.284.17.4015.4YOLOv5s+D-STB+CA-M+跨尺度特征融合9393.393.396.583.112.8426.4本文改进模型949

48、4.793.496.983.221.0842.92023年第32卷第11期http:/www.c-s-计算机系统应用SpecialIssue专论综述57由表 1 可知,YOLOv5s 网络模型的参数量为 7.02M、模型大小为 14.3MB,YOLOv5s+CA 模型的参数量为7.15M、模型大小为 14.8MB.保持参数量和模型大小在较小范围内变化时,YOLOv5s+CA 模型相比 YOLOv5s的精度提升了 0.4%,召回率提升 2.3%,说明 CA 注意力机制可以有效提升牦牛的检测精度.对比 YOLOv5s+CA-M 和 YOLOv5s+CA 模型可知,在 CA 注意力中将全

49、局平均池化层替换为全局最大池化层后,可以更好地帮助网络提取牦牛的显著特征,使检测精确度提升2.5%.YOLOv5s+STB 模型比 YOLOv5s 的检测性能低,本文认为 STB 在构建分层特征图时进行 4和 8下采样时卷积核感受野变小,网络无法提取足够多的全局特征信息,且它提取的是图像初步的、细节性的信息,特征表达单一,导致检测精确度下降.但对比 YOLOv5s+STB和 YOLOv5s+D-STB 模型可知,在加入 DropBlock层后,网络的检测精确度提升 0.7%,因为 DropBlock 层随机移除特征图的相邻区域,从而提升了模型的泛化性能,且加入 DropBlock 层后,减少了

50、模型的参数量,从而降低了模型部署的硬件要求.YOLOv5s+D-STB+CA-M比 YOLOv5s+D-STB 模型的精确度提升 3.4%,平均检测精度 mAP0.5 提升 2.9%.YOLOv5s+D-STB+CA-M+跨尺度特征融合模型相比 YOLOv5s 模型,精确度提升 2.9%,召回率提升 2.8%.本文模型比 YOLOv5s 的精确度提升 4.3%,召回率提升 2.9%,平均精确率 mAP0.5 提升 3.1%,它具备 SwinTransformer 强大的特征提取能力;空洞空间卷积池化金字塔多比例的提取图像上下文信息,且不丢失空间分辨率;跨尺度特征融合更有效的融合来自 D-STB

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于改进 YOLOv5 Bytetrack 牦牛跟踪

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。