基于改进YOLOv5和Bytetrack的牦牛跟踪.pdf
《基于改进YOLOv5和Bytetrack的牦牛跟踪.pdf》由会员分享,可在线阅读,更多相关《基于改进YOLOv5和Bytetrack的牦牛跟踪.pdf(14页珍藏版)》请在咨信网上搜索。
1、基于改进 YOLOv5 和 Bytetrack 的牦牛跟踪王建文1,张玉安1,朱海鹏1,宋仁德21(青海大学计算机技术与应用系,西宁810016)2(玉树州动物疫病预防控制中心,玉树815099)通信作者:张玉安,E-mail:摘要:目前,我国青藏高原地区的牦牛养殖方式以传统的人工放牧为主.为解决人力养殖方式无法快速跟踪统计牦牛数量的问题,本文提出了一种改进 YOLOv5 和 Bytetrack 的牦牛跟踪方法,以实现在视频输入情况下快速检测跟踪牦牛.采用基于深度学习的 YOLOv5 目标检测网络,结合 CA 注意力、跨尺度特征融合和空洞卷积池化金字塔等优化方法,减少牦牛检测中因遮挡而导致检测
2、难度大、误检漏检的问题,实现对视频中牦牛更精确的检测;使用 Bytetrack 跟踪器通过卡尔曼滤波和匈牙利算法实现帧间目标关联,并为目标匹配 ID;使用 ImageNet 中的部分牦牛数据和青海玉树地区采集的牦牛样本图像来训练模型.实验结果表明:本文改进模型的平均检测精确度为98.7%,比原 YOLOv5s、SSD、YOLOX 和 FasterRCNN 模型分别提高 1.1、1.89、8.33、0.4 个百分点,能快速收敛,检测性能最优;改进的 YOLOv5s 和 Bytetrack 跟踪结果最优,MOTA 提高了 7.1646%.本研究改进的模型能够更加快速准确地检测和跟踪统计牦牛,为青海
3、地区畜牧业的智慧化发展提供技术支持.关键词:牦牛;目标检测;注意力机制;SwinTransformer;多目标跟踪;Bytetrack引用格式:王建文,张玉安,朱海鹏,宋仁德.基于改进 YOLOv5 和 Bytetrack 的牦牛跟踪.计算机系统应用,2023,32(11):4861.http:/www.c-s- Tracking Based on Improved YOLOv5 and BytetrackWANGJian-Wen1,ZHANGYu-An1,ZHUHai-Peng1,SONGRen-De21(DepartmentofComputerTechnologyandApplicatio
4、ns,QinghaiUniversity,Xining810016,China)2(YushuPrefectureAnimalDiseasePreventionandControlCenter,Yushu815099,China)Abstract:Atpresent,theyakbreedingmethodintheQinghai-TibetPlateauregionofChinaismainlybasedontraditionalmanualgrazing.Tosolvetheproblemthathumanbreedingmethodscannotquicklytrackandcountt
5、henumberofyaks,animprovedYOLOv5andBytetrackyaktrackingmethodisproposedinthisstudytoachievethefastdetectionandtrackingofyaksundervideoinput.TheYOLOv5objectdetectionnetworkbasedondeeplearning,combinedwithoptimizationmethodssuchascoordinateattention,cross-scalefeaturefusion,andatrousspatialpyramidpooli
6、ngpyramid,isadoptedtoreducethedifficultyofdetectionandmisdetectioncausedbyocclusioninyakdetection,soastoaccuratelydetectyaktargetsinvideos.TheBytetracktrackerisusedtoimplementtheinter-frameobjectassociationthroughKalmanfilteringandHungarianalgorithm,andtheIDsarematchedtothetargets.Themodelistrainedb
7、yusingpartoftheyakdatainImageNetDatasetandyaksampleimagescollectedfromtheYushuregionofQinghai.Theexperimentalresultsshowthattheaveragedetectionaccuracyoftheimprovedmodelproposedinthisstudyis98.7%,whichis1.1,1.89,8.33,and0.4percentagepointshigherthantheoriginalYOLOv5s,SSD,YOLOX,andFasterRCNNmodels,re
8、spectively.Itcanconvergequicklyandhasthebestdetectionperformance.TheimprovedYOLOv5sandBytetracktrackingresultsare计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(11):4861doi:10.15888/ki.csa.009306http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:青海省科技计划(2020-QY-218);国家现
9、代农业产业技术体系(CARS-37);青海省“昆仑英才高端创新创业人才”收稿时间:2023-04-28;修改时间:2023-05-29;采用时间:2023-06-28;csa 在线出版时间:2023-09-19CNKI 网络首发时间:2023-10-0748专论综述SpecialIssuethebest,withMOTAincreasedby7.1646%.Theimprovedmodeldevelopedinthisstudycandetectandtrackyaksmorequicklyandaccurately,providingtechnicalsupportfortheintelli
10、gentdevelopmentofanimalhusbandryintheQinghairegion.Key words:yak;objectdetection;attentionmechanism;SwinTransformer;multi-objecttracking;Bytetrack牦牛作为我国高寒地区的特色畜牧业品种之一,主要分布在青藏高原地区.其产业规模呈现上升态势,中国的牦牛产量约占世界产量的 95%左右1.牦牛养殖业逐步成为青海省的支柱性产业和区域特色优势产业,以牦牛和藏羊养殖为主的现代畜牧养殖业已经成为当前乡村振兴战略的重要驱动力.高效发展牦牛养殖业对畜牧经济的可持续性发展和
11、增加农牧民群众经济收入有着重要作用.以青海玉树地区为例,大多数牧民的牦牛养殖规模达到上百头,牧场区域面积大,传统的放牧方式难以快速准确地跟踪计数牦牛数量,人力投入多且管理效率较低.而计算机图像处理技术与畜牧业的结合,可实现快速检测和跟踪统计牦牛数量,提高畜牧业生产效率的同时,推动畜牧业向着更加科技化的方向发展.目前,国内外学者们已经将深度卷积神经网络算法应用于动物检测和跟踪中.文献 2 提出一种基于视频数据的牦牛统计方法,使用分辨率高的牦牛视频,人工设计牦牛检测的外观特征信息,结果表明模型的泛化能力不是很好.文献 3 利用 YOLOv3 检测猫、老鼠和鸟类等动物,检测平均精度为 75.2%.文
12、献 4 利用生成对抗网络模型,检测野生动物的夜间红外图像,使检测精确度得到提升.文献 5 将 RFID 技术应用到动物检测和跟踪管理中,它把 RFID 标签固定在动物身上,这种方法虽然提升了统计精度,但损害动物福利,且标签容易受到外界干扰而脱落,无法大范围展开应用.文献 6 提出一种基于参数迁移策略的再训练源模型的方法,用神经网络检测识别水产动物,检测精度为97.4%.文献 7 通过改进 YOLOv3 进行猪脸检测识别,模型检测精度有一定的提升,但是仍存在小目标检测边界定位不准的问题.文献 8 提出 Siamese-FC 算法,将全卷积网络嵌入到跟踪算法中,提升了跟踪效果和检测速度.文献 9
13、提出 Siamese-RPN 算法,通过结合Siamese 跟踪算法和 RPN 网络,将多尺度测试跟踪任务转变为 one-shot 检测任务.文献 10 提出基于 YOLOv4_tiny 的网络模型,通过结合迁移学习和权重加权使模型能在数据集较少时提高检测精度,但平均精度为61.18%.文献 11 提出一种基于 SSD 的网络模型,利用 DenseNet-169 网络提取特征,然后联合训练中心损失函数和归一化指数来加快模型的收敛速度,但降低了模型的检测准确率.上述算法的应用可以提高检测准确率,并且在不同的应用场景下都取得了较好的性能表现.然而,这些方法仍然存在一些问题,如模型泛化能力不足、计算
14、量大、检测速度慢和误检漏检率高等缺点.因此,本文通过改进 YOLOv5 和 Bytetrack 算法,实现快速检测和跟踪统计牦牛,在兼顾推理速度和跟踪准确度的同时,提高模型的泛化能力,帮助牧民更加高效的监测牦牛,为牦牛养殖业的可持续发展和乡村振兴提供有力支持.1实验数据 1.1 目标检测数据集本研究将牦牛目标检测定义为二分类问题,简化了原 YOLOv5 网络对 80 类物体进行分类检测的问题.数据集来源于 ImageNet 数据集12的部分图像和在青海省玉树藏族自治州使用 GoPro8 拍摄的牦牛视频数据.处理视频数据时,保留 80%的牦牛躯干出现在视野中的视频段.利用 FFmpeg 工具将视
15、频分割为图片,筛选去除帧间相似度过高的图片,得到牦牛样本图像 3164张,使用 Labelimg 工具标注得到 3164 个 XML 文件.为了提升模型泛化能力,使用随机旋转、裁剪、平移、镜像、增加噪点和调整亮度的数据增广技术,扩充牦牛检测数据,增强后得到 19704 张图片.其中,对图像进行随机旋转可以扩大数据集的规模,以获得理想的训练效果;改变图像的色调和亮度可以模拟光照情况变化对图像的干扰,在一定程度上消除光环境的影响13.然而,增强后的样本数据中背景重复率高,如果全部用于学习,会降低训练速度,且容易导致模型过拟合.故本研究设计两种实验方案.实验 1:从数据集中抽取 7020 张图片做消
16、融实验,用于测试各模块对模型性能的影响.按照比例 7:1.5:1.5 随机划分为训练2023年第32卷第11期http:/www.c-s-计 算 机 系 统 应 用SpecialIssue专论综述49集、验证集和测试集.其中训练集 4900 张,验证集和测试集各 1060 张.实验 2:抽取全部数据的 80%用于训练以评估模型的整体性能.数据集划分和实验 1 相同,其中训练集 11034 张,验证集和测试集各 2364 张.每个图像样本按顺序编号,训练集和验证集的样本编号互斥.部分数据集图片如图 1 所示.图 1牦牛目标检测部分数据集 1.2 跟踪评价数据集为了全面评估跟踪算法在实际放牧环境下
17、的性能,选取 10 段不同条件下的视频段,记为 video0110.每段视频的时长均在 10s 以上,分辨率为 1920 像素1080 像素.数据集包含牦牛活动频繁与较少场景、目标拥挤与稀疏场景.使用 Darklabel 软件标注,得到10 个 CSV 文件,内容包括所有帧中实际牦牛的 ID、位置和大小等信息,用来评估跟踪算法的准确度和鲁棒性.2YOLOv5 2.1 算法结构及原理YOLO(youonlylookonce)14最初由 Redmon 等提出.相比于 FasterRCNN15算法的两阶段检测,YOLO接收整张图片作为输入,经过推理后直接输出目标框位置、类别信息和检测置信度大小.YO
18、LOv5 有 4 个版本的检测网络,分别是 YOLOv5s,YOLOv5m,YOLOv5l和 YOLOv5x1618.其中最小、最浅的是 YOLOv5s,其余 3 种都是在此基础上不断加深加宽的.YOLOv5s 模型文件大小只有 14.1MB,计算参数少,故本文选择在此基础上进行改进和提升,以达到更好的训练效果.YOLOv5s 网络由 4 个通用模块组成,分别是输入端(Input),骨干网络(Backbone),Neck 网络和 Head 预测输出层.Input:通常包括图像预处理操作,如将图像缩放到适应网络的输入大小并进行归一化处理等.该模块使用包括随机缩放、裁剪和排布等操作的 Mosaic
19、 数据增强方式,以此提高模型的预测精度.此外,YOLOv5使用一种自适应锚框计算方法来减少冗余信息并加快网络的训练速度.Backbone:实质上是卷积神经网络,用于在不同图像粒度上提取特征.YOLOv5s 网络使用 Focus 和 CSP结构.Focus 结构的关键操作是切片,例如将 443 的特征图经过切片后,尺寸变成 2212.值得注意的是,YOLOv5s 网络中的 Focus 结构使用 32 个卷积核进行卷积操作,而其他 3 种网络的卷积核数量均有所增加.计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第11期50专论综述SpecialIssueYOLOv5s 中
20、有两种 CSP 结构,CSP1_X 位于骨干网络中,CSP2_X 位于 Head 预测输出层.在骨干网络中加入 CSP,可以增强网络的学习能力,降低计算复杂度,使网络更轻量化,同时提高查准率.Neck:位于骨干网络和预测输出层之间,用于加工特征信息.该模块使用特征金字塔网络(featurepyramidnetwork,FPN)19和路径聚合网络(pathaggregationnetwork,PANet)20多尺度的融合特征,结构如图 2 所示.FPN 是自顶向下的,通过上采样向低层传递高层的强语义特征,增强特征金字塔的语义信息.PANet 则相反,是自底向上的,通过下采样融合低层特征和高层特征
21、,以增强高层特征的定位信息.经过 FPN 和 PANet融合的特征,不同尺寸的特征图都包含图像的语义信息和位置信息,以此保证对不同尺寸图片的准确预测.(a)FPN backbone(b)Bottom-up with augmentation(c)Adaptivefeature pooling(d)Box branch(e)Fully-connected fusionP5N5N4N3N2P4P3P2ClassBoxMask图 2FPN 和 PANet 的网络架构Head:输出目标检测结果.该层沿用之前 YOLOv3的检测头.对于不同的网络结构,输出层的分支个数不尽相同,但通常都包含一个分类分支和
22、一个回归分支.2.2 模型的改进与优化针对原 YOLOv5s 模型在牦牛检测任务上误检漏检率高、小目标检测效果不好等问题,通过改进其骨干网络和 Neck 网络,实现更精确的牦牛检测.改进的YOLOv5s 网络如图 3 所示.在骨干网络中加入改进的SwinTransformer 模块,并使用空洞空间卷积池化金字塔(atrousspatialpyramidpooling,ASPP)以多比例提取图片的上下文信息,增强网络对小目标的检测效果.颈部使用双向特征金字塔网络跨尺度融合特征图,通过增加同层级网络间的跳转连接,以保留原始节点的未融合信息;同时加入改进的协同注意力(coordinateattent
23、ion,CA)机制,以获取较多的远程依赖关系.在预测输出层,从上到下分别是融合特征图的 1/8、1/16、1/32、1/64 倍下采样后的特征信息.使用二元交叉熵计算置信度损失(obj_loss)和分类损失(cls_loss)、EIoUloss(efficientintersectionoverunion)计算定位损失,采用非极大值抑制算法筛除冗余目标框.改进普通卷积模块的激活函数为 FReLU(funnelReLU).相较于 SiLU,FReLU 有更快的收敛速度、更好的泛化能力和稀疏性,同时减少计算量,从而提高模型的鲁棒性.FReLU=max(0,x)+min(a(xm)(1)xam其中,
24、表示输入,和 为可学习的参数.2.2.1D-STB 模块Transformer21是一种基于自注意力机制的深度神经网络模型,在计算机视觉领域应用广泛.基于 Trans-former 的网络模型在目标检测领域取得了显著的性能提升,因为它能提取图像的全局信息并关注重要的区域.但在像素级别上进行预测的视觉任务的自注意力计算复杂度是图像大小的二次方,这限制了 Transformer在高分辨率图像处理任务中的应用.而 SwinTransfor-mer22有效解决了 Transformer 的应用缺陷,它将自注意力计算限制在窗口区域内,并允许跨窗口进行信息交互.因此,本研究中在 YOLOv5s 骨干网络添
25、加 SwinTransformerblock(STB),以此增强骨干网络的特征提取能力.2023年第32卷第11期http:/www.c-s-计 算 机 系 统 应 用SpecialIssue专论综述516406403C3CoNFk1,s1,p0,c64ConcatCoNFk1,s1,p0,c64CoNFk1,s1,p0,c128CoNFk6,s2,p2,c64P1CoNFk3,s2,p1,c128P2CoNFk3,s2,p1,c256P3C3CoNFk1,s1,p0,c128ConcatCoNFk1,s1,p0,c128CoNFk1,s1,p0,c256CoNFk3,s2,p1,c512P4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 YOLOv5 Bytetrack 牦牛 跟踪
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。