大区域场景下基于无人机视角的目标计数方法.pdf
《大区域场景下基于无人机视角的目标计数方法.pdf》由会员分享,可在线阅读,更多相关《大区域场景下基于无人机视角的目标计数方法.pdf(16页珍藏版)》请在咨信网上搜索。
1、第42卷 第1期2024年1月应用科学学报JOURNAL OF APPLIED SCIENCESElectronics and Information EngineeringVol.42 No.1Jan.2024DOI:10.3969/j.issn.0255-8297.2024.01.006大区域场景下基于无人机视角的目标计数方法谢婷1,张守龙1,丁来辉2,胥志伟2,杨晓刚2,王胜科11.中国海洋大学 信息科学与工程学院,山东 青岛 2661002.山东巍然智能科技有限公司,山东 青岛 266100摘摘摘要要要:近年来,无人机因其灵活度高、机动性强在人群计数领域得到广泛应用。然而,现有的人群计
2、数方法大多基于单视点,对于大范围、多摄像机场景下的多视点计数研究较少。为了解决这个问题,提出了一种基于无人机视角的目标计数方法以准确统计场景中的目标数量。选择临海区域进行数据采集,利用深度学习技术对采集的图像进行目标检测和图像拼接融合,在拼接后的图像中映射检测信息,并采用计数算法完成区域场景的计数任务。在公开数据集和该文制作的数据集上进行的实验验证了基于目标检测的计数算法的有效性。关键词:无人机;高分辨率图像;目标检测;图像拼接;多视角目标计数中图分类号:TP391文章编号:0255-8297(2024)01-0067-16Target Counting Method Based on UAV
3、 View inLarge Area ScenesXIE Ting1,ZHANG Shoulong1,DING Laihui2,XU Zhiwei2,YANG Xiaogang2,WANG Shengke11.College of Information Science and Engineering,Ocean University of China,Qingdao 266100,Shandong,China2.Shandong Willand Intelligent Technology Co.,Ltd.,Qingdao 266100,Shandong,ChinaAbstract:In r
4、ecent years,unmanned aerial vehicles(UAVs)have been widely used in thefield of crowd counting due to their high flexibility and maneuverability.However,most ofthe existing crowd counting methods are based on single viewpoints,with limited studiesfocusing on multi-viewpoint counting in large-scale,mu
5、lti-camera scenes.To solve thisproblem,this paper proposes a UAV-based target counting method which can accuratelycount the number of targets in a given scene.Specifically,this study selects a sea-frontarea for data acquisition,utilizes deep learning technology for target detection and imagestitchin
6、g fusion on the acquired images.The detection information is then mapped ontothe spliced image,and a counting algorithm is employed to fulfill the counting task for theregional scene.The effectiveness of the counting algorithm based on target detection isvalidated through experiments conducted on bo
7、th public dataset and the dataset producedin this paper.收稿日期:2023-11-05通信作者:王胜科,副教授,研究方向为计算机视觉、数字图像处理、模式识别。E-mail:68应用科学学报第42卷Keywords:unmanned aerial vehicle(UAV),high resolution images,object detection,image stitching,multi-view object counting在无人机场景中,对某一区域进行目标计数是一项非常具有挑战性的任务。当无人机超过一定飞行高度时可以获得更广阔的
8、视野,捕获更多的目标,但也意味着采集到更多更小的目标。无人机采集到的目标由于尺寸过小且易与背景相混淆而难以被检测到,从而影响计数的准确性。同时,目前的计数工作大多基于单帧图,如何利用无人机采集的多视角图像去统计某一区域中真实的目标数量,如何确保多视角图像中同一目标不重复计数,是目前多视角目标计数领域所面临的问题。目标检测的精度决定了目标计数的基础,进而影响最终的计数结果。因此,为了促进无人机在大区域场景中目标计数的智能应用,需要设计出一个满足航拍图像高精度要求的目标检测框架。该目标检测框架需融合最新的科学理论,能够大幅度提升小目标的检测精度。VisDrone1是目前流行的用于物体检测的无人机数
9、据集,本文整理并制作了无人机目标检测和计数数据集 OUC-UAV-CC 作为其补充。使用最新的优秀物体检测器进行了一系列的实验,结果显示小物体的检测精度远远小于中型和大型物体的检测精度,这意味着开发适用于航拍领域的目标检测器是目前面临的巨大挑战。本文提出了一个大区域场景下基于多视点的目标计数策略以实现对某场景的计数工作,进而全面了解某一场景的真实情况。具体步骤为:1)无人机在规定的飞行航线下,按照一定高度和角度,对区域场景进行连续帧的拍摄来采集数据,然后将采集到的数据送入检测器进行检测;2)把采集到的数据根据特征点和定位信息进行匹配拼接还原场景,利用本文设计的相似性度量拼接损失函数迭代优化;3
10、)根据本文提出的映射公式,将目标检测结果映射到地理坐标系内并统计整个区域的目标数量,同时要确保多视角图像中同一目标不重复计数。1相关工作1.1无人机目标检测当无人机在高空进行目标检测应用时很难识别出小目标,所以在无人机目标检测任务中,小目标检测一直以来都是具有挑战性的工作。目前,针对提高小目标检测精度的策略主要归为特征增强和数据增强两大类。特征增强是解决小目标包含像素信息过少而难以形成有辨别性的特征信息的问题,希望通过改进小目标的特征表达能力来提高对小目标的识别能力。特征增强策略主要包含特征融合和运用生成式对抗网络(generative adversarial network,GAN)生成高分
11、辨率图像或特征两个方面。一方面,特征金字塔网络(feature pyramid networks,FPN)2作为一种典型代表,有效地结合了高层的语义信息和低层的空间信息。基于 FPN,又进一步发展出了路径聚合网络(path aggregation network,PANet)3等加强版FPN结构。另一方面,基于多任务GAN的细小物体检测(small object detection via multi-task GAN,SOD-MTGAN)方法4通过 GAN 生成高分辨率图像,而感知生成式对抗网络方法5则运用 GAN 生成高分辨率特征。特征融合与注意力机制结合的单阶段目标检测6借助于小目标周围
12、的信息以及注意力机制,解决小目标判别特征少的问题。数据增强是针对小目标数量和尺寸不具备中目标及大目标优势使得小目标得不到充分训练的问题,通过加强检测器对小目标的学习与训练来提高小目标检测的精度。文献 7 提出的增强机制通过粘贴复制小目标实现了直接增加小目标实例个数的目的,文献 8 提出的拼接机制则通过损失函数中小目标损失占比的反馈来调节输入图像的方式,提高小目标的损失对总第1期谢婷,等:大区域场景下基于无人机视角的目标计数方法69损失的影响,间接地增加了小目标的数量。1.2无人机图像拼接由于单幅图像的视野有限,要精确地获取整个临海区域目标分布信息需要对无人机拍摄的影像进行拼接。图像拼接是将多个
13、重叠图像组合成高分辨率的覆盖广阔视野的单个图像的过程。已有的图像拼接算法主要是拼接两个图像9-10或是拼接同一方向拍摄的多个图像生成全景图像11-15。无人机在现实应用场景中通常需要在广阔区域拍摄大量图像进而生成拼接图像16-21。虽然近年来出现了许多图像拼接技术13,22-23,但这些方法不能同时满足无人机图像拼接的实时性、鲁棒性和准确性要求。目前已经提出了许多用于无人机图像拼接的算法,其中,基于无地面控制点的自动图像拼接方法24不仅可以获得广阔区域的全景图像,还可以获得相应的三维地形模型。基于单目标的实时增量无人机图像拼接17利用运动恢复结构(structure from motion,S
14、FM)的方法估计相对相机姿态,并将多个无人机图像拼接成一个无缝图像。通常,基于 SFM 的拼接算法可以生成精确的正射图像,但 SFM 方法的时间复杂度非常高,不适合实时和增量使用。文献 25 提出了一种以增量方式进行实时拼接大型航空图像的方法,该方法使用单眼同步定位与建图系统(simultaneous localization and mapping,SLAM)生成 3D 点云地图,需要利用 GPS 数据优化拼接效果,对于非平面环境其拼接图像质量难以保证。1.3无人机目标计数目标计数是指统计给出的图像或视频内目标的种类及其对应的数目。本文从计数对象依托介质的角度主要介绍单视角目标计数和多视角目
15、标计数。单视角图像的目标计数可以分为基于目标检测的、基于回归估计的和基于密度图估计的图像计数方法26。基于目标检测的计数方法可以根据实际应用场景选择检测器,利用深度学习的目标检测器相比于传统的检测器在精度和速度方面更具优势,然而,这类方法需要对所有目标进行人工标注及检测,不适用于目标密集或者相互遮挡的场景。基于回归估计27的目标计数是指通过建立图像特征与目标数目的回归模型来估计图像中的目标总数,其中图像特征包括尺度不变特征变换(scale-invariant feature transform,SIFT)28和方向梯度直方图(histogram of orientedgradient,HOG)
16、29等传统方法提取的全局特征,回归模型包括简单的线性回归或者混合高斯回归。这类方法不需要对目标进行严格标注,适合目标数量多的计数任务,能够有效降低遮挡对计数精度的影响,但其缺乏对图像的整体理解。基于密度图估计的目标计数由文献 30首次提出。这类方法实现了逐像素回归计数,适用于分布密集的人群计数领域。近年来,基于深度学习的相关方法不断涌现。文献 31 提出了一个基于多列卷积神经网络的人群计数框架,将提取到的多尺度特征映射为密度图,提高了计数精度。文献 32 提出了一个新颖的计数框架,通过自适应膨胀卷积网络有效解决了透视现象造成目标尺度变化大问题,并通过自校正监督模块修正了目标的错误标注。基于密度
17、图估计的方法一方面能够获取对图像的整体理解,另一方面能够有效解决目标遮挡的问题。多视角图像下的目标计数可以分为 3 类方法,分别是基于检测或跟踪的方法33-36、基于回归的方法37-38和基于 3D 圆柱体的方法39。但这些多视角目标计数方法有以下局限性:1)需要利用前景提取技术将人群从背景中分割出来,因此前景提取步骤的有效性限制了最终的计数性能;2)手工制作的特征都用于人群检测或人群计数回归,手工制作的特征缺乏表征能力,降低了方法的鲁棒性和性能;3)这些方法主要在基准数据集 PETS200940上进行测试,PETS2009 是一个多视图数据集,人群数量少,人群行为分阶段。文献 41 提出了一
18、种基于深度神经网络的多视图计数方法和一个新的更大的多视图计数数据集 CityStreet。该计70应用科学学报第42卷数方法提取相机视图信息,使用给定的相机参数将其投射到 3D 场景中的平均高度平面上,对投影的特征进行融合和解码,在平均高度平面上预测场景级密度图。文献 42 提出了一种基于三维高斯核的多视图融合的三维计数方法。该方法没有使用平均高度投影,而是使用多高度投影对人物的头部、身体和脚的等特征进行空间对齐,使用三维高斯核生成三维人群密度图,提供人群在三维空间的分布。将三维密度预测图反投影到每个相机视图,并与相机视图的二维地面真实密度图进行比较,定义投影一致性损失来提高准确性。2大区域场
19、景下基于无人机的目标计数方法设计本文的方法结构如图 1 所示。在特定场景下进行数据采集,将采集到的多帧连续图像输入到配备有空间转深度(space to depth,STD)机制方法的检测器的主干和颈部,该方法专门用于检测非常小的物体。然后设计了一种针对临海区域图像特点的拼接方法,应用该方法有效解决临海区域图像拼接出现的问题。最后,根据本文提出的公式,将二维目标检测信息投影映射到拼接图像中进行目标计数。?1?2?n1?n图 1 广域多视角目标计数方法的总体过程Figure 1 Overall process of the wide-area multi-view object counting
20、method2.1无人机目标检测网络设计卷积神经网络在物体检测等许多计算机视觉任务中取得了巨大成功。然而,在无人机目标检测任务中卷积神经网络的性能会迅速下降。这是因为,当无人机超过一定飞行高度拍摄图像时会捕获更多更小的目标,且航拍图像分辨率高,包含大量无关的背景信息。同时,现有的卷积神经网络架构使用跨步卷积或池化层,导致细粒度信息的丢失和无效特征表示的学习,直接影响对小目标的检测。本文针对无人机数据存在目标小且清晰度低的问题,引入 STD-Conv43模块来取代每个跨步卷积层和每个池化层,加强对细粒度信息的学习,一定程度提升模型的小目标对象检测性能。STD-Conv 是由一个空间到深度的层和一
21、个非跨步卷积层组成。本文所引入的 STD-Conv组件将原始图像转换技术44推广到卷积神经网络内部和整个卷积神经网络中的特征图下采样部分,如图 2 所示。将该方法应用于 YOLOv5 方法中,只需用 STD-Conv 构建块替换第1期谢婷,等:大区域场景下基于无人机视角的目标计数方法71YOLOv5 中步长为 2 的卷积。因为在 YOLOv5 中主干网络使用了 4 个步长为 2 的卷积,颈部使用了 2 个步长为 2 卷积,所以需要替换 6 个卷积。Convk1,s1Convk1,s1Convk1,s1Convk3,s1ConcatConcatConvk1,s1MaxPool2d k5SPPFC
22、SPCConvk3,s1MaxPool2d k5MaxPool2d k5Convk1,s1STDC5?C4C3C2C1P3P4P5N5N4N3STDSTDSTDSTDSTD图 2 无人机目标检测网络结构Figure 2 Structure of UAV target detection network针对无人机图像背景信息冗余和图像特征重复提取的问题,本文借鉴快速空间金字塔池化(spatial pyramid pooling-fast,SPPF)结构的设计思想,将空间金字塔池化交叉阶段局部连接(spatial pyramid pooling cross stage partial connec
23、tion,SPPCSPC)结构模块优化得到快速空间金字塔池化交叉阶段局部连接(spatial pyramid pooling fast cross stage partialconnection,SPPFCSPC)结构,即在最后一个卷积层上添加一个 SPPFCSPC 层来消除网络固定大小的约束。SPPFCSPC 层汇集图像特性并生成固定长度的输出至完全连接的层或其他分类器。换句话说,在卷积层和完全连接层之间执行一些信息“聚合”,以避免在开始时进行裁剪或缩放。图 2 展示了 SPPFCSPC 层的具体结构。在保持感受野不变的情况下,有效避免了因对航拍图像区域裁剪、缩放操作导致的图像失真等问题,解
24、决了卷积神经网络对图像相关特征重复提取的问题,大大提高了产生候选框的速度,节省了计算成本。2.2临海区域图像拼接受无人机高度和相机参数的限制,无人机拍摄的单幅图像视野有限。要获取临海区域的全面情况就需要对无人机拍摄的图像进行拼接,得到全景图像。拼接算法通常需要对图像的特征点进行提取,再进行特征匹配,但由于受风和海浪的影响,靠海区域表面不同时刻具有不同的表面形态,且临海区域(如沙滩)表面高度相似,特征不明显,与建筑物等其他地表物72应用科学学报第42卷体相比有着巨大差异,在特征匹配时不同图像中的特征点很难匹配成功,从而导致拼接错误或失败。为此本文设计了针对无人机临海区域图像特点的拼接算法,根据相
25、似性度量拼接融合损失迭代的方法优化拼接结果。在多视角的拼接过程中,首先提取每幅影像的特征点,引入无人机拍摄图像中的定位信息进行特征匹配拼接,多视图中特征点的匹配是其中的关键步骤。如图 3 所示,EXIF 标签是指图像中的 GPS 或者更高精度的实时动态差分定位(real-timekinematic,RTK)定位信息,利用其中的位置信息可以减少大量不必要的图像之间的匹配,减少匹配错误,提高匹配精度以及效率。然后根据 Loss 函数调整优化,不断迭代得到最终的拼接图像。最后,将图像映射到地图的实际位置上进行定位。?33,6433,64?,2233,12833,128?,2233,25633,256
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 区域 场景 基于 无人机 视角 目标 计数 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。