基于预训练模型的单帧航拍图像无监督语义分割.pdf

上传人：自信****多点

文档编号：3655827

上传时间：2024-07-12

格式：PDF

页数：8

大小：3.51MB

《基于预训练模型的单帧航拍图像无监督语义分割.pdf》由会员分享，可在线阅读，更多相关《基于预训练模型的单帧航拍图像无监督语义分割.pdf（8页珍藏版）》请在咨信网上搜索。

1、第卷第期年月北京信息科技大学学报（自然科学版）（）文章编号：（）：基于预训练模型的单帧航拍图像无监督语义分割任月冬，游新冬，滕尚志，吕学强（北京信息科技大学网络文化与数字传播北京市重点实验室，北京）摘要：针对航拍图像语义分割成本高、通用性差和精度低等问题，提出了一种两阶段无监督语义分割网络（，），针对单帧航拍图像训练进而生成最终的语义分割结果。算法分为个阶段。首先，使用对比语言图像预训练（，）模型生成航拍图像的粗粒度语义标签，然后进行网络的预热训练。其次，在第一阶段的基础上，采用分割一切模型（，）对航拍图像进行细粒度类别预测，生成精细化类别掩码伪标签；然后迭代优化网络，得到

2、最终语义分割结果。实验结果显示，相较于现有无监督语义分割方法，算法显著提高了航拍图像的分割精度，同时提供了准确的语义信息。关键词：预训练模型；航拍图像；语义分割；无监督算法；聚类效果估计；深度学习中图分类号：文献标志码：，（，）：，（），（），（），：；收稿日期：基金项目：国家自然科学基金项目（；）；北京市自然科学基金项目（）；北京市教委科研计划科技一般项目（）作者简介：第一作者：任月冬，女，硕士研究生；通信作者：滕尚志，男，博士，副教授。引言由于航拍图像包含多种地物和场景，因此要求语义分割算法具有较强的适用性，具备对多样地物进行精确分割和分类的能力。然而，在航拍图像中，前景与背景的分布呈现不

3、均匀状态，即不同区域内的物体北京信息科技大学学报（自然科学版）第卷分布密度存在显著差异。此外，图像中的环境可能包含多样纹理、色彩和结构特征，进一步增加了任务的复杂性。因此现有的航拍图像语义分割主要以监督学习的方式应用于一些特定的任务，如农作物、建筑物以及线缆等分割任务，而通用的分割方法较少。同时，这些建立在监督学习基础上的方法没有考虑到特征提取的鲁棒性和稀疏性，网络结构较复杂、训练难度较大、数据集要求较严格（包括采集和标注）。因此，不需要人工标注的无监督学习近期成为了图像语义分割的热点及难点。现有的快速无监督图像语义分割方法包括、迭代自组织数据分析技术算法（，）、简单线性迭代聚类（，）和

4、基于图的分割算法等。这些方法虽然能够实现一定程度的语义聚类效果，但是不能准确地分割出边缘，且不能提供分割区域的类别信息，因此通常只能作为基于目标分割任务的预处理。随着计算机视觉领域的发展，一些基于深度学习的无监督语义分割方法相继而出。等提出自上而下的无监督语义分割框架，用于极其复杂场景下的细粒度分割。等提出的隐藏的正例（，）模型引入了一种梯度传播策略来学习相邻块之间的语义一致性。等通过对对象掩码进行聚类，采用了一种自下而上的框架实现图像的无监督语义分割。苏晓东等针对目标空间复杂度高，容易造成小尺度目标丢失和边界分割不连续等问题，借鉴网络结构，建立了基于多级叠加和注意力

5、机制的图像语义分割模型。等提出了基于超像素分割和全卷积网络的无监督遥感图像分割方法。这些无监督图像语义分割方法适用于常规视角下的场景，但在处理航拍图像时表现仍然较差。本文针对航拍角度下的图像提出了一种两阶段无监督语义分割网络（，），采用单帧图片的训练方式，在预训练模型的支持下，实时地生成输入图片的分割结果。单帧图片训练强调针对单个图像进行语义推断的独特性。与传统的训练方式不同，单帧训练方法专注于捕捉单张图片的语义信息，而不受数据集大小的限制，更侧重于对单个图像的语义推断。这种方法在处理航拍图像的视角和环境变化时具有优势，因为它不仅能够准确捕捉特定时刻的关键语义内容，而且避

6、免了传统训练方式可能面临的信息过载问题。本文方法用以替代现有常用快速分割方法，作为网络中的一部分而提出。所提出的算法在平均像素准确度（，）和平均交并比（，）以及平均准确度（，）上均有所提升。由于无监督学习缺乏像监督学习那样的明确标签或指导性信息，因此以上指标不能完全代表算法的优异性。除了以上指标外，本文还采用了其他个指标来评估算法的优异性，分别为适应性兰德误差（，）、调整互信息（，），以及指数（，）。由实验结果可知，本文算法在这些指标上相比于上述方法有明显提升。除此以外，为了验证本文算法的性能，将其与近期基于传统训练方式的无监督语义分割算法，也进行了对比，

7、进一步证明了该算法不仅能有效提升航拍图像的分割精度，而且能够获得较准确的语义类别信息。算法模型本文提出的采用了一种单张图片训练方式，并将其划分为个阶段。第一阶段利用对比语言图像预训练（，）模型获得图像的粗类别语义标签；第二阶段根据标签结果精细化分割一切模型（，）的分割区域，进而为网络生成更为准确的标签，接着根据它们来持续优化网络的语义分割结果。第一阶段为第二阶段提供模型的初始语义特征表示能力。网络预热阶段在第一阶段中，算法采用模型对图像和类别文本信息进行编码，为模型提供一个初始的语义特征；然后，根据编码之间的相似度生成粗标签。这里的粗标签是指未经训练和调节而生成的不准确

8、的图像分割结果；接着，通过反向传播算法交替地更新网络参数。本阶段主要由个模块共同实现：粗标签生成模块和全卷积网络（，）特征提取模块，整体框架如图所示。第期任月冬等：基于预训练模型的单帧航拍图像无监督语义分割图无监督航拍图像语义分割算法的第一阶段模型结构粗标签生成模块如图所示，将图像裁剪为个部分（记为），依次送入模型的图像编码器，得到图像特征（其中表示特征向量的长度）。同时，根据航拍图像数据集的类别定义不同的文本提示（记为），并将其送入文本编码器中进行编码，得到文本特征（其中表示类别数）。最后，将获得的每一个文本特征与图像特征进行相似度计算，并按照文本顺序进行

9、排列，进而得到矩阵。中的行向量表示分割图像与各类别的相似度，行向量中最大值的下标即为分割图像的类别标签。图以通道为例，显示了获取粗标签的过程。为索引函数，可以获得矩阵中各行向量中最大值的下标。为了将每个像素的类别信息与图像进行位置上的对应，使用函数改变矩阵形状。特征提取模块如图所示，模块包含个部分，每一部分都由卷积、批标准化以及激活函数组成。为了引入提取的图像特征，首先通过卷积将通道数保持一致，这一过程通过前个模块实现，使网络能够从输入图像中学习不同层次和抽象程度的特征。由于在无监督学习中，图像的细节及空间位置信息极易丢失，因此模型使用的卷积层调整通道数为类别数，以此将高层信息

10、映射到每一个像素上。然后，使用卷积层将通道数调整回来，增加特征图的复杂度。最后，通过卷积重新整合高层信息。的模型结构如表所示。表模型结构卷积模块卷积核大小步长输出通道数类别数类别数如图所示，首先，从任意裁剪的图片中使用模型提取类别，记为。图片经过的前个卷积层，得到特征矩阵。然后将与在通道维度上相乘，用以将语义信息融合进网络中。将输出结果进行池化操作，得到特征。最后，将其与粗标签计算交叉熵损失，更新并优化网络参数。其中，交叉熵衡量的是个特征分布之间的距离，因此可以被用来刻画预测值和标签值的差异情况。网络优化阶段伪标签是指根据模型预测的结果转化而成的标签信息

11、。在第二阶段，模型用来分割所输入图像的各区域，同时第一阶段和第二阶段共享模型的参数。如图所示，首先利用在图像中不同对象或区域之间生成较为准确和精细的边界，同时使用模型预测的结果给的分割区域赋予伪标签，最后通过梯度反传对分割结果进行迭代优化，详细如下。北京信息科技大学学报（自然科学版）第卷图无监督航拍图像语义分割算法的第二阶段模型首先，利用对图像进行分割，生成个不规则区域（，）。同时，将图像送入浅层中进行特征提取。图像依次进行卷积并生成语义标签图，将其记作（，），每个像素都有一个类别标签，是标签类型为的像素集合。然后，根据分割的每一个区域，在中找其对应区域，并

12、记录该区域中各个类别出现的频率，把频率最高的类别作为该区域的类别标签（如图中即为人物对应区域标签）。所有区域的类别标签集合构成最终的伪标签掩码图，使用交叉熵损失函数进行训练，同时采用模型训练所得的类别信息对其进行更新。训练结束时得到的伪标签即为最终的语义分割结果。实验数据集和两个数据集由等提出，每个数据集包括张图像，均由无人机拍摄获得。图像有种大小，分别是像素、像素和像素。包括个类别的分割标注，即植被、建筑物、路、车辆和其他类。包括个类别，即建筑外立面、路、植被、车辆、屋顶和其他类。数据集的场景为城市，图像以鸟瞰视角拍摄，拍摄高度距地面之间。图像大小为像素。训练

13、集包含张图像，测试集为张图像。类别包括铺装区域、土地、草地、碎石、水、岩石、游泳池、植被、屋顶、墙壁、窗户、门、围栏、围栏柱、人物、狗、汽车、自行车、树木、无叶树、标记、障碍物和未标记区域类。在本次实验中，由于整个过程是基于单张图片进行训练生成的“一体化”形式，因此在评估过程中不划分训练集和测试集，而是将其作为一个整体进行评估。实验评估指标及实现细节采用以下指标来评估无监督分类方法的优劣：、和。前个指标用来衡量结果和基本事实之间的一致性。其中，介于之间，越高意味着错误越大。上限为。返回的值越高，结果与基本事实越一致。当结果和基本事实完全独立时，会小于零。也介于之间，的值越高，结

14、果与基本事实越相似。后个指标用来衡量语义分割结果和真实类别标签之间的重叠程度，其值越高，表示分割区域的类别预测越准确。在本次实验中，单张图像裁剪的总数量设置为。由于只使用单张图片进行训练，为了保证模型的稳定性，在训练网络之前，对浅层进行初始化。为防止过拟合，设置了固定迭代次数以提前终止训练。并在第一阶段中，采用随机梯度下降（，）作为权值更新优化器，学习率为，训练轮次设置为。而在第二阶段，采用随机梯度下降作为权值更新优化器，学习率设置为，训练轮次为，使用学习率衰减策略，并且设置每个轮次学习率衰减倍。对比实验与现有快速无监督分割方法对比。鉴于现有快速无监督分割方法在缺乏类别信息

15、的情况下存在局限，为了能够更有效地运用上述评价标准进行比较实验，将这些方法与表所示的分割结构相结合。这一融合策略旨在赋予这些方法以类别感知能力，从而使其在评估性能方面与其他方法更具可比性。第期任月冬等：基于预训练模型的单帧航拍图像无监督语义分割实验中，将与（段数设置为）混合的模型记为、与等提出的基于图的分割算法（设置为）混合的模型记为、与（设置为）混合的模型记为。由于未对模型进行任何的人工干预，因此，实验结果更能展示该方法的有效性。表显示了种模型在个数据集上的聚类效果和像素的准确程度。本文表格中的最优指标均以加粗表示。从表可以看出，本文模型的个指标在所有数

16、据集上都表现出显著的优势。下面以数据集为例进行讨论。本文模型的为，明显优于其他方法的、和。这表示本文模型的分割结果与真实区域的重叠度较高，在分割区域准确性方面性能出色。在和指标方面，本文模型同样取得了显著的优势，的和分别为和，明显高于其他方法。这表明本文模型在目标之间的相似性和匹配度方面具有更好的性能，能够更精确地捕捉目标的语义信息。在指标方面，本文模型的为，相对于其他方法的，显示出本文模型在分割精度方面的卓越性能。在方面，本文模型同样表现出较高的性能，具体而言，本文模型达到，明显高于其他方法的，这表明本文模型能够更准确地预测每个像素的类别，从而提高了整体

17、像素级准确度。表与种快速无监督分割方法在、和上的评估指标比较，数据集模型与近期基于传统训练方式的无监督分割模型对比。采用个近两年具有代表性的基于传统训练方式的无监督语义分割方法在个航拍数据集上进行对比实验，结果如表所示。在数据集上，相对于和模型表现出更高的语义分割性能，其为，为。在数据集上，相对于和模型也取得了显著的性能改进，其为，为。的指标较高的原因是其在某个类别下将大片区域识别为一个整体，而其他类别交并比较低。从总体上看，本文所述方法在交并比和像素准确度上表现较为平衡，性能较高，这种对比能够在可视化结果中呈现。表与基于传统训练方法的现有模型在

18、、上的评估指标比较数据集模型北京信息科技大学学报（自然科学版）第卷消融实验本文方法在各个指标都有提升，为了便于解释，以其中提升幅度较大的个指标进行详细阐述。验证语义融合方式的有效性。不同的融合方式会对语义的表达产生不一样的影响，因此将实验第一阶段中与在通道维度上相乘（）的处理方式与在通道维度上相加（）的处理方式进行对比。如表所示，在数据集上，的相对较低，为，而的高达，这表明在目标匹配和目标语义捕捉方面有所退步。在和方面，相对表现较低。特别是在方面，在数据集上的为，而为。综合来看

19、，在目标匹配、语义捕捉和分割性能方面的性能有所退步，这进一步验证了在通道维度上相乘的处理方式的有效性。表不同的语义融合处理方式在个数据集上的评估指标对比数据集模型验证训练轮次的有效性。模型训练的拟合度是影响性能的另一重要因素，而训练的轮次便是导致这一特性的直接原因。因此，在本实验中，将第一阶段中针对网络的预热训练所使用的轮次量进行对比。表显示，在数据集上，在轮次时为，而在轮次为，轮次为；在轮次为，而在轮次为，轮次为；在轮次时为，而在轮次为，轮次为。这表明过度训练模型会有损模型泛化性能，适时提前停止训练会获得更好的性能。表不同的训练轮次在数据集上的评

20、估指标对比数据集轮次验证分块数量的有效性。由于不同的裁剪数量影响图片内容的丰富性，而这一特性对于类别的判断较为重要，数量越大，噪声就越少，学习到的内容也更为准确。因此，在该实验中，将第一阶段中针对网络的预热训练所使用分块数的大小进行对比。表显示，在数据集上，在之间。最高为，最低为。最高为，最低为。随着分块数量的增加，从降至，从降至，从降至。结果显示随着图像分块数量的增加，前个指标相对稳定，但像素级别的准确性指标，如、和，呈现明显下降的趋势。更小的图像分块会影响提取的图像语义特征，进而影响初始分割掩码的准确性。表不同的分块数量在数

21、据集上的评估指标对比数据集裁剪数量第期任月冬等：基于预训练模型的单帧航拍图像无监督语义分割可视化对比为了展示模型与现有分割方法、及在数据集上的图像分割结果，进行了可视化对比。图显示了种模型在个样本图像上的分割结果。从图（）和（）中可以看出，现有无监督语义分割方法中普遍存在着明显的“椒盐现象”，造成这种现象的主要原因是航拍视角下的地物存在类内不一致（地物标签相同但外部特征不同）与类间无差别（个相邻的地物，标签不同但外部特征相似）。从图（）可以看出，本文模型在图像分割方面有明显优势。具体来说，模型在聚类结果与真实标签之间的一致性、完整性、交并比和像素精度中表现更为优异。模型

22、能够更有效地消除噪声和离群点，更准确地划分不同类别的物体，更细致地保留分割边缘，更接近真实标签的类别。综上，可以得出以下结论：在主要的建筑物类别上表现出色，这在其较高的值中得到了体现。然而，对于其他类别，的性能相对较差，尤其是在类别分布不均匀的数据集上。这一现象表明，在处理图像类别分布不均衡的样本数据时效果不佳。采用了方法在上进行预训练，这赋予了该方法初步的分割能力，为其提供了大量丰富的额外训练数据，这一策略有助于提高值，但也引入了一些潜在的问题，如对不相关信息的敏感度增加。与之相反，本文方法更专注于全局信息的利用，基于单张图像的训练效率也更高。总的来说，本文方法在可视化结果以及多个

23、语义分割性能指标上都表现出明显的优势，并且能够更好地处理类别不均衡的情况，这证明了其在语义分割任务中的独特优势。图与种现有方法在数据集上的分割结果可视化结束语本文提出了一种新颖的航拍图像语义分割算法，该算法基于单帧图像进行训练，其核心部分是两阶段无监督语义分割模块。全卷积网络特征提取模块使用了简单而高效的网络结构，只包含层和卷积操作，训练参数较少、速度较快。因此用其代替现在常用分割方法而作为网络中的一部分，提高了网络的性能及运行效率。由表可知，与现有常用快速无监督分割方法相比，在个数据集上，本文提出的算法在、以及这个常用评价指标上北京信息科技大学学报（自然科学版）第卷

24、分别平均提升了、和，显示出较为优异的性能，这进一步证明了该算法不仅能有效地提升航拍图像的分割精度，而且能够获得较准确的语义类别信息。由图可知，该模型能够有效地划分不同类别的物体，并且保留了分割边缘。因此，本文模型可作为少样本学习或为有监督学习提供预处理。然而，本文模型也存在一些局限性和改进空间：）模型对小目标的分割性能稍差，后续考虑增加多尺度特征融合的方式提高对小目标的分割效果；）可以对分割结果进行后处理，如加入物体空间位置关系的先验知识，进一步提升分割效果；）与一些较深的网络结构相比，模型在性能上还有一定的差距，如何在提高分割性能的同时，保证网络结构的简单和灵活性，是今后的一个重要研究方向。参考文献：，（），：，：，：（）：，：，（）：，：，（）：，：，：杨小明，罗云算法的实现与分析采矿技术，（）：，（）：（），（）：，（）：，：，：，：，（）：，（）：苏晓东，李世洲，赵佳圆，等基于多级叠加和注意力机制的图像语义分割计算机工程，（）：，（）：（），：，：，：？，：，：，（）：，：，（）：，：，：（）：

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于训练模型航拍图像监督语义分割

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。