基于预训练模型的单帧航拍图像无监督语义分割.pdf
《基于预训练模型的单帧航拍图像无监督语义分割.pdf》由会员分享,可在线阅读,更多相关《基于预训练模型的单帧航拍图像无监督语义分割.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 卷第 期 年 月北京信息科技大学学报(自然科学版)()文 章 编 号:():基于预训练模型的单帧航拍图像无监督语义分割任月冬,游新冬,滕尚志,吕学强(北京信息科技大学 网络文化与数字传播北京市重点实验室,北京 )摘要:针对航拍图像语义分割成本高、通用性差和精度低等问题,提出了一种两阶段无监督语义分割网络(,),针对单帧航拍图像训练进而生成最终的语义分割结果。算法分为个阶段。首先,使用对比语言 图像预训练(,)模型生成航拍图像的粗粒度语义标签,然后进行网络的预热训练。其次,在第一阶段的基础上,采用分割一切模型(,)对航拍图像进行细粒度类别预测,生成精细化类别掩码伪标签;然后迭代优化网络,得到
2、最终语义分割结果。实验结果显示,相较于现有无监督语义分割方法,算法显著提高了航拍图像的分割精度,同时提供了准确的语义信息。关键词:预训练模型;航拍图像;语义分割;无监督算法;聚类效果估计;深度学习中图分类号:文献标志码:,(,):,(),(),(),:;收稿日期:基金项目:国家自然科学基金项目(;);北京市自然科学基金项目();北京市教委科研计划科技一般项目()作者简介:第一作者:任月冬,女,硕士研究生;通信作者:滕尚志,男,博士,副教授。引言由于航拍图像包含多种地物和场景,因此要求语义分割算法具有较强的适用性,具备对多样地物进行精确分割和分类的能力。然而,在航拍图像中,前景与背景的分布呈现不
3、均匀状态,即不同区域内的物体北京信息科技大学学报(自然科学版)第 卷分布密度存在显著差异。此外,图像中的环境可能包含多样纹理、色彩和结构特征,进一步增加了任务的复杂性。因此现有的航拍图像语义分割主要以监督学习的方式应用于一些特定的任务,如农作物、建筑物以及线缆等分割任务 ,而通用的分割方法较少。同时,这些建立在监督学习基础上的方法没有考虑到特征提取的鲁棒性和稀疏性,网络结构较复杂、训练难度较大、数据集要求较严格(包括采集和标注)。因此,不需要人工标注的无监督学习近期成为了图像语义分割的热点及难点。现有的快速无监督图像语义分割方法包括 、迭代自组织数据分析技术算法(,)、简单线性迭代聚类(,)和
4、基于图的分割算法 等。这些方法虽然能够实现一定程度的语义聚类效果,但是不能准确地分割出边缘,且不能提供分割区域的类别信息,因此通常只能作为基于目标分割任务的预处理。随着计算机视觉领域的发展,一些基于深度学习的无监督语义分割方法相继而出。等 提出自上而下的无监督语义分割框架 ,用于极其复杂场景下的细粒度分割。等 提出的隐藏的正例(,)模型引入了一种梯度传播策略来学习相邻块之间的语义一致性。等 通过对对象掩码进行聚类,采用了一种自下而上的框架实现图像的无监督语义分割。苏晓东等 针对目标空间复杂度高,容易造成小尺度目标丢失和边界分割不连续等问题,借鉴 网络结构,建立了基于多级叠 加 和 注 意 力
5、机 制 的 图 像 语 义 分 割 模 型。等 提出了基于超像素分割和全卷积网络的无监督遥感图像分割方法。这些无监督图像语义分割方法适用于常规视角下的场景,但在处理航拍图像时表现仍然较差。本文针对航拍角度下的图像提出了一种两阶段无监督语义分割网络(,),采用单帧图片的训练方式,在预训练模型的支持下,实时地生成输入图片的分割结果。单帧图片训练强调针对单个图像进行语义推断的独特性。与传统的训练方式不同,单帧训练方法专注于捕捉单张图片的语义信息,而不受数据集大小的限制,更侧重于对单个图像的语义推断。这种方法在处理航拍图像的视角和环境变化时具有优势,因为它不仅能够准确捕捉特定时刻的关键语义内容,而且避
6、免了传统训练方式可能面临的信息过载问题。本文 方 法 用 以 替 代 现 有 常 用 快 速 分 割 方法 ,作为网络中的一部分而提出。所提出的算法在平均像素准确度(,)和平均交并比(,)以及平均准确度(,)上均有所提升。由于无监督学习缺乏像监督学习那样的明确标签或指导性信息,因此以上指标不能完全代表算法的优异性。除了以上指标外,本文还采用了其他 个指标来评估算法的优异性,分别为适应性兰德误差(,)、调整互信息(,),以及 指数(,)。由实验结果可知,本文算法在这些指标上相比于上述方法有明显提升。除此以外,为了验证本文算法的性能,将其与近期基于传统训练方式的无监督语义分割算法 ,也进行了对比,
7、进一步证明了该算法不仅能有效提升航拍图像的分割精度,而且能够获得较准确的语义类别信息。算法模型本文提出的 采用了一种单张图片训练方式,并将其划分为 个阶段。第一阶段利用对 比 语 言 图 像 预 训 练(,)模型 获得图像的粗类别语义标签;第二阶段根据标签结果精细化分割一切模型(,)的分割区域,进而为网络生成更为准确的标签,接着根据它们来持续优化网络的语义分割结果。第一阶段为第二阶段提供模型的初始语义特征表示能力。网络预热阶段在第一阶段中,算法采用 模型对图像和类别文本信息进行编码,为模型提供一个初始的语义特征;然后,根据编码之间的相似度生成粗标签。这里的粗标签是指未经训练和调节而生成的不准确
8、的图像分割结果;接着,通过反向传播算法交替地更新网络参数。本阶段主要由 个模块共同实现:粗标签生成模块和全卷积网络(,)特 征 提 取 模块,整体框架如图 所示。第 期任月冬等:基于预训练模型的单帧航拍图像无监督语义分割图 无监督航拍图像语义分割算法的第一阶段模型结构 粗标签生成模块如图 所示,将图像 裁剪为 个部分(记为),依次送入 模型的图像编码器,得到图像特征 (其中 表示特征向量的长度)。同时,根据航拍图像数据集的类别定义不同的文本提示(记为 ),并将其送入文本编码器中进行编码,得到文本特征 (其中 表示类别数)。最后,将获得的每一个文本特征与图像特征进行相似度计算,并按照文本顺序进行
9、排列,进而得到矩 阵 。中的行向量表示分割图像与各类别的相似度,行向量中最大值的下标即为分割图像的类别标签。图 以 通道为例,显示了获取粗标签的过程。为索引函数,可以获得矩阵中各行向量中最大值的下标。为了将每个像素的类别信息与图像进行位置上的对应,使用 函数改变矩阵形状。特征提取模块如图所示,模块包含个部分,每一部分都由卷积、批标准化以及激活函数组成。为了引入 提取的图像特征,首先通过卷积将通道数保持一致,这一过程通过前 个模块实现,使网络能够从输入图像中学习不同层次和抽象程度的特征。由于在无监督学习中,图像的细节及空间位置信息极易丢失,因此模型使用 的卷积层调整通道数为类别数,以此将高层信息
10、映射到每一个像素上。然后,使用 卷积层将通道数调整回来,增加特征图的复杂度。最后,通过 卷积重新整合高层信息。的模型结构如表 所示。表 模型结构 卷积模块卷积核大小步长输出通道数 类别数 类别数如图 所示,首先,从任意裁剪的图片中使用 模型提取类别,记为 。图片 经过 的前 个卷积层,得到特征矩阵 。然后将 与 在通道维度上相乘,用以将语义信息融合进网络中。将 输出结果进行池化操作,得到特征 。最后,将其与粗标签 计算交叉熵损失,更新并优化网络参数。其中,交叉熵衡量的是 个特征分布之间的距离,因此可以被用来刻画预测值和标签值的差异情况。网络优化阶段伪标签是指根据模型预测的结果转化而成的标签信息
11、。在第二阶段,模型用来分割所输入图像的各区域,同时第一阶段和第二阶段共享 模型的参数。如图 所示,首先利用 在图像中不同对象或区域之间生成较为准确和精细的边界,同时使用 模型预测的结果给 的分割区域赋予伪标签,最后通过梯度反传对分割结果进行迭代优化,详细如下。北京信息科技大学学报(自然科学版)第 卷图 无监督航拍图像语义分割算法的第二阶段模型 首先,利用 对图像 进行分割,生成 个不规则区域 (,)。同时,将图像送入浅层 中进行特征提取。图像 依次进行卷积并生成语义标签图,将其记作 (,),每个像素都有一个类别标签,是标签类型为 的像素集合。然后,根据 分割的每一个区域,在 中找其对应区域,并
12、记录该区域中各个类别出现的频率,把频率最高的类别作为该区域的类别标签(如图 中 即为人物对应区域标签)。所有区域的类别标签集合构成最终的伪标签掩码图 ,使用交叉熵损失函数进行训练,同时采用模型训练所得的类别信息对其进行更新。训练结束时得到的伪标签即为最终的语义分割结果。实验 数据集 和 两个数据集由 等 提出,每个数据集包括 张图像,均由无人机拍摄获得。图像有 种大小,分别是 像素、像素和 像素。包括个类别的分割标注,即植被、建筑物、路、车辆和其他类。包括 个类别,即建筑外立面、路、植被、车辆、屋顶和其他类。数据集 的场景为城市,图像以鸟瞰视角拍摄,拍摄高度距地面 之间。图像大小为 像素。训练
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 训练 模型 航拍 图像 监督 语义 分割
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。