基于弱监督学习的图像语义分割算法综述.pdf
《基于弱监督学习的图像语义分割算法综述.pdf》由会员分享,可在线阅读,更多相关《基于弱监督学习的图像语义分割算法综述.pdf(4页珍藏版)》请在咨信网上搜索。
1、信息通信基于弱监督学习的图像语义分割算法综述仇新2 3,张旭阳”,毛宇新,李锁(1.沈阳理工大学机械工程学院,辽宁沈阳110 15 9;2.中国科学院沈阳计算技术研究所,辽宁沈阳110 16 8;3.东北大学软件学院,辽宁沈阳110 16 9)摘要:由于深度学习技术的迅速发展,在计算机视觉中具有重要的应用价值。首先,对基于弱监督学习的图像语义分割算法进行介绍,归纳出各算法所包含的基本思路、优势与不足。其次,将归纳出用于图像语义分割的常见数据集和评估标准,并对这些数据集的特征做了详细的描述。最后,在测试数据PASCALVOC2012,ILSVRC,MSCOCO等不同类型的样本数据集的条件下,通过
2、对不同类型样本的比较和分析,从新颖、优化和创新三个角度,对基于弱监督学习的图像语义分割的发展趋势进行预测和展望。关键词:图像处理;弱监督学习;语义分割;评估标准中图分类号:TP3932023年第0 5 期(总第 2 45 期)文献标识码:A文章编号:2 0 9 6-9 7 5 9(2 0 2 3)0 5-0 10 5-0 41引言语义分割主要是对图像中的每一个像素进行分类。该方法是计算机视觉中的基础性问题,在理论上有很大的意义。与单一图像处理任务相比,语义分割不仅可以完成物体的分割,还可以完成物体的识别,从而为后续的视觉应用(如图像分析与理解)提供更精细、更高水平的语义信息。它在自动驾驶,图第
3、1轮估计后的像识别,医学图像分析,人机交互等方面得到了广泛的应用。已有的大部分语义分割算法都是基于全监督的,利用像素级别的标签信息,通过改变像素级别的标签信息,使其与输入的标签信息不发生相应的空间变换,从而提升算法的计算效率;利用已有粗标记的弱标记图像,可以降低算法的计算成本和复杂度。然而,由于现有的基于像素级标记的图像集合难以获取海量的像素级标记,因此,人们提出了基于弱监督的语义分割算法。弱监督的语义分割算法,通常是利用简单的标记信息来学习,以减少训练开销。然而,由于其只依赖于简单的图像标记,导致其在实际应用中存在着语义信息不足、识别率低等问题,已成为深度学习领域的一个热点问题。2基于弱监督
4、学习的图像语义分割算法基于弱监督的语义分割相对于像素级的标记,采用更粗略的标记方式。以较少的成本和较弱的标记信息为样本,建立了一个较为理想的分割网模型。按照标记的类型,可以将弱监督的语义分割算法划分为:边界框、涂鸦式、点和图像级的标记,如图1所示。(a)边界框收稿日期:2 0 2 3-0 3-2 9基金项目:辽宁省教育厅面上青年人才项目(LJKZ0258);2 0 2 2 年辽宁省科技厅博士科研启动基金计划项目(2 0 2 2-BS-187)作者简介:张旭阳(1996-),男,黑龙江哈尔滨人,硕士研究生,主要研究方向:模式识别;毛宇新(1998-),男,山西大同人,硕士研究生,主要研究方向:模
5、式识别;李锁(197 9-),男,辽宁锦州人,博士,副教授,主要研究方向:机器人控制技术、嵌入式系统。通讯作者:仇新(198 7-),女,辽宁锦州人,博士,副教授,主要研究方向为智能机器人。105(c)点标签图1弱监督标签类型结构图2.1基于边界框标签的语义分割算法边界框标签是弱监督标记中最复杂的一种。相对于其它类别,边界框标签中含有更多的位置信息,在弱监督类别中具有更好的分割效果。边界框标签是利用多尺度分组组合(MultiscaleCombina-torialGrouping,MC G)和GrabCut等技术来产生图像中的目标区域 2 。Dai 提出了一种BoxSup算法。如图2 所示,MC
6、G提取出原始图像中的目标候选区,神经网络的参数不断地进行变化,从而不断进行迭代,得到较好的分割效果 3。Khoreva 等人将内部的标注信息做为前景信息,外部的标注信息做为背景信息而得到的分割信息,把每个训练样本融合物体的形状特征,并将其作为下一个训练样本,从而得到与全监督学习相似的分割结果。persondog边界框训练图像(b)涂鸦式标签图2 BoxSup网络的框架结构图(d)图像级标签第2 0 轮目标候选区域第5 轮便新候选区域反馈选代更新网络BoxSup训练过程目标候选区域Changjiang Information&Communications2.2基于涂鸦式标签的语义切割算法涂鸦式标
7、签用一条线来表示标记对象的具体位置,从而使标记对象与标记对象之间的区别更加明显。涂鸦式标签是对点标签的一种改良,通过这种方法可以得到待检测对象的大小,其结果优于点标签。DiLin等人对图像中的像素点进行分类,建立图像的分类模型,得到一个新的图像分割结果。反复进行上述操作,最后产生一个假标记 5 。Tang等人将涂鸦区域训练成一个真标签,将涂鸦区域中的信息传输到无标记区域中,将具有相似色彩和相似位置的像素归入到同一个类别中,并将同类像素所产生的伪标签作为弱监督信息来进行分割。2.3基于点标签的语义分割方法点标签是指在一个物体的一个点上标记一个物体的标记信息。Bearman等人利用点标签信息来获得
8、图像中某点对象的面积,通过损失函数获取相邻对象信息,将某点对象的面积延伸到其他区域,得到一个完全对象的面积。2.4基于图像级标签的语义分割方法图像级标签给出图像中的某一类,并不能准确地给出目标的具体位置、形态等信息。Pathak等人通过图像级标签进行数据训练,采用多样本学习MIL来解决语义分割问题8 。随后又提出约束神经网络(Constrained convolutional neuralnetworks,CCNN)模型,该模型通过损失函数设定相应的约束,对算法进行优化,解决了语义分割存在的问题。Pinheiro等人利用多元化学习,将图像级和像素级的标签进行了整合,并加入了光滑的先验。Wei等
9、人创造了STC框架,该框架对分割模型进行增强,然后将增强的分割模型和预测标签整合得到新的分割模型。Kolesnikovl2提出SEC框架,通过CAM3确定目标种子点,并对其进行扩充和限制。然后使用CRF对图像进行了进一步的改进,得到更好的分割结果。Huang等人将SEC框架中的静态监视加强,采用了迭代式的扩展方法,以提高对象分割的完整度和精度4。Zhang等人使用去耦合的空间神经网络,生成了高质量的图像伪标签,从而得到了更好的分割结果 15 。Li等人使用由网络生成的兴趣区域对学习进行引导,从而得到更为精确的结果6 。Wei等人提出回顾扩张卷积法,该方法不仅能够扩大感受野,还能将环境的判别信息
10、转换至未知类别区域,为弱监督语义分割提供方便快捷17 。Lee等人提出了Fickle Net框架,其采用简便的退出方式来确定图像的位置关系以及扩大激活区域18 。熊昌镇等采用了两种尺度的分割模型,并将其与迁移学习的分割模型相结合 9。Anton等人设计出一种新型损失函数一门控全连接条件随机场损失函数(gatedCRFlossfunction),并将其与交叉熵损失函数融合,并与DeepLabV3+模型相结合进行训练,使其语义分割效果提高 2 0 1。Sun等人提出交又图像语义挖掘法。将两个神经网络相整合到分类器当中,从而去捕捉交叉语义的特点2 。Fan等人研究出使用多估计法进行语义分割,通过模型
11、分割的鲁棒性来缓解不精准的种子问题。该方法将任意图像划分成不同类型的种子,并对其进行实际估计2 。3弱监督学习算法的试验分析及比较为了验证弱监督学习算法的效果,通过常用的图像语义仇新等:基于弱监督学习的图像语义分割算法综述分割数据集来验证上述所提出的算法性能,并对其进行分析和对比。表1常用的图像语义分割数据集设计目的/种类数据数据集分辨率训练集验证集测试集应用范围数量总量PASCAL多种应用21VOC20121400ILSVRC多种应用月2 万多多万MSCOCO多种应用81328000不固定8278340504881 434城市场景两万Cityscapes8(30)解析左右注:N/A是指未被相
12、关文献提及或无法确认的内容。3.1语义分割评估标准数据集在研究语义分割问题时,往往会用到大量的图像样本。PASCALVOC2012,ILSVRC,MSCOCO,Cityscapes 等公开资料。(1)PASCAL VOC(PASCAL Visual Object Classes)(2,PASCALVOC为国际性的计算机视觉竞赛提供最著名的图像测试资料和标准。自2 0 0 5-2 0 12 年,PASCALVOC2012一直被广泛使用。该资料集合包括2 1种对象,包括人,动物,交通工具和房屋。照片的尺寸是无限的,而且有一个复杂的、可变的背景。(2)ILSVRC(ImageNet Large Sc
13、ale Visual RecognitionChallenge)2 4,IL SV RC 同时也是计算机视觉竞赛提供数据集之一,拥有140 0 余万幅图像,覆盖2 0,0 0 0 余种类型,其中100万余幅图像具有明确的分类标记,且目标定位标记有详细的文件,便于操作,便于管理。该方法已被广泛地用于影像学研究,并被誉为影像演算的另一种衡量影像演算效能的标准。(3)MScoco(Microsoft Common Objects in Context)2),MSCOCO数据集以前有一个与微软地图相似的大数据库,然后微软就会将其源码公开并加以推广。该数据库共有包括背景在内的8 1个分类,32 8 0
14、0 0 幅图像,2 5 0 万个物体,10 万人体重要部位。大部分图像由复合对象构成,图像中对象有准确的定位标记。(4)Cityscapes(Cityscapes Dataset)26,Cityscapes 将通过对基于无人驾驶的图像分割数据进行分析,来评价该方法对城市场景的语义理解能力。“都市地图”包含了5 0 个不同的环境,背景,季节。街景中有5 0 0 0 幅精细标注的照片,2 万幅粗糙标注的照片,以及30 幅被标注的物体。3.2语义分割的算法评估标准图像语义分割的评估标准主要有时间复杂度、内存占用率和精确度,其中精确度包括像素精度(Pixel Accuracy,PA)、像素准确率平均值
15、(MeanPixelAccuracy,MPA)、平均交并比(Mean Intersection over Union,MIOU)27。一般情况下,三个评估标准的选择是PA、MA 和MIOU,其具体的定义和计算公式见(1)(3)。(1)PA是用来对被适当划分的像素的数目相对于总的图像像素的比率进行计算的,其计算方式为式(1)。1069993不固定146414491452不固定N/A2048102422.973N/AN/A500N/AChangjiang Information&CommunicationsMA代表各分类对象像素精度的平均值,公式(2)中给出了其计算方式。(2)MA=N在这些方法中
16、,MIOU被应用得最多,由于其简单和更具典型性。在图像语义分割方面,平均交并比是一种常见的评估准则,如公式(3),即预测值与真实值的交和并集之比,然后对其进行平均值。MIOU值愈大,则表示分割的结果愈好。2T+2(x,-x.)MIOU=N其中,N为图像像素的分类数量,T表示第i类像素的总数目;X表示实际类型是i,预测类型是i,总的像素数目;X表示实际类型i具有的所有像素,预测类型j具有的所有像素。在此基础上,将进一步研究基于该模型的语义分割网络,并将其应用于实际的语义分割。以PASCALVOC2012,I L-SVRC,MSCOCO等为实验样本,以MIOU为指标对该算法进行评估。表2 PASC
17、ALVOC2012数据集上性能对比表类型方法边界框标签BoxSup余鸦式标签ScribbleSup点标签WTP图像级标签MIL-FCNCCNNMIL-bbSTCSECDSRG-VGG16DSRG-ResNetDSNA-VGG16DSNA-ResNetGAINRevisitingdilated convolutionFickleNet-VGG16FickleNet-ResNetGate CRFMining cross-image semanticsMulti-estimations107仇新等:基于弱监督学习的图像语义分割算法综述(x.)表3ILSVRC数据集上性能对比表11PA=XMIOU(V
18、al)62.063.146.125.735.337.849.850.759.061.455.458.255.360.861.264.975.5880.583.8(1)(3)MIOU(Test)64.6一24.935.637.051.251.760.463.256.460.156.861.061.965.376.6882.584.0类型边界框标签涂鸦式标签ScribbleSup点标签WTP图像级标签MIL-FCNCCNNSTCSEC表4MSCOCO数据集上的性能对比表类型方法边界框标签BoxSup涂鸦式标签ScribbleSup点标签WTP图像级标签MMI综上所述,弱监督学习语义分割适用于图像级
19、标签方法,但其分割方法适用的公开数据集不够全面,仅仅是适用于PAS-CALVOC2012数据集,人,动物,交通工具和房屋普遍存在背景的图像分割,影像学、人体部位、还有城市背景的分割性能仍是较弱的。并且弱监督语义分割方法利用少量精细标注图像取得的分割结果并不理想,希望该领域今后能够取得突破性进展。4结语首先研究基于弱监督学习的图像语义分割算法,并将其应用于相同的数据集上。其次,对目前研究中的一些主要问题进行了分析,并对这些问题进行了研究。在进行语义分割时,由于需要对大量的像素点进行准确的标记,因此需要花费很长的时间和精力,导致了语义分割的数据集不够宽泛,而基于小样本、低成本的弱监督学习则可以获得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 监督 学习 图像 语义 分割 算法 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。