多层特征融合与语义增强的盲图像质量评价.pdf
《多层特征融合与语义增强的盲图像质量评价.pdf》由会员分享,可在线阅读,更多相关《多层特征融合与语义增强的盲图像质量评价.pdf(10页珍藏版)》请在咨信网上搜索。
1、DOI:10.11992/tis.202301007网络出版地址:https:/ 控制与计算机工程学院,河北 保定 071003;2.复杂能源系统智能计算教育部工程研究中心,河北 保定 071003)摘 要:针对现有盲图像质量评价算法在面对真实失真图像时性能较差的问题,本文提出多层特征融合和语义信息增强相结合的无参考图像质量评价算法。提取图像的局部和全局失真特征,利用特征融合模块对特征进行多层融合;利用多层扩张卷积增强语义信息,进而指导失真图像到质量分数的映射过程;考虑预测分数和主观分数之间的相对排名关系,对 L1损失函数和三元组排名损失函数进行融合,构建新的损失函数 Lmix。为了验证本文方
2、法的有效性,在野生图像质量挑战数据集上进行了验证和对比实验,该算法的斯皮尔曼等级相关系数与皮尔逊线性相关系数指标相比原算法分别提升 2.3%和 2.3%;在康斯坦茨真实图像质量数据数据集和野生图像质量挑战数据集上进行了跨数据集实验,该算法在面对真实失真图像时表现出了良好的泛化性能。关键词:深度学习;图像质量;卷积神经网络;特征提取;通道注意力结构;多层次特征融合;扩张卷积;三元组损失函数中图分类号:TP391.41 文献标志码:A 文章编号:16734785(2024)01013210中文引用格式:赵文清,许丽娇,陈昊阳,等.多层特征融合与语义增强的盲图像质量评价 J.智能系统学报,2024,
3、19(1):132141.英文引用格式:ZHAO Wenqing,XU Lijiao,CHEN Haoyang,et al.Blind image quality assessment based on multi-level feature fu-sion and semantic enhancementJ.CAAI transactions on intelligent systems,2024,19(1):132141.Blind image quality assessment based on multi-level featurefusion and semantic enhanc
4、ementZHAO Wenqing1,2,XU Lijiao1,CHEN Haoyang1,LI Mengwei1(1.School of Control and Computer Engineering,North China Electric Power University,Baoding 071003,China;2.Engineering Re-search Center of the Ministry of Education for Intelligent Computing of Complex Energy System Department,Baoding 071003,C
5、hina)Abstract:Aiming at the low performance of the existing blind image quality assessment algorithm when facing the realdistorted images,the paper proposes a new no-reference image quality assessment algorithm,namely multi-level featurefusion and semantic enhancement for NR(MFFSE-NR),which combines
6、 multi-level feature fusion and semantic in-formation enhancement.The local and global distortion features of an image are extracted,then a feature fusion moduleis used to fuse the features in layers.The multi-layer dilated convolution is employed to enhance semantic informationand further direct th
7、e mapping process from distorted image to quality fraction.Finally,a novel loss function called Lmixis created by combining the triplet ranking loss function and the L1 loss function,taking account of the relative rankingrelationship between the predicted score and the subjective score.Validation an
8、d comparison experiments carried out onLIVEC dataset show that both the SROCC and PLCC index are improved respectively by 2.3%than the original al-gorithm;cross-dataset validation on the KonIQ-10k dataset and LIVEC dataset confirm that the proposed algorithm hasgood generalization ability when deali
9、ng with the real distorted images.Keywords:deep learning;image quality;convolution neural network;feature extraction;channel attention structure;multi-level feature fusion;dilated convolution;triplet loss function 图像在采集、存储、传输中可能存在着模糊、噪声等失真问题1。图像质量评价(image qualityassessment,IQA)旨在为各种失真图像进行质量的收稿日期:202
10、30109.网络出版日期:20230731.基金项目:国家自然科学基金项目(61773160,61871182);河北省自然科学基金项目(F2021502013);中央高校基本科研业务费项目(2020MS153,2021PT018).通信作者:赵文清.E-mail:.第 19 卷第 1 期智能系统学报Vol.19 No.12024 年 1 月CAAI Transactions on Intelligent SystemsJan.2024智能系统学报编辑部版权所有评级打分,对多种图像处理算法的评估、改善图像的视觉体验具有重要意义。最直接的图像质量评价方法是根据人类的视觉感知进行评分,但是这种方法
11、会被人的主观因素所影响,且耗时费力。随着计算机技术的不断发展,在没有人工干预的情况下,可自动进行图像的质量评价2。全参考图像质量评价算法要求利用高清晰度、无失真图像作为参照,传统的全参考图像质量评价算法有峰值信噪比算法(peak signal to noise ratio,PSNR)3和文献 4 提出的结构相似度算法(structural similarity index measure,SSIM)等。半参考图像质量评价算法仅利用无失真图像的部分特征即可评估图像的质量,如文献 5 实现的综合多尺度几何分析算法。但是,现实中的失真图像很难找出对应的无失真图像。无参考图像质量评价(no refer
12、ence image quality assessment,NR-IQA)算法不需要使用参考图像,通过提取图像的失真特征对图像进行评价,在实际中有着广泛的应用6。盲/无参考图像空间质量评估器(blind/refer-enceless image spatial quality evaluator,BRISQUE)7算法将图像的高斯分布特征作为质量分数的回归特征。基于高阶统计聚合的盲图像质量评估(blind image quality assessment based on high orderstatistics aggregation,HOSA)算法8提取码本中图像的归一化均值、方差和协偏度
13、等特征,通过计算码本中图像和测试图像之间的特征差异来进行质量分数的回归。以上方法需要从失真图像中提取人为设计的图像特征,要求人们具有足够的先验知识,具有一定的局限性且性能提升较慢。鉴于深度模型具有很强的特征抽取能力,越来越多的学者将其应用到图像质量评价领域9。用于无参考的加权平均深度图像质量评估(weightedaverage deep image quality assessment metric-norefenence,WaDIQaM-NR)10通过堆叠多个卷积层和池化层自动提取与畸变有关的特征,并将图像分割成许多图像块,对图像块的分数进行加权操作来得到整幅失真图像的质量分数。分级退化级联
14、卷积神经网络(cascaded convolutional neural net-work with hierarchical degradation concatenation,CaHDC)11考虑了人类视觉系统中分层感知机制,利用卷积神经网络(convolutional neural net-work,CNN)学习退化特征,实现质量的预测。深度双线性卷积神经网络(deep bilinear convolution-al neural network,DB-CNN)12分别设计针对合成失真和真实失真的 CNN 模型来提取失真特征,采用双线性池进行结合,最后利用全连接层进行质量分数的回归。文献
15、 13 利用数据驱动的方式,将大量带有标记的畸变图像映射为质量分数,使无参考图像质量评价(no reference image quality as-sessment,NR-IQA)算法在合成失真图像数据集上的性能得到了显著提高。然而,以上方法考虑的是图像退化的全局信息,而真实情况下,大多数畸变都是局部畸变,而且人的视觉系统对局部畸变十分敏感,从而导致以上算法在面对真实失真图像时表现不佳。自适应超网络引导下的野外图像质量盲评估算法(blindly assess image quality inthe wild guided by a self-adaptive hyper network,Hy
16、perIQA)14首次将不同层次的局部失真特征进行提取聚合。多尺度特征逐层融合的深度神经网络(deep neural network based on multi-scale featuresfusion layer-by-layer,MsFF-Net)15通过逐层融合相邻的尺度特征,获得了更能精确表征图像质量的多尺度失真特征。从补丁到图片的盲图像质量测量算法(from patches to pictures blind image qualitymeasurement,P2P-BM)16构建了基于图像区域的深度架构,用于学习生成局部的图像质量分数以及全部的图像质量分数。以上 3 种方法充分考
17、虑到了图像细粒度的局部畸变在评价过程中的作用,在野生图像质量挑战数据集(live in the wildimage quality challenge database,LIVEC)17和康斯坦茨真实图像质量数据库(konstanz authentic im-age quality 10k database,KonIQ-10k)18上性能得到了明显的提升。为了兼顾图像的局部和全局信息,往往对相邻层的特征构建金字塔结构,但是会造成语义跨度较大的问题,而且简单的特征融合不能有效地提取失真图像的细节信息19。在面对不同内容时,人们观察图像的感知方式并不相同,IQA 任务应与图像的语义信息高度相关。真
18、实失真图像中内容多种多样,存在着各种局部和非局部的失真,质量评价算法需要同时考虑失真图像中的语义信息和局部信息19。尽管以上方法中的回归损失对于质量预测任务十分有效,但是没有考虑图像块之间的排序关系20。因此,本文针对以上存在的问题,提出了多层特征融合和语义增强相结合的盲图像质量评价算法(multi-level feature fusion and semantic enhance-ment for NR,MFFSE-NR),将失真图像块输入到深层特征提取网络,提取出局部和全局特征,利用特征融合模块对各个特征进行分层融合,然后对各个层次的特征进行自适应池化,最后通过全连133赵文清,等:多层特
19、征融合与语义增强的盲图像质量评价第 1 期 接层得到每个输入图像块的分数;为了更好地利用图像语义信息,设计语义特征增强模块,捕获长距离的上下文关系,使用语义信息为全连接层生成参数。考虑预测分数和主观分数之间排名的一致性,设计带有相对排名信息的混合损失函数 Lmix。1 相关技术和理论 1.1 Res2Net50 网络本文选取 Res2Net5021网络作为主干网络,结构如图 1 所示。Res2Net50 将 ResNet5022的bottleneck 中的 33 卷积进行多尺度解耦,以进行多尺度的特征提取。首先是 11 的卷积运算,之后对通道进行分组,图 1 中组数 scale 为 4,第 1
20、 组的特征向下传递,第 2 组的特征经过一个 33 卷积进行特征提取,由此特征提取的感受野随之改变,以此类推,越到后面的组感受野越大,最后将各个组的特征进行拼接还原,再次使用 11 卷积融合通道信息来提取同一层次的多尺度特征。本文中 scale 取 4,每次拆分中通道数 width 取 26。11x1x2x3x4y1y2y3y433333311ConvNorm_layerMaxpoolingBottleneckBottleneckBottleneckBottleneckBottleneckBottleneckBottleneckBottleneckBottleneckBottleneckBot
21、tleneckBottleneckBottleneckBottleneckBottleneckBottleneckAvgpoolFC待分类图片分类结果1111x1x2x3x4y1y2y3y433333311 图 1 Res2Net50 整体架构Fig.1 Overall structure of Res2Net50 1.2 特征金字塔网络为了有效识别目标检测任务中的多尺度目标,特征金字塔网络(feature pyramid networks,FPN)采用自顶向下的结构将上层具有高级语义信息的特征图进行上采样,与低层具有细节信息的特征图逐元素相加,把来自不同卷积层的不同表征信息融合在一起,实现多
22、层特征的融合和增强。以 ResNet 作为特征主干网络为例,FPN 选取conv2、conv3、conv4、conv5 层的最后一个残差块的输出特征组成特征金字塔。每层特征图首先在横向上进行 11 卷积,然后将上一层特征图进行自顶向下的上采样,放大到上一层特征图一样的大小,将二者生成的特征图通过相加的方式进行融合,横向连接之后的特征图再次经过 33 的卷积得出最终的特征金字塔。1.3 通道注意力模型注意力机制可以为网络生成更具有辨别能力的特征,关注更需要关注的信息而忽略无关的信息。SENet 是通道注意力机制的代表模型,可以嵌入在各种网络结构中改善性能。SENet 首先利用全局平均池化(glo
23、bal average pooling,GAP)对 WHC 的特征图进行压缩,将每个通道上的空间特征进行编码,得到 11C 的全局特征图;然后利用 2 个全连接层先降维再进行升维,实现通道之间的交互,得到 11C 大小的向量;最后经过非线性激活函数 Sigmoid 生成每个通道的权重,将其与原始特征图相乘,得到加权后的通道特征。1.4 扩张卷积扩张卷积最早出现在 DeeplLab 系列中,通过在卷积核的各像素点中间加入 0 值的像素点,增大卷积核的尺寸,可以在不牺牲特征图尺寸的前提下增加感受野,提取更多的语义信息,有效避免池化操作过程中造成的信息丢失。当多次叠加的扩张卷积具有相同的扩张率时,由
24、于卷积核存在间隔,不是所有的输入都参与计算,会出现计算中心向外扩散的情况,为此,将扩张率设置为不同值的组合,可以很好地避免这个问题。第 19 卷智能系统学报134 1.5 三元组损失函数深度度量学习以使同类对象之间的距离比较近而不同类的对象之间的距离比较远作为目标。三元组损失最初由谷歌的研究团队提出,在人脸识别领域被广泛使用,用于实现对非同类极相似样本的区分23。三元组损失函数为Ltriple(a,p,n)=max0,|a,p|a,n|+A(1)式中:A 为常量,通过学习,模型会让锚点 a 和正例 p 的距离值更小,同时让锚点 a 和负例 n 的距离值更大,从而实现模型对细节的区分。2 基于多
25、层特征融合和语义增强的盲图像质量评价网络本文提出的多层特征融合和语义增强相结合的盲图像质量评价算法(multi-level feature fusionand semantic enhancement for NR,MFFSE-NR),能够有效地处理真实失真场景中的各种复杂失真,如图 2 所示,模型包含 4 个模块,分别为多尺度特征提取模块、多层特征融合模块、语义信息增强模块和语义信息指导的质量分数回归模块。主观分数Conv2_16Conv3_12Conv4_18Conv5_9MFMMFMFCFCFCFCC282851214141 024772 048565625611Conv77Avgpoo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多层 特征 融合 语义 增强 图像 质量 评价
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。