超分辨率重建技术及其在智能终端上的应用.pdf
《超分辨率重建技术及其在智能终端上的应用.pdf》由会员分享,可在线阅读,更多相关《超分辨率重建技术及其在智能终端上的应用.pdf(10页珍藏版)》请在咨信网上搜索。
1、 工程与应用 超分辨率重建技术及其在智能终端上的应用 祝谷乔1,姜超2,徐煜烨2(1.天翼数字生活科技有限公司,上海 200085;2.中国信息通信科技集团有限公司,湖北 武汉 430070)摘 要:简单介绍了超分辨率重建技术的发展历程和几种有代表性的超分方法及其实现原理,提出了在智能终端上实现超分辨率重建技术的方案,通过实验仿真,给出了采用插值算法和深度学习算法实现的单图像超分辨率对终端处理性能、图像质量等方面的评估与分析,提出了利用智能终端实现超分的适用场景的建议。并进一步探讨了该技术在娱乐视频与家庭监控业务中的典型应用场景,展望了超分辨重建技术未来可能的研究方向以及与相关图像处理技术相融
2、合的发展趋势。关键词:超分辨率;插值方法;深度学习算法;视频业务 中图分类号:TP393 文献标志码:A doi:10.11959/j.issn.10000801.2023150 Super-resolution reconstruction technology and its application on intelligent terminal device ZHU Guqiao1,JIANG Chao2,XU Yuye2 1.E-surfing Digital Life Technology Co.,Ltd.,Shanghai 200085,China 2.China Informat
3、ion Communication Technologies Group Co.,Ltd.,Wuhan 430070,China Abstract:The development history of super-resolution reconstruction technology and its typical approaches were briefly introduced.An implementation solution of super-resolution reconstruction was proposed on one kind of intel-ligent te
4、rminal device.The image super-resolution approaches implemented by interpolation algorithms and deep learning algorithms were experimented and simulated,and their results on terminals processing performance and images quality of experience were evaluated and analyzed.The suggestions on appropriate s
5、cenarios of su-per-resolution implemented by the intelligent terminal device were proposed.Furthermore,some typical cases of su-per-resolution reconstruction technology in the fields of entertainment video services and home surveillance services were discussed.The possible research direction and the
6、 trend of convergence of this technology and relevant image processing technologies were also prospected.Key words:super resolution,interpolation approach,deep-learning algorithm,video service 收稿日期:20230327;修回日期:20230714 157 电信科学 2023 年第 7 期 0 引言 超分辨率重建(super-resolution reconstruction,SR)是计算机视觉领域的一类
7、重要技术,是一门具有较高科学研究价值且有广泛应用领域的现代图像处理技术。图像分辨率是图像质量的重要指标,分辨率越高,图像提供的信息越丰富,细节越精细,质量越佳。内容采集、存储等方面的限制以及传输过程中的干扰等因素,导致图像质量出现不同程度的退化。超分辨率重建技术就是采用信号处理的方法提高图像分辨率,它基于一张或多张低分辨率图像对缺失的图像细节进行恢复或补足1-2,以实现图像或视频从低分辨率向高分辨率的转换,在生物医学3、航空研究、视频监控、视频直播/点播4、虚拟现实等领域表现出巨大的应用潜力。针对娱乐视频和家庭视频监控等业务领域,超分辨率重建技术目前尚未得到规模化应用。本文通过在智能机顶盒终端
8、上实现的几种插值算法和深度学习算法,通过实验仿真,给出了图像超分辨率重建对图像质量、终端性能等方面的评估与分析,并基于当前芯片的处理能力及从用户视觉体验的角度,提出了智能终端实现图像或视频超分辨率的适用场景,为该技术在视频业务领域的应用推广提供参考。1 主要算法 超分辨率技术诞生于 20 世纪 60 年代,经历了单图像的超分辨率、与深度学习算法相结合、视频序列的超分辨率等不同阶段,本文主要针对单图像超分辨率重建的几种典型算法进行简单介绍。1.1 插值算法 插值算法5是超分辨率技术中最基本、简单与直接的一种方法,其思路是通过不同的计算方法模拟像素之间的映射关系,利用周围像素点的信息对目标像素点进
9、行插值处理。它根据抽样函数或信号估计出连续位置的数值,或者根据一系列离散采样点重建原始的连续函数,目标是尽可能地保留图像的细节。1.1.1 最近邻插值 最邻近插值(nearest neighbor interpolation)又称零阶插值,其计算原理是取待插值点周围 4 个相邻像素点中距离最短的一个邻点的灰度值作为该点的灰度值。1.1.2 双线性插值 双线性插值(bilinear interpolation)又称一阶插值,其插值原理是待插点像素值取原图像中与其相邻的 4 个点像素值的水平、垂直两个方向上的线性内插,即根据待采样点与周围 4 个邻点的距离确定相应的权重,从而计算出待采样点的像素值
10、。1.1.3 双三次插值 双三次插值(bicubic interpolation)又称立方卷积插值6,是一种比较复杂的插值方法,其原理是利用以采样点为中心的44邻域内的16个已知像素点的灰度值估计采样点的灰度值。双三次插值的示意图如图 1 所示。图 1 双三次插值的示意图 1.1.4 兰索斯插值 兰索斯插值(Lanczos interpolation)是选取待采样点在水平、垂直方向上相邻的 8 个像素点的值并进行加权和的计算,以生成目标像素点的像素值。与双线性插值算法不同的是,插值点的权重由高阶函数计算得到。1.2 深度学习算法 深度学习算法是对特征类型的图片进行训练,并利用专门设计的神经网络
11、对低分辨率图像进行纹理补充、细节补充、降噪、去隔行等处理,工程与应用 158 从而重建具有丰富细节内容的高分辨率图像。该方法通过学习算法获得高分辨与低分辨率图像之间关系的先验知识,以取代传统的重建方法所用的正则化算法。基于深度学习的超分辨率图像重建方法主要采用以下几种网络结构。1.2.1 基于卷积神经网络 基于卷积神经网络7(convolutional neural network,CNN)的深度学习算法是直接对低分辨率图像和高分辨率图像进行端到端映射的学习,弥补传统重建算法对高频细节信息丢失的缺陷。(1)线性网络 线性网络有最为简单的结构,仅由单一的信号流动路径组成,多个卷积层相互叠加,网络
12、的输入从初始层依次传递向后层。根据上采样方式的不同,可分为预上采样模式和后上采样模式两种类型。在使用预上采样模式的线性网络中,首先会将输入的低分辨率图像通过上采样操作放大至目标高分辨率图像的尺寸,然后送入网络学习分层,经特征表示后,得到最终的超分辨率重建结果,预上采样模式中的上采样操作通常使用双三次插值算法。该方法学习难度较低,时间和空间复杂度较高。后上采样模式的网络首先会对低分辨率的输入进行学习,然后对网络输出的特征进行上采样,完成重建任务。这种方法让特征提取过程在低维空间上进行,训练速度和推理速度较快,但它不能适应不同的放大倍数。(2)残差网络 与线性网络相比,基于残差学习的网络在设计中采
13、用跳跃连接避免梯度消失,支持设计更深的网络结构。网络模型用于学习生成一张目标高分辨率图像与经过插值后的低分辨率图像之间的残差图像,通过将残差图像与输入低分辨率图像的插值结果逐像素相加得到重建结果。残差网络对图像中高频信息的学习更为充分。采用了残差网络的 VDSR(accurate image super-resolution using very deep convolutional networks)流程如图 2 所示。(3)递归网络 递归网络8采用的是递归连接的卷积层,即通过在网络的不同深度复用同一个卷积,达到降低网络参数的目的。它将一个困难的任务分解成简单任务,可降低学习难度,但存在模型
14、复杂、训练难度大的问题。1.2.2 基于生成对抗网络 基于生成对抗网络9(generative adversarial network,GAN)的深度学习算法是利用“对抗博弈”的思想,将模型训练无监督化,借助反向传播不断优化模型缩减原始图像与重建图像之间的 图 2 采用了残差网络的 VDSR 流程 159 电信科学 2023 年第 7 期 差距。对抗网络引入生成器和判别器的两个神经网络,通过迭代训练使之达到纳什均衡状态。通常情况下,进行对抗损失训练的模型具有更好的感知质量,但训练过程存在困难与不稳定性10。对抗网络典型结构示意图如图 3 所示。2 实现方案 本文在一款 8K 智能机顶盒上实现了
15、超分辨率重建技术,通过将 OpenCV 开发工具库和部分OpenCV_contrib 移植进机顶盒系统版本中,形成软件开发工具包(software development kit,SDK)供上层应用调用,支持图像或视频超分辨率的处理能力。将多种典型的插值算法、深度学习算法集成进OpenCV 的 resize 函数和 DnnSuperResImpl 函数,同时也实现了均方误差7(mean square error,MSE)、峰值信噪比7(peak signal-to-noise ratio,PSNR)、结构相似性7(structural similarity,SSIM)等图像质量评价的算法,支持
16、对超分后图像的质量实时提供量化的评估结果。从逻辑功能的角度,智能机顶盒主要由图像超分处理、图像全屏显示和图像处理计算等功能模块组成。其中图像超分处理模块主要是调用 OpenCV的方法实现对图像的插值或 AI 超分辨率处理(C 语言实现),图像全屏显示模块主要实现对超分图像的全屏显示功能(Java 语言实现),图像处理计算模块主要用于对超分后图像的 PSNR、SSIM 指标进行计算,从而给出图像质量的客观评价数据。智能机顶盒的图像超分辨实现流程如图4所示。3 实验结果 3.1 质量评价方法 图像质量评价方法通常分为客观评价和主观评价两类。客观评价11是模拟人对图像质量的感知过程,构建与主观评价结
17、果相一致的评价算法;而主观评价是以人作为观测者,对图像进行主观评价,力求能够真实地反映人的视觉感知。本文实验所采用的质量评价方法主要是全参考客观评价 PSNR 与 SSIM 指标以及主观绝对评价平均意见得分(mean opinion score,MOS)指标。MOS是衡量图像质量最具代表性的主观评价方法,它通过对观察者的评价归一判断图像质量,实验主要采用双刺激连续质量分级法的方式,即将待评价图像和原始图像按一定规则交替播放持续一定时间给观察者,观察者根据自己的知识和理解对图像进行打分,将所有的分数取平均得到主观评价值。客观评估PSNR为该领域应用最早和最广的参数之一,它用于衡量图像噪声水平或图
18、像有损变换(图像压缩、图像修复)重建质量的客观评价;通过图像之间的最大可能像素值(通常为 255)和 MSE进行定义,正常情况下 PSNR 的范围为 2040 dB,越接近 40 dB,表示图像重建的质量越好。SSIM 为一种衡量两幅图像相似度的客观指标,它与主观体 图 3 对抗网络典型结构示意图 工程与应用 160 验的一致性最高,已成为当前全参考图像质量评价的基准算法;它从人类视觉系统(human visual system)的角度出发,从图像中提取结构信息,将亮度(均值)、对比度(方差)和结构这 3 个相对独立的层次进行比较,SSIM 的取值范围为 01,数值越大,表示结构相似性越高,重
19、建效果越好。3.2 实验方法说明 实验采用一款8K 智能机顶盒终端,按照第2 节的方案进行了超分辨率重建的功能实现,集成了以下对比实验所使用的各种插值算法、深度学习算法以及客观质量评价算法。机顶盒的运行环境为 CPU(8 核 A73)、GPU(6 核 G52)、NPU(int4 9 T 算力)、6 GB(LPDDR4);机顶盒的软件版本为 OpenCV 4.5.0+OpenCV_contrib4.5.0。实验选取了分辨率为 576P、720P、1080P 的多组图像数据集(每项实验采用的图片数量均大于 30 张),运行不同算法对图集进行了超分辨率重建,针对不同超分辨率算法和不同超分比例的多种情
20、况,给出图像超分辨处理对终端性能消耗、图像质量等方面平均表现的评估。实验采用以下几种典型的插值算法和深度学习算法进行比较:插值算法包括最邻近插值、双线性插值、双三次插值、兰索斯插值,深度学习算法包括快速超分辨率卷积神经网络(fast super resolution convolu-tional neural network,FSRCNN)、小型快速超分辨卷积神经网络(small FSRCNN,FSRCNN-s)、高效子像素卷积神经网络(efficient sub-pixel con-volutional neural network,ESPCN)和拉普拉斯金字塔超分辨率网络(Laplacia
21、n pyramid network for fast and accurate super-resolution,LAPSRN)。3.3 实验数据 3.3.1 插值算法的比较 各种插值算法的特性比较见表 1。本实验选取了分辨率为 576P 和 1 080P 的数据集,分别超分成 1 080P 和 4K 的高清图像,720 pixel576 pixel 超分至 1 920 pixel1 080 pixel和 1 920 pixel1 080 pixel 超 分 至 4 096 pixel 2 160 pixel 插值算法的性能与质量结果分别见 图 4 智能机顶盒的图像超分辨率实现流程 161 电
22、信科学 2023 年第 7 期 表 2 和表 3,为采用不同插值算法实现单图像超分辨率的处理性能和图像质量等方面的平均表现。从表 2 和表 3 可以得到以下内容。(1)在本实验中,超分辨率的处理时长与原图分辨率、目标分辨率成正相关,分辨率越大耗时越长。(2)4 种插值算法中,最近邻插值和双线性插值的图像质量较差,仅适用于实时性要求特别高但处理能力非常有限的场景。使用双三次插值和兰索斯插值的图像质量较好,这两者相比,双三次插值的运算速度快,而兰索斯插值的质量更胜一筹。(3)实验所用的智能机顶盒和插值算法(尤其是兰索斯算法),将标清图像(720 pixel576 pixel)超分至高清图像(1 9
23、20 pixel1 080 pixel)所用的处理时长均在12 ms 以内(小于16 ms),适用于60 f/s(f/s 为画面每秒传输帧数)及以下的视频进行实时超分处理的场景,如高清直播业务。而对于从高清图像(1 920 pixel1 080 pixel)超分到超高清图像(4 096 pixel2 160 pixel)的情况,由于处理用时超过 32 ms(大于 16 ms 且小于 33 ms),对高于 30 f/s的视频可能引起内容播放过程中的卡顿、丢帧等现象,不适用于此类高帧率实时视频处理的场景,但可用于普通帧率(30 f/s 及以下)的实时超分处理,也可用于高帧率视频内容的超分预处理的场
24、景,如点播业务、本地播放业务等。3.3.2 深度学习算法的比较 本实验选取分辨率为 576P 和 1 080P 的数据集,分别超分成 1 080P 和 4K 的高清图像,720 pixel 576 pixel超分至1 920 pixel 1 080 pixel和 1 920 pixel 1 080 pixel 超分至 4 096 pixel 2 160 pixel 深度学习的性能与质量结果分别见表 4和表 5,为采用不同深度学习算法实现单图像超分辨率的处理性能和图像质量等方面的平均表现。从表 4 和表 5 可以得到以下内容。表 1 各种插值算法的特性比较 插值算法 灰度连续情况 相邻像素的影响
25、 锯齿现象 运算速度 最邻近插值 不连续 未考虑 不可避免,有块状效应 最快 双线性插值 连续 未考虑 可避免,轻微马赛克效应 较快 双三次插值 连续 考虑 可避免 一般 兰索斯插值 连续 考虑 可避免 较慢 表 2 插值算法的性能与质量结果(720 pixel576 pixel 超分至 1 920 pixel1 080 pixel)插值算法 评价指标 处理用时/s CPU 资源 PSNR SSIM MOS 最邻近插值 0.007 121 22%30.261 5 0.845 27 1 双线性插值 0.011 045 24%32.238 5 0.887 91 2 双三次插值(44)0.011 4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分辨率 重建 技术 及其 智能 终端 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。