考虑用户感知的立体图像生成.pdf
《考虑用户感知的立体图像生成.pdf》由会员分享,可在线阅读,更多相关《考虑用户感知的立体图像生成.pdf(12页珍藏版)》请在咨信网上搜索。
1、2023 年 10 月 图 学 学 报 October2023第 44 卷 第5期 JOURNAL OF GRAPHICS Vol.44No.5 收稿日期:2023-02-07;定稿日期:2023-06-15 Received:7 February,2023;Finalized:15 June,2023 第一作者:陈鹏(1996),男,硕士研究生。主要研究方向为人工智能与数字图像处理。E-mail:chen_ First author:CHEN Peng(1996),master students.His main research interests cover artificial int
2、elligence and digital image processing.E-mail:chen_ 通信作者:向为(1991),男,讲师,博士。主要研究方向为智能设计等。E-mail: Corresponding author:XIANG Wei(1991),lecturer,Ph.D.His main research interests cover intelligent design,etc.E-mail: 考虑用户感知的立体图像生成 陈鹏1,江浩2,向为1(1.浙江大学计算机科学与技术学院,浙江 杭州 310013;2.浙江大学宁波研究院,浙江 宁波 315048)摘要:近年来,三
3、维(3D)显示器由于其优越的沉浸式体验而受到越来越多的关注。然而 3D 内容的缺乏限制了 3D 显示器的发展。为了获得稀缺的 3D 内容,二维(2D)到 3D 转换是一种有前途且有效的方法。转换需要向 2D 内容添加额外的深度信息。然而,现有的深度估计方法由于其不稳定性,不能满足 2D 到 3D 转换的要求。为此提出一种立体图像呈现系统,其在考虑人类感知的同时,将单目图像转换为一对用于 3D 显示的立体图像。该系统的核心步骤提出了一种考虑人类感知的深度优化算法(DOCHP),以语义分割图作为输入,通过考虑人类感知(包括注意力机制和深度感知)来生成优化的深度图,增强立体图像的立体效果。实验结果表
4、明,采用系统优化的深度图生成立体图像,可以让用户感受到较强的 3D 效果。此结果显示了立体图像制作中考虑人类感知特征的必要性,也将支持裸眼立体图像的推广应用。关键词:2D-to-3D;3D 显示;人类感知;单目图像;立体感增强 中 图 分 类 号:TP 391 DOI:10.11996/JG.j.2095-302X.2023050966 文 献 标 识 码:A 文 章 编 号:2095-302X(2023)05-0966-12 Stereoscopic image generation considering human perception CHEN Peng1,JIANG Hao2,XIA
5、NG Wei1(1.School of Computer Science and Technology,Zhejiang University,Hangzhou Zhejiang 310013,China;2.Ningbo Research Institute,Zhejiang University,Ningbo Zhejiang 315048,China)Abstract:In recent years,three-dimensional(3D)displays have garnered increasing attention for their superior immersive e
6、xperience.However,the lack of 3D content poses a challenge to the development of 3D displays.To obtain scarce 3D content,two-dimensional(2D)-to-3D conversion has emerged as a promising and effective approach.The conversion involves adding extra depth information to 2D content.However,existing depth
7、estimation methods cannot satisfy the requirements of 2D-to-3D conversion because of their instability.This paper presented a stereoscopic image presentation system,which was designed to transfer a monocular image to a pair of stereoscopic images for 3D displays while considering human perception.Th
8、e core step of the system proposed an algorithm called depth optimization considering human perception(DOCHP),using semantic segmentation images as input and considering human perception,including attentional mechanisms and depth perception to enhance the stereoscopic effect of the stereoscopic imag
9、es.The experimental results demonstrated that the stereoscopic images,which were generated through the deep map optimized by the system,provided users with a strong sense of 3D effect.This article demonstrated the necessity of incorporating human perceptual characteristics in the production of autos
10、tereoscopic images and bolstered the promotion and application of autostereoscopic images.第 5 期 陈鹏,等:考虑用户感知的立体图像生成 967 1 Keywords:2D-to-3D;3D displays;human perception;monocular images;stereoscopic sensation enhancement 过去几十年,三维(3D)产业快速发展,与二维(2D)显示器相比,3D 显示器提供额外的深度信息以形成沉浸式体验。3D 电影、立体电视的普及表明,用 3D 来呈现
11、内容是未来的趋势。然而,3D显示的方式受限于获取 3D 内容的难度。目前可以使用 2 种主要方法来获取 3D 内容:多相机系统和2D-to-3D 转换。与多相机系统相比,2D-to-3D 转换技术需要更少的设备且具有更低的成本,因此近年来被广泛应用。典型的 2D-to-3D 转换过程包括 2 个步骤:基于给定的 2D 内容估计深度图;基于深度图像的渲染(depth image-based rendering,DIBR)1形成立体图像。DIBR 已是一种成熟的技术,而深度估计在 2D-to-3D 转换中仍然是一个问题。经典的深度估计方法以各种方式制定,如散焦深度、透视几何深度和模型深度2。随着深
12、度学习的兴起3,基于模型的深度估计方法由于其通用性和较好精度而成为最先进的算法。如,LI 和 SNAVELY4基于收集的大规模图像数据集训练神经网络,以估计 2D 图像的深度图。其方法适用于所有类型的2D 图像,并具有优异的性能。尽管深度估计具备高效率的优点,但 2D-to-3D 转换仍然无法呈现令人满意的立体感。这是因为深度图感知受人类视觉系统工作方式的影响。人类视觉系统处理深度信息时不仅依赖于深度图本身,还需要结合场景、运动、光照等因素进行感知和加工。因此,在研究深度图时,需要考虑到人类视觉感知的过程:(1)仅由神经网络生成的深度图由于其精度问题而不能满足 2D-to-3D 转换方法的需要
13、。大多数深度估计方法都存在模糊边界问题,即物体相交部分的深度接近。正如刚好可注意到的深度差异(just noticeable depth difference,JNDD)5中所述的,当人们通过立体设备观看立体图像时,无法感知到小的深度差,这意味着模糊边界问题会导致立体感的损失。(2)立体感取决于人类感知的特征(如,注意力机制和深度感知),在现有的 2D-to-3D 转换中未得到充分考虑。本文以语义分割图为基础,将单目图像转换为立体图像的呈现系统,该系统考虑了人类对注意力机制的感知和深度感知以提高立体感。实验结果验证了系统成功地以增强立体感的3D效果来呈现 2D 图像。此项工作的主要贡献为:(1
14、)提出了一种半自动 2D-to-3D 转换系统,该系统将 2D 图像及其相应的语义分割图作为输入,并输出立体图像以形成立体表示。(2)提出了一种深度优化算法,称为考虑人类感知的深度优化(depth optimization considering human perception,DOCHP),该算法考虑了人类感知,包括注意力机制和深度感知。该算法是可调整的,因此可以应用于不同的设备。(3)进行了实验来检验所提算法的有效性,表明人类感知在 2D-to-3D 转换中起着重要作用。1 深度估计和优化 1.1 2D-to-3D 转换 与 2D 显示器相比,3D 显示器具有额外的深度信息来显示内容之间
15、的距离,这为人类提供了沉浸式体验,并引起了观众积极的情绪。且同时为左眼和右眼提供了一对立体图像。3D 显示器根据其方法可分为 2 种类型:需要可穿戴设备,如立体眼镜;无需可穿戴设备即可工作,称为自动立体显示器6。立体眼镜可以分为被动眼镜和主动眼镜:被动眼镜使用某种类型的滤镜,如基于颜色的滤镜(如,红色和蓝色),主动眼镜交替遮挡视线,如快门眼镜。自动立体显示器使用某种类型的光学屏障或透镜来正确捕捉左右视图,并不需要额外的设备,前景良好。目前,尽管已有各种立体显示设备,立体图像显示仍受限于 3D 内容。2D-to-3D 转换成本低、效率高,其通过计算机图形技术将 2D 图像转换为立体图像。典型的
16、2D-to-3D 转换方法根据给定的2D 内容的深度估计图形成一对立体图像。深度估计图7是 2D-to-3D 转换的关键,也是研究的重点。先前研究中已经尝试了许多估计图像/视频的深度信息的方法。然而,上述方法仍然无法生成高度精确的深度图,且存在一些限制,如场景有限8、依赖数据集等9。此外,大多数 2D 内容采用单目图像格式10,这使得预测深度更加困难。1.2 单目图像的深度估计 单目图像的深度估计11基于给定的 2D 图像 968 图像处理与计算机视觉 2023 年 来估计深度图。与立体图像或视频序列相比,单目图像包含的深度信息更少。传统的单目图像深度估计方法12-13使用手工制作的特征来学习
17、 2D图像中的单目线索。ZHOU 等14使用马尔可夫随机场来学习手工特征忽略的全局线索,KARSCH等15使用 DepthTransfer 方法来提高性能。近年来,深度学习方法16-17通过训练神经网络来进行判断,这些网络基于如,KITTI18和 Make3D19标准数据集构建模型,在单目图像的深度估计中取得了良好的性能。如,门控多尺度网络20和多尺度图卷积网络等21。然而,深度学习方法有 2 个主要缺点:训练过程依赖于足够和高质量的注释数据集;这些方法缺乏泛化能力,在估计不在训练数据集中的图像时,可出现低精度的问题。先前的研究试图从模型和数据的角度消除缺陷。从模型的角度来看,KUZNIETS
18、OV 等22和GOLDMAN 等23提出了新的自监督深度估计方法,在一定程度上解决了数据依赖性问题。从数据的角度来看,CHEN 等24构建了具有相对深度关系的注释数据库。文献4通过在互联网上收集图像,形成了最大的单目图像加深度图的数据集。在这些数据集上训练的模型可以提高深度估计的准确性。近年来,单目图像的深度估计在实现一般图像的粗略深度估计方面取得了进展。但仍存在诸如模糊边缘和不可分辨对象等缺陷,因此无法满足 2D-to-3D 转换方法的要求。1.3 深度优化 深度优化调整深度图,为人类提供舒适和真实的立体体验。深度优化的基础是根据人类感知来优化深度图以实现最佳立体体验。如,观众在3D 电影中
19、体验到的立体感有时太强,违背了现实的逻辑,但感觉真实。因此,先前的研究考虑了人类感知的各种特征,如舒适度25、疲劳26和深度感知27。这些研究还考虑了美学28和体验质量(quality of experience,QoE)29等感知,使得深度更适应立体图像,本文提出的人类感知特征,指的是注意力和感知的最小深度差异。然而,上述算法仅应用于手动深度图和立体图像。与估计深度图相比,手动深度图的优化更容易。如,手动深度图具有不同的深度层和边界,但估计深度图的深度层与边界通常是模糊的。在对估计深度图时应用先前的深度优化方法,无法解决类似的问题。此外,大多数先前的优化方法专注于根据深度图测量的标准(如舒适
20、度)来调整深度,但忽略了2D 图像的影响。因此,本文优化 2D-to-3D 转换系统,在估计深度图的同时考虑了人类感知特征,并考虑了 2D 图像内容的影响,以实现有强立体感的图像。2 考虑用户感知的立体图像系统 2.1 系统概述 本文提出的系统目标是将单目图像转换为具有令人满意的立体效果的立体图像。该系统接收单目图像及其相应的语义分割图作为输入,并使用裸眼屏幕来呈现立体图像。如图 1 所示,本文系统包括 3 个步骤:粗略深度图生成、DOCHP 和立体构建。DOCHP 是系统的关键核心,其考虑了人类感知特征来优化深度图。图 1 本文系统的 3 个步骤 Fig.1 Proposed system
21、consists of three steps (1)粗糙深度生成。使用文献4中提出的模型为输入图像生成粗糙深度图。在文献24中,该模型使用网络模型在名为 MegaDepth 的大型数据集上训练。基于深度学习的模型训练,是获取大多数 2D 图像粗略深度信息的通用方法。(2)DOCHP。根据人类感知来优化粗略深度 第 5 期 陈鹏,等:考虑用户感知的立体图像生成 969 图,其基本思想是,增强重要对象的深度差。本研究考虑了 2 个涉及注意力机制和深度感觉的因素。注意力机制识别人们在观看图像时关注的区域,并标记图像中的重要对象。深度感知确保深度的合理呈现。(3)立体表达。使用裸眼屏幕进行 3D 演
22、示。如图 2 所示,裸眼屏幕接收 2D 图像及其相应的深度图作为输入,然后将左视图和右视图反射到相应的眼睛以实现立体效果。2.2 DOCHP 过程 为了增强 2D-to-3D 转换中的立体感,本文提出了一种称为 DOCHP 的算法,该算法在考虑人类感知特征的情况下优化深度图。所考虑的感知特征包括:由于注意力机制,人们关注某些物体;人们基于深度差异来感受立体感。具体来说,算法旨在增强有吸引力的对象与其他对象之间的深度差异以增强立体感。该算法分为 3 个阶段:注意力计算、深度优化和迭代调整。图 3 为本文算法的概述,将 2D 图像及其对应的语义分割图和粗略深度图作为输入,并输出优化的深度图。在注意
23、力计算阶段,根据注意力机制计算各语义分割段的注意力分数。在深度优化阶段,根据深度感知调整各语义分割段的深度,并通过最大化能量函数获得近似最优解。在迭代调整阶段,调整前一阶段获得的深度图以消除边界冲突。图 2 立体设备将 2D 图像及其深度图作为输入 以创建立体效果 Fig.2 Stereoscopic device takes a 2D image and its depth map as input 图 3 DOCHP 概述 Fig.3 Overview of DOCHP 2.3 注意力计算 图像的注意力计算。人们倾向于关注场景的关键方面,而忽略不相关的细节30。在观看图像时,注意力会受到颜
24、色、布局、内容等特征的影响。本文采用注意力分数衡量人们对图像中物体的注意力,以一个分割块为基本的计算单元,计算其特征,得到注意力分数,并结合了高级特征、低级特征、深度信息计算注意力分数,见表 1。具体的,注意力分数可表示为 111iiiiiinnjjjjHHFHLDHH(1)其中:Fi为第 i 个分割块的注意力分数;Hi,Li,Di分别为利用高级特征、低层特征和深度信息计算出的第 i 个分割块的注意力分数;为参数用来控制 Hi的权重。式(1)中由高级特征计算的注意力 970 图像处理与计算机视觉 2023 年 分数占主导地位。特别的,前景中受关注的物体更有可能在高级特征的注意力分数上得分较高,
25、这种注意力受深度影响较小,因此式(1)中深度信息分数的权重较小。相反,背景在高级特征的注意力分数上得分较低,深度信息分数权重较大,呈现出背景越远越难以得到注意的现象。表 1 注意力计算阶段使用的特征 Table 1 The features used in the stage of attention calculation 特点 样例 高级 特征 识别率:由 模型识别分 割块的类型 和精度 显著性图:显示注意力 分布的灰度图(亮区域表示 浓度高)低级 特征 颜色:分割 块与其他分 割块之间的 颜色对比的 总和 布局:线段 中心与图像 中心之间的 距离 深度:深度 图中分割块 的平均深度 2.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 考虑 用户 感知 立体 图像 生成
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。