基于PP-Matting抠图和增量式SfM的三维重建方法.pdf
《基于PP-Matting抠图和增量式SfM的三维重建方法.pdf》由会员分享,可在线阅读,更多相关《基于PP-Matting抠图和增量式SfM的三维重建方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、Modeling and Simulation 建模与仿真建模与仿真,2023,12(4),4116-4126 Published Online July 2023 in Hans.https:/www.hanspub.org/journal/mos https:/doi.org/10.12677/mos.2023.124375 文章引用文章引用:任梦欣,杨剑锋,邓周灰,邹琼,仝天乐.基于PP-Matting抠图和增量式 SfM的三维重建方法J.建模与仿真,2023,12(4):4116-4126.DOI:10.12677/mos.2023.124375 基于基于PP-Matting抠图和增量
2、式抠图和增量式SfM的的 三维重建方法三维重建方法 任梦欣任梦欣1,2,杨剑锋,杨剑锋1,3*,邓周灰,邓周灰2,4,邹,邹 琼琼5,仝天乐,仝天乐2,6 1贵州大学数学与统计学院,贵州 贵阳 2贵大贵安科创超级计算算力算法应用实验室,贵州 贵阳 3贵州理工学院大数据学院,贵州 贵阳 4贵安新区科创产业发展有限公司,贵州 贵阳 5深圳瑞云科技股份有限公司,广东 深圳 6贵州黔驴科技有限公司,贵州 贵阳 收稿日期:2023年6月16日;录用日期:2023年7月19日;发布日期:2023年7月26日 摘摘 要要 基于视觉的三维重建技术通过获取物体的真实图像来还原其三维模型。然而,这些获取的图像通常
3、包含基于视觉的三维重建技术通过获取物体的真实图像来还原其三维模型。然而,这些获取的图像通常包含大量无用的背景信息,直接使用这样的图像进行三维重建将导致计算资源和存储空间的浪费。为了解决大量无用的背景信息,直接使用这样的图像进行三维重建将导致计算资源和存储空间的浪费。为了解决上述问题,本文提出了一种融合上述问题,本文提出了一种融合PP-Matting抠图和增量式抠图和增量式SfM的三维重建方法,该方法在使用的三维重建方法,该方法在使用SfM和和MVS算法完成三维重建之前,对物体的原始图像进行抠图。本文利用算法完成三维重建之前,对物体的原始图像进行抠图。本文利用Distinctions-646等多
4、个图像集对等多个图像集对PP-Matting抠图模型进行微调训练,得到仅包含待重建物体的图像。实验结果表明,本文提出的方法在抠图模型进行微调训练,得到仅包含待重建物体的图像。实验结果表明,本文提出的方法在重建效率方面取得重建效率方面取得显著提升,并且能够降低存储空间需求。显著提升,并且能够降低存储空间需求。关键词关键词 三维重建,抠图,三维重建,抠图,PP-Matting,SfM+MVS 3D Reconstruction Method Based on PP-Matting and Incremental Structure-from-Motion Mengxin Ren1,2,Jianfe
5、ng Yang1,3*,Zhouhui Deng2,4,Qiong Zou5,Tianle Tong2,6 1School of Mathematics and Statistics,Guizhou University,Guiyang Guizhou 2Guizhou University and Guian Kechuang Supercomputing Power Algorithm Laboratory,Guiyang Guizhou 3School of Data Science,Guizhou Institute of Technology,Guiyang Guizhou 4Gui
6、an New District Science and Innovation Industry Development Co.,Ltd.,Guiyang Guizhou 5Shenzhen RayvisionTM Technology Co.,Ltd.,Shenzhen Guangdong *通讯作者。任梦欣 等 DOI:10.12677/mos.2023.124375 4117 建模与仿真 6Guizhou Qianlu Technology Co.,Ltd.,Guiyang Guizhou Received:Jun.16th,2023;accepted:Jul.19th,2023;publ
7、ished:Jul.26th,2023 Abstract Visual-based 3D reconstruction techniques aim to restore the three-dimensional models of objects by capturing their real images.However,these captured images often contain a significant amount of ir-relevant background information,and directly using such images for 3D re
8、construction results in wastage of computational resources and storage space.To address these issues,this paper proposes a three-dimensional reconstruction method that combines PP-Matting image matting and incremental Structure-from-Motion(SfM).The proposed method performs image matting on the origi
9、nal images of the objects before utilizing SfM and MVS algorithms for 3D reconstruction.The PP-Matting model is fine-tuned using multiple image datasets,including Distinctions-646,to obtain images that solely contain the objects to be reconstructed.Experimental results demonstrate that the proposed
10、method significantly improves reconstruction efficiency and reduces storage space requirements.Keywords 3D Reconstruction,Image Matting,PP-Matting,SfM+MVS Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).
11、http:/creativecommons.org/licenses/by/4.0/1.引言引言 视觉三维重建即通过物体的二维图像重建出它的三维模型,能广泛应用于数字孪生城市、无人驾驶、元宇宙等新兴领域。相比于激光扫描等三维重建方法,视觉三维重建具有低成本、高效率的特点,适用场景更广泛。视觉三维重建的精度和速度受多种因素影响,包括输入数据的质量、算法的准确性和稳定性,以及应用场景的要求等。基于视觉的三维重建以原始图像集作为基础,而往往图像中并非只有待重建的对象,还存在大量无用信息,如果基于原始图像直接进行计算,就会耗费大量计算资源去重建无用模型,如图 1 所示。Figure 1.3D reco
12、nstruction results with original image as input 图图 1.以原始图像为输入的三维重建结果 Open AccessOpen Access任梦欣 等 DOI:10.12677/mos.2023.124375 4118 建模与仿真 为了解决这一问题,有研究人员从图形获取层面进行无用信息削减(将环境背景设置为纯色),这样的方法对于针对小物品的三维重建可能会有效果,但不能适用于大场景(如建筑)。本文的目标是从重建层面消除无用信息,提高计算效率。为此,本文以 SfM 进行稀疏重建,以 MVS进行稠密重建,来完成三维重建任务,并在其中加入智能裁剪功能。具体来说
13、,本文的智能裁剪功能有以下流程:1)获取原始图像集;2)对原始图像集进行智能裁剪(分割、抠图)以获得新的图像集;3)将原始图像的详细信息(相机信息、图像信息)加入到新图像集中;4)用新的图像集进行稀疏重建及后续工作。本文采用 PP-Matting 抠图模型作为智能裁剪方法,以重建时间、重建精度等指标进行对比分析,探寻有效的方法,使得三维重建的效率和精度有所提高。2.国内外研究现状国内外研究现状 2.1.视觉三维重建视觉三维重建 基于视觉的三维重建已经发展了数十年,取得了巨大的成功,无论是传统方法还是深度学习的方法都展示出了很好的效果。传统的视觉三维重建算法发展历程较长,相关方法较为完整,目前为
14、止依然是主流。M Farenzena 等1提出了一种基于分层聚类树的结构和运动恢复方法,用于从多张图像中估计场景中的点和相机的 3D位置和姿态。N Snavely 等2介绍了一种基于计算机视觉和计算机图形学技术的方法,利用从互联网上获取的大量图片,生成高质量的三维重建模型,从而实现对不同场景的浏览和探索。基于深度学习的视觉三维重建算法依据处理的数据形式主要分为体素、点云和网格的处理。Eigen等3基于体素形式,直接用单张图像使用神经网络恢复深度图,将网络分为全局粗估计和局部精估计,并用一个尺度不变的损失函数进行回归。Choy 等4基于体素形式提出的 3D-R2N2 模型使用 Encoder-3
15、DLSTM-Decoder 的网络结构建立 2D 图形到 3D 体素模型的映射,完成了基于体素的单视图/多视图三维重建。Yu 等5利用潜在空间中的特定类别的多模态先验分布训练变分自编码器,利用潜在空间的子集就可以找到先验分布的目标模态,获取类别的先验信息,随后将先验信息和图像特征共同送入解码器重建三维模型。Fan 等6提出了用点云做三维重建的开山之作,解决了训练点云网络时候的损失问题。Chen等7通过对场景的点云进行处理,融合三维深度和二维纹理信息,提高了点云的重建精度。Wang 等8用三角网格来做单张 RGB 图像的三维重建。2.2.图像抠图图像抠图 传统抠图方法可以分为三类。首先是基于色彩
16、采样的方法,这类方法依赖于像素之间的强相关性,从已知的前景或背景颜色中采样并将它们应用于未知像素9;其次是基于相似性的方法,这类方法通常计算相似度矩阵来表征相邻像素之间的相似性,并相应的将 alpha 值从已知区域扩散到未知区域10 11 12;最后是基于色彩采样和相似性的优化方法,以获得更稳健的解决方案,达到更好的效果13 14。尽管这些方法通过综合设计在预测结果方面取得了显著的进步,但它们的表示能力受到低级颜色或结构特征的限制,难以将前景细节与复杂的自然背景区分开来。此外,由于这些方法中的大多数都需要手动标记辅助输入,因此抠图结果通常对未知区域的大小和模糊边界非常敏感。基于深度学习的抠图算
17、法可以分为两类,即基于辅助输入的抠图算法和自动抠图算法。基于辅助输入的抠图算法有三种方法论:一是使用单个 one-stage CNN 将输入图像和辅助输入的连接直接映射到任梦欣 等 DOI:10.12677/mos.2023.124375 4119 建模与仿真 alpha 上15 16;二是将 one-stage CNN 与自定义的模块相结合使用,以利用侧分支的辅助输入所提供的丰富特征来提高抠图的质量17 18;三是利用并行双模态或多模态结构将抠图任务分解为显式子任务19 20。对于自动抠图方法,也有三种主要的方法论:一是 one-stage 结构,可以选择性地包括一个全局模块作为指导,直接从
18、单个输入图像中预测出抠图结果21;二是顺序两步结构,首先生成中间分割掩码或 trimap,然后与初始输入组合以产生最终的 alpha 遮罩22;三是并行的双模态或多模态结构,它将抠图任务分解为几个子任务,例如前景和背景或全局语义掩码23和局部细节24 25。2.3.结合图像分割的视觉三维重建结合图像分割的视觉三维重建 通过将图像分割技术应用于三维重建,可以更好地理解场景的结构、提取物体的几何信息,并实现更准确的三维重建结果。J McCormac 等26提出了一种使用卷积神经网络进行密集的三维语义建图的方法,将深度学习与稠密三维重建相结合,实现了准确的三维语义建模。JJ Park 等27将深度学
19、习与三维形状表示相结合,通过学习连续的有符号距离函数来表示物体的几何形状。Shuaifeng Zhi 等28在基于 nerf 的三维重建训练中,加入语义分割的训练,并证明了联合 nerf 重建和语义分割,可以对粗糙或者错误的语义 label 有矫正的作用,并可以用于自动化标注。抠图算法是图像分割中的一种,其本质都是根据图像原始信息或标注信息来分离特定的对象,但因其工作侧重不同,两者之间也存在些许区别。具体来说,图像分割是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程;图像抠图是将图像分为前景和背景,提取出感兴趣的前景再进行后处理。对于三维重建而言,往往只需要感兴趣的前景
20、,而不需要环境背景,因此在抠图算法比分割算法更适合本文的研究内容。3.三维重建算法三维重建算法 3.1.图像抠图图像抠图 3.1.1.抠图技术抠图技术 图像抠图是指从图像中提取出我们所感兴趣的前景目标,同时过滤掉背景部分。一张图像可以简单的看成是由两部分组成,即前景和背景。简单来说,抠图就是将一张给定图像的前景和背景区分开来。假设原始图像用 SI来表示,表示对应的 Alpha 通道,FI和 BI分别表示对应的前景图像和背景图像,那么一张具有 RGBA 通道的图像可以分解为如下几部分的组合:()1IIISFB=+(1)当 为 0 时,图像为背景图像;当 为 1 时,图像为前景图像。对于图像中的每
21、个像素点,均可以表示为一个类似于上述的线性方程组。因此,抠图的主要目标是根据原始输入图像,来获得前景、背景和透明度。3.1.2.PP-Matting 算法算法 PP-Matting 是 Guowei Chen 等29于 2022 年提出的一种能实现高精度自然图像抠图的无 trimap 网络架构,由语义上下文分支(SCB)和高分辨率细节分支(HRDB)组成,分别用于预测语义图和细节图。最后将语义图与细节图相融合以实现相互增强,生成准确的 alpha 遮罩。PP-Matting 网络由语义上下文分支(SCB)和高分辨率细节分支(HRDB)组成,两个分支共享一个公共模块作为编码器,即公共编码器。在
22、SCB 之前,利用金字塔池化模块(PPM)来加强语义上下文。此外,指导流(guidance flow)用于连接 SCB 和 HRDB,有助于通过正确的语义指导进行细节预测。网络架构如任梦欣 等 DOI:10.12677/mos.2023.124375 4120 建模与仿真 图 2 所示。Figure 2.PP-Matting network architecture 29 图图 2.PP-Matting 网络架构29 模型运用了三种损失函数。第一个是 SCB 中的语义损失,表示为 Ls,这是 3 类分割任务的交叉熵损失:()311logiisccciLgp=(2)其中1,2,3c表示语义图中的
23、三个类,0,1icp 是第 i 个像素处第 c 类的预测概率,0,1icg 是相应的真实值,表示图像中所有的像素:fbt=(3)其中,fbt分别表示前景像素、背景像素和过渡像素。第二个损失是 HRDB 中的细节损失,表示为dL:()()()1tiidgradiLLdLd=+(4)其中L是 alpha 预测损失,gradL是梯度损失。第三个损失是最终 alpha 遮罩中的融合损失,表示为fL,由 alpha 预测损失、梯度损失和合成损失共同组成:()()()iiifgradcompiLLpLpL=+(5)其中icompL是真实 RGB颜色与真实前景、背景和预测的alpha 遮罩合成的预测RGB
24、颜色之间的绝对差异。最终的加权损失计算如下:123sdfLLLL=+(6)3.2.增量式增量式 SfM 增量式 SfM 是一边三角化(triangulation)和 pnp(perspective-n-points),一边进行局部 BA(Bundle Ad-justment,捆绑调整)的一种稀疏重建方法,重建结果是稀疏点云。BA 算法是对初始结果进行非线性优化以均匀化误差和获得更精确的结果,从本质上来说,BA 是一个优化模型,其目的是最小化重投影误差。在已知结果的情况下对求解的参数进行误差最小化,使得求解结果更加精确的过程。一般使用重投影误差来对该问题进行优化:将特征匹配点记为观测点,三维空间
25、点为求解点。根据求解的相机外参数(旋转任梦欣 等 DOI:10.12677/mos.2023.124375 4121 建模与仿真 矩阵、平移向量)将三维空间点重投影到相机成像平面中。由于误差的存在,该点与观测点不会重合,优化的目标就是使得重投影误差最小。优化模型如下:()21112nmijijijjiguu=(7)ijjjijiuK R tXC X=(8)上式中,iX代表三维空间中的第 i 个坐标点(),Tiiix y z,jC为第 j 个相机的内参,iju是iX在第 i 个相机中的投影点,iju为观测点。由于并不是每一个视角的相机都能在另一个相机中找到对应的投影点,因此若iX在第 j 个相机
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 PP Matting 增量 SfM 三维重建 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。