基于GPU的荧光油膜运动路径实时测量_吴培灵.pdf
《基于GPU的荧光油膜运动路径实时测量_吴培灵.pdf》由会员分享,可在线阅读,更多相关《基于GPU的荧光油膜运动路径实时测量_吴培灵.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 14 卷 第 1 期2023 年 2 月Vol.14 No.1Feb.2023航空工程进展ADVANCES IN AERONAUTICAL SCIENCE AND ENGINEERING基于 GPU的荧光油膜运动路径实时测量吴培灵1,张征宇1,2,孙维1(1.西南科技大学 信息工程学院,绵阳 621010)(2.中国空气动力研究与发展中心 高速空气动力研究所,绵阳 621010)摘要:在风洞试验中,现有的基于 CPU 的光流法求解荧光油膜运动速度场耗时过长,而基于 GPU 的光流法存在 GPU 资源利用不充分的问题。为此,提出基于荧光油膜图像分块和临界约束的 GPU 荧光油膜运动路径实时测
2、量方法。将荧光油膜时序图像按照 GPU 的资源将整帧图像切割分块并行处理,创建其对应的光流并行计算策略,即充分利用 GPU 的并行流水架构优势和共享内存实现各并行块的光流计算的硬件加速;同时结合块间临界约束条件,以各块的速度矩阵迭代差为标志控制其迭代计算次数。结果表明:本文方法在保证荧光油膜运动速度场计算精度的条件下,较传统的基于 CPU 的光流法解算速度平均提升了 2 789.5倍,较整帧图像的GPU 光流法速度平均提升了 10.09倍,实时解算速度可达 90帧/秒。关键词:光流法;图像分块;临界约束;荧光油膜;共享内存中图分类号:V211.7 文献标识码:ADOI:10.16615/ki.
3、1674-8190.2023.01.19Real-time measurement of fluorescent oil film motion path based on GPUWU Peiling1,ZHANG Zhengyu1,2,SUN Wei1(1.School of Information Engineering,Southwest University of Science and Technology,Mianyang 621010,China)(2.High Speed Aerodynamics Research Institute,China Aerodynamics Re
4、search and Development Center,Mianyang 621010,China)Abstract:In the wind tunnel experiment,the existing CPU-based optical flow method takes too long to solve the velocity field of the fluorescent oil film,while the GPU-based optical flow method has the problem of insufficient utilization of GPU reso
5、urces.To this end,a real-time measurement method of GPU fluorescent oil film motion path based on fluorescent oil film image segmentation and critical constraints is proposed.The fluorescent oil film time-series image is divided into blocks and processed in parallel according to the resources of the
6、 GPU,and the corresponding optical flow parallel computing strategy is created,that is,the advantages of the parallel pipeline architecture of the GPU and the shared memory are fully utilized to realize the optical flow calculation of each parallel block.At the same time,combined with the critical c
7、onstraints between blocks,the number of iterative calculations is controlled by the iterative difference of the speed matrix of each block as a symbol.The experimental results show that the method proposed in this paper is 2 789.5 times faster than the traditional CPU-based optical flow method under
8、 the condition of ensuring the calculation accuracy of the velocity field of the fluorescent oil film motion,and the average speed of the GPU optical flow method of the whole frame image is improved.10.09 times and the real-time solution speed can reach 90 frames per second.Key words:optical flow me
9、thod;image block;critical constraint;fluorescent oil film;shared memory文章编号:1674-8190(2023)01-157-08收稿日期:20220302;修回日期:20220503基金项目:国家自然科学基金(11872069)通信作者:张征宇,zhang_引用格式:吴培灵,张征宇,孙维.基于 GPU 的荧光油膜运动路径实时测量J.航空工程进展,2023,14(1):157-164,174.WU Peiling,ZHANG Zhengyu,SUN Wei.Real-time measurement of fluoresce
10、nt oil film motion path based on GPUJ.Advances in Aeronautical Science and Engineering,2023,14(1):157-164,174.(in Chinese)第 14 卷航空工程进展0引 言风洞试验模型表面的荧光油膜受来流的黏性摩擦作用,在模型表面产生位移(形成荧光油膜运动路径),因此,风洞试验中模型表面荧光油膜运动的时序图像蕴含了油膜在来流剪切力作用下的运动信息,即采用光学流动技术1-3处理模型表面荧光油膜运动的时序图像,可以解得模型表面流场的拓扑结构和荧光油膜运动路径速度场4-5。一方面,可定量观测模型壁
11、面流场的奇点(结点和鞍点)分布,为掌握试验模型壁面发生流动分离的位置、分离方式与特点以及漩涡形成机理等提供重要的研究数据;另一方面,可用于计算模型的表面摩擦力分布信息6-8。G.Schrauf9研究发现,摩擦阻力(简称摩阻)占据飞行器所受总阻力的 45%50%,其占比大于其他阻力项,摩阻每降低 1%燃油消耗可下降0.625%。飞行器防护设计依赖于表面摩阻的测量10,在高超声速条件下,飞行器防护设计不当会导致飞行器的外壳烧毁或制造材料严重浪费。因此,摩阻测量研究对于飞行器的燃料节省、航程增加以及防护材料设计都有重要意义。L.C.Squire11在考虑剪切力作用下的油膜运动时推导得出薄油膜方程,为
12、基于油膜的剪切应力测量技术奠定了基础;L.H.Tanner等12通过油膜干涉测量表面摩阻,将推导出的方程赋予实际意义,为后续研究打下了坚实的基础;随后 D.J.Monson 等13、J.L.Brown 等14对油膜演化方程进行了进一步完善;Liu Tianshu 等15提出了采用荧光油膜代替传统油膜的方法,进一步推进了摩阻的测量研究;李鹏16推导了荧光油膜控制方程并进行了简化,得到了荧光油膜测量方程,该方程表明,摩阻测量与荧光油膜运动速度、荧光油膜厚度相关,需要采用光流法求出荧光油膜运动速度再将厚度代入即可获得摩阻。在现有众多全局摩阻的测量技术中,如 Preston管法、热线法、MEMS 摩擦
13、天平17等,大都需要依托复杂的外部设备,而且制造难度系数大、成本高、空间分辨率低、风洞环境条件要求高等问题都在一定程度上限制了其应用发展。荧光油膜摩阻测量方法具有设备简单、成本低、对环境模型无特殊 要 求、空 间 分 辨 率 高 等 优 点,是 当 前 研 究 的热点。荧光油膜运动路径速度求解在摩阻测量中是至关重要的环节,但采用光流法对荧光油膜进行运动速度求解时,因为其解算方程的数值计算涉及大量的卷积计算和多次迭代计算,导致基于中央处理器(Central Processing Unit,简称 CPU)的光流法求解一次风洞荧光油膜试验图像太耗时,需要花费 46 h18,且不能在试验过程中实时定量
14、显示试验模型物面流态及其演化过程,降低了其工程应用的价值。现 有 的 现 场 可 编 程 门 阵 列19-20(Field-Programmable Gate Array,简称 FPGA)技术,受限于片上资源,加之编程难度大,目前常用于图像的预处理阶段。戚烜20的研究表明,对于分辨率为640480 的 普 通 图 像,其 光 流 解 算 时 间 为 22.7 ms。可见若利用 FPGA 进行较高分辨率的图像解算效果并不理想21。鉴于图形处理器22(Graphics Processing Unit,简称 GPU)既有擅长数据并行处理的架构,又具有大量与 CPU 相同的算术逻辑单元(计算能力优于
15、FPGA),因此,可以直接基于 GPU 并行迭代的硬件架构将图像分块,利用 CPU 无法比拟的大量线程完成分块图像数据的并行计算,即有通过硬件加速实现实时求解光流方程的可能性。同时,相较于 FPGA 技术,统一计算设备架构(Compute Unified Device Architecture,简称 CUDA)编程更灵活,从而为模型表面流场的拓扑结构和荧光油膜运动路径速度场实时观测提供了一条新的可行路径。A.Plyer 等23和 孙 瑞 鑫 等24分 别 实 现 了 以14.4和 30帧/秒的计算速度解算分辨率为 1 9201 080 的图像,但仅适用于特定场景。对于风洞试验的高分辨率高帧率图
16、片而言,这样的计算速度无法满足工业实时解算需求。为此,本文提出基于荧光油膜图像分块和临界约束的 GPU 荧光油膜运动路径实时测量方法,将荧光油膜时序图像按GPU 的资源自适应分块,分别创建其对应的光流并行计算与块边界光滑约束方法,充分利用 GPU的并行架构优势,实现实时定量观测模型表面流场的拓扑结构和荧光油膜运动路径速度场。1油膜图像的分块并行约束法本文提出荧光油膜时序图像按 GPU 的资源分块方法,在 GPU 上将待计算的图像先进行分块处158第 1 期吴培灵等:基于 GPU 的荧光油膜运动路径实时测量理,分块后的图像子块分别存储于 GPU 的共享内存上,利用 GPU 多线程对需要光流解算的
17、每帧图像数据进行并行计算,可大量减少内存数据的存储次数,从而减少光流迭代计算中的时间消耗,再针对图像中存在突变噪声或者运动趋势不明显的情 况,以 块 为 单 位 添 加 约 束 条 件,减 少 冗 余 计算量。1.1GPU的并行架构GPU 上含有多个流式处理器(Streaming Multiprocessors,简称 SM),如图 1 所示,每个 SM 中包含有多个 block,一个 block的最大线程数为 1 024。同时,GPU 上存有两种内存:全局内存和共享内存,其中全局内存空间大但是读写速度较共享内存慢很多,而共享内存虽然读写速度很快,但其内存空间小。GPU 以一个 warp 为程序
18、运行调度单位,一个warp 中包含有 32 条并行线程,共享内存位于 SM上,被 SM 上的 block所共享,因此共享内存是限制设备并行性的一个重要因素,使用的共享内存越多,处于并发活跃状态的 block越少。对于一个给定的 GPU 而言,其共享内存是既定的大小,在进行图像分块时,在满足计算需求的条件下,共享内存使用要尽量小。依据 Horn-Schunck(HS)光流法公式25可知在进行光流计算时至少需要 4个图像块大小的共享内存,分别用于存储迭代前后求解到的速度矩阵un+1、un、vn+1、vn。1.2分块并行计算当 GPU 中 block线程数量为 A,由于线程调度时以 warp 为单位
19、,则分块大小最好为 warp 的整数倍。若图像分块大小为 S,B为一常数,则:S=Swarp B(1)A=Swarp Swarp(2)一个 block 中线程数为 1 024,一个 warp 含 32条线程。因此,将一个 block 大小定为处理像素块大小,即S=A,那么B=32,一个图像分块大小定为 3232。在光流计算中,整张图像以卷积的方式进行迭代解算:一张大小为h w的图像(如图 2 所示),其外层数据计算先于内层数据,且内层数据依赖于上一次迭代的外层数据,最外层的数据无法进行差分计算,会损失掉外层数据的精度。图像分块后的图像,在完成计算过程后需要将每个子块的可信层进行拼接,为了达到分
20、块并不会影响原来光流结果的目的,在一个像素块内进行多次迭代时,对每一子块划分前考虑对数据进行补偿,即各个分块之间需要有重叠边界,大小定为。图像划分效果如图 3 所示,将图像划分为xy大小的正方形块(x=y)。子块间最大可迭代次数为 k,由于子块大小定为 xy,故 kx/2。如图 3 所示,第一块迭代 k 次以后,内层可信数据大小 H1为H1=(32-2k)(32-2k)(3)相邻两子块迭代以后内存数据之间实际距离大小为 2k,为保证第一块与第二块内层可信数据图 1 GPU 结构示意图Fig.1Schematic diagram of GPU structure图 2 传统光流法计算过程Fig.
21、2Calculation process of traditional optical flow method图 3 图像分块图Fig.3Image block diagram159第 14 卷航空工程进展无缝拼接,相邻两个子块之间重叠部分距离大小也应为 2k,即:=2k(4)当两个相邻子块之间重叠部分大小为 2k 时,在完成 k 次子块迭代以后,拼接图像内层数据大小S0为S0=(w-2k)(h-2k)(5)而原图像经过 k 次迭代以后内层数据大小同样是S0。为了保证计算效果,重叠部分的数据均取原图像数据,没有改变原图像数据。因此分块以后的图像与传统 HS 光流法在光流计算后得到的数据并无不同
22、,但是本文方法在速率上却有明显的改善。拼接后的图像数据与未经过分块的原图像内层数据是一致的,并未造成数据丢失。对于宽为 w,高为 h 的图像而言,未对图像分块时,需要进行计算的像素点个数为:S=HW;对图像分块以后,需要进行计算的像素点个数为Sr=bx by x y(6)bx=(w-2k)/(32-2k)(7)by=(h-2k)/(32-2k)(8)式中:bx和by分别为在 x 轴方向和 y轴方向划分的子块数;x和 y分别为分块后子块的宽和高。单次光流计算在 GPU 上的时间消耗可以分为三部分:数据全局访问时间ta、图像计算时间tc、解算结果保存时间ts,则 GPU 上执行一次光流计算的时间
23、T为以上三部分时间的总和。T0=ta+tc+ts(9)当光流计算次数为 N 时,传统光流法计算时间为T1=NT0(10)图像分块后计算时间为T2=Nk(ta+ts)+(N+l-1)tc(11)其中,l=SrS。对比式(10)与式(11)可见,虽然分块增加了一小部分图像计算时间,但是显著减少了数据全局访问时间和解算结果保存时间。本文提出的图像分块方法与传统光流法相比,在整体光流解算过程时间上具有明显优势,能够有效提高图像的解算效率。1.3临界约束条件在进行光流计算时,存在以下两种情况:一是荧光油膜吹风试验过程中,某些像素点在经过一定迭代次数后,部分荧光油膜区域的像素点精度已足够高,若继续迭代,该
24、部分速度大小几乎不发生改变,且耗费计算资源与时间;二是风洞荧光油膜试验环境复杂,环境光照变化导致在图像上产生突变噪点,这些像素点的变化相对于实际荧光油膜变化不明显,且无需迭代计算,否则会增加不必要的计算量。因此在分块基础上提出一个临界约束条件,每个子块作为一个判定区域。以约束条件划分相应像素点是否继续进行光流计算。该约束项即计算荧光油膜图像上像素点速度矩阵与上一次迭代的对应像素点速度矩阵差值矩阵 A 的 F-范数,其计算公式为AF=tr(ATA)=i=1mj=1naij2(12)式中:m,n为图像的二维大小;i,j为像素坐标;tr表示求矩阵的迹;A为速度差值矩阵。判断此范数是否小于矩阵A的均值
25、,若小于该条件值,则将对应子块中所有像素点进行标记,下次不再参与运算。该条件在一定程度上可以过滤掉一些像素点变化极小或因外界光照引发的突变噪点像素块计算,减少部分数据计算次数,提高图像进行光流解算的效率。本文方法流程图如图 4 所示,首先读入图像,将读入的图像存入 GPU 内存中,需要进行计算之前再将图像分块存入 GPU 共享内存中,光流计算完成后再判定是否满足条件,若满足条件则结束计算,若不满足则再次计算。图 4 本文方法流程图Fig.4Flow chart of the method in this paper160第 1 期吴培灵等:基于 GPU 的荧光油膜运动路径实时测量2仿真验证为验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 GPU 荧光 油膜 运动 路径 实时 测量 吴培灵
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。