视频会议环境下面向语义通信的高鲁棒视频重建方法.pdf
《视频会议环境下面向语义通信的高鲁棒视频重建方法.pdf》由会员分享,可在线阅读,更多相关《视频会议环境下面向语义通信的高鲁棒视频重建方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、第48 卷总第52 2 期视频会议环境下面向语义通信的高鲁棒视频重建方法郭子睿,孙鲁楠,周英男,杨洋,杜忠田”,郭彩丽1(1.北京邮电大学北京先进信息网络实验室,北京10 0 8 7 6;2.中电信数智科技有限公司,北京10 0 0 35)【摘要】在传统的视频会议场景中,如果用户网络带宽不足,就会出现严重的时延,卡顿现象,从而导致用户体验较差。与此同时,随着深度学习等技术的发展,目前已经出现了效果逼真的视频重建方法。现有的基于深度学习的视频重建方法可以很好地解决传统视频会议技术的带宽不足问题,其基于语义通信有广阔的应用前景,然而,当前视频重建方法在面部大幅扭动情况下重建效果差。针对这一挑战,提
2、出了一种视频会议环境下面向语义通信的高鲁棒视频重建方法。首先,改进了现有的视频重建算法,引人来自于原始视频的压缩语义特征构建了新的面向语义的视频重建模型,其次,针对视频会议场景,提升了重建分辨率并设计了完整的视频重建方法。最后,实验和仿真结果表明,所提方法相比于传统视频会议方案降低了约三分之二的带宽,同时所提方法的重建效果,相比于当前基于深度学习的视频重建效果更具有鲁棒性,验证了所提视频重建方法的性能优势。【关键词】语义通信;视频会议;视频重建;深度学习doi:10.3969/j.issn.1006-1010.20231227-0004中图分类号:TN925文献标志码:A文章编号:10 0 6
3、-10 10(2 0 2 4)0 2-0 0 8 3-0 8引用格式:郭子睿,孙鲁楠,周英男,等.视频会议环境下面向语义通信的高鲁棒视频重建方法.移动通信,2 0 2 4,48(2):8 3-8 9+110.GUO Zirui,SUN Lunan,ZHOU Yingnan,et al.High Robust Video Reconstruction Method for the Semantic Communication in the Video ConferenceEnvironmentJJ.Mobile Communications,2024,48(2):83-89+110.High R
4、obust Video Reconstruction Method for the Semantic Communication in(1.Beijing Laboratory of Advanced Information Networks,Beijing University of Posts and Telecommunications,Beijing 100876,China;AbstractIn traditional video conferencing scenarios,if the users network bandwidth is insufficient,serious
5、 latency and lag phenomenawilloccur,leading to poor user experience.Meanwhile,with the continuous development of technologies such as deep learning,a series of efficient and realistic video reconstruction methods have emerged,providing new possibilities for solving the problemof insufficient bandwid
6、th in traditional video conferencing techniques.These video reconstruction methods based on deeplearning have shown great potential in semantic communication,however,the current challenge is that the reconstruction resultsof these methods are still not satisfactory when the face is greatly twisted.T
7、o overcome this problem,this article proposes aninnovative video reconstruction method specifically designed for semantic communication in video conferencing environments.Firstly,an improvement was made to the existing video reconstruction algorithm by introducing compressed semantic featuresfrom th
8、e original video,and a new semantic communication oriented video reconstruction model was constructed.Secondly,inresponse to the special needs of video conferencing scenarios,the reconstruction resolution has been improved and a completevideo reconstruction strategy has been designed.The experimenta
9、l evaluation results show that the proposed method reducesbandwidth requirements by about two-thirds compared to traditional video conferencing solutions.More importantly,thismethod outperforms current deep learning based video reconstruction methods in the face of significant facial contortions,thu
10、sverifying its significant advantage in improving video conferencing performance.Overall,this study not only addresses theurgent issue of bandwidth constraints,but also provides an innovative solution to improve the quality and robustness of videoconferencing experiences.With the continuous developm
11、ent of the digital field,the video reconstruction method designed forsemantic communication is expected to provide new solutions for video conferencing.Keywordssemantic communication,video conferencing,video reconstruction,deep learning收稿日期:2 0 2 3-12-2 7*基金项目:北京市自然科学基金“基于语义率失真的语义通信理论与系统架构研究”(L22204
12、3);国家自然科学基金“基于知识增强信息瓶颈的语义编码理论与方法研究”(6 2 37 10 7 0)*通信作者OSID:the Video Conference EnvironmentGUO Zirui,SUN Lunan,ZHOU Yingnan,YANG Yang,DU Zhongtian,GUO Caili!2.China Telecom Digital Intelligence Technology Co.,Ltd.,Bejing 100035,China)扫描二维码与作者交流移动通信2024年2 月第2 期83第48 卷“语义通信”专题11总第52 2 期0引言随着科技的不断发展和网
13、络带宽的提升,视频会议正逐渐成为现代沟通和协作的重要方式,越来越多的企业和个人选择使用视频会议来进行跨地域的实时交流和合作。然而,在偏远地区或者网络条件不佳的区域,网络可能会出现拥塞、覆盖率低、功率波动和数据限制等问题。以目前的技术,可接受的视频会议质量需要稳定的大约32 0 0 kbps的带宽,否则会出现严重的时延和卡顿,从而降低了用户体验。与此同时,随着深度学习技术的发展,人们发现使用神经网络进行视频重建具有占用带宽低、重建质量好的优势,因此使用神经网络进行视频重建的研究也越来越多。具体来说,利用神经网络重建视频的方法如下:在给定一个来自用户的静态源图像和一个动态驱动视频的情况下,生成一个
14、富有真实感的视频(包括面部、头发、颈部甚至肩部区域)。与面部替换方法或面部表情捕捉和动画方法3 不同,生成视频中的人物外貌来自于源图片,而其动作来自于驱动视频中的人物动作。目前的神经网络也大多基于这种方法进行视频重建。这种方法一经出现,立刻引起了社会各界的迅速关注,并且为数众多的应用都极大程度上受益于这种方法,例如视频会议4、电影效果、娱乐视频以及虚拟主播等。近年来,使用神经网络进行视频重建的研究在视频重建质量和鲁棒性方面都取得了重大进展,并且已经达到了合成视频甚至与真实视频无法区分的阶段。现有的工作主要集中在学习更准确的2 D或3D运动估计和表示,以提高生成质量。更具体地说,就是学习2 D面
15、部关键点来模拟源图像与驱动视频中驱动顿图像之间的光流。一些方法还考虑利用具有解耦表情代码的3D面部先验模型(例如3DMM(3D M o r p h a b l e M o d e l,3D 可变形模型)6)或以自监督的方式学习密集表示的面部几何形状来模拟复杂的面部表情运动,以产生更精细的面部生成结果。例如,FOMM(Fir s tO r d e r M o tio n M o d e l,一阶运动模型)通过学习关键点的运动信息,实现源图像中对象根据驱动视频的动作进行动画化的视频重建方法8 。MRAA(Motion Representations for Articulated Animatio
16、n,铰接动画的运动表示)提出了新颖的运动表示,用于对由不同部分组成的对象进行动画处理9。TPSMM(T h i n-PlateSplineMotionModel,薄板样条运动模型)提出了薄板样条运动估计,以产生更灵活的光流,将源图像的特征图扭曲到驱动图像的特征域)。DaGAN(D e p t h-awareGenerativeAdversarialNetwork,深度感知生成对抗网络)可以自动从视频中恢复密集的3D几何信息(即深度),而无需任何的3D标注数据【7 。MCNet(M e mo r yCompensationNetwork,记忆补偿网络)提出学习一个84移动通信2024年2 月第2
17、 期全局的面部表征空间,并设计一个新的隐式身份表征条件记忆补偿网络来实现高保真的视频生成。然而,无论如何精确地估计和表示运动,由于静止的源图像无法为不可见区域或细微的表情变化提供足够的外观信息,导致驱动视频中复杂的运动(如面部大幅扭动)会导致生成结果模糊,从而产生严重伪影,这会显著降低生成质量,而糟糕的重建效果可能会使人陷人反感不适的恐怖谷效应。此外,为了提供更加无缝和真实的体验,模型应该在没有额外训练的情况下适应用户当前的外观。这些方法在视频重建过程中,仅仅需要从神经网络中提取的特征,即“语义”2,视频重建中的语义和语义通信中的语义含义类似,可以应用到语义通信实现低带宽、高质量的视频重建。语
18、义通信是指通过语义信息进行交流和沟通的过程,而语义信息所占用的带宽极低,使得超低带宽下进行和传统方式同等质量的视频会议成为了可能。然而这些方法没有考虑视频传输过程中存在的信道干扰及因此带来的视频重建误差,因此这些方法并不适用于语义通信。在本文中,为了有效地处理现有基于神经网络进行视频重建的研究中用户面部大幅扭动情况下重建效果差的问题,提出了一种视频会议环境下面向语义通信的高鲁棒视频重建方法,通过在语义通信的过程中加入来自于原始视频的压缩语义特征,使得在用户面部大幅扭动的情况下重建视频仍具有高鲁棒性,所提方法相比于传统视频会议方案降低了约三分之二的带宽,并且在重建效果上相比当前基于深度学习的视频
19、重建方法获得了更好的结果。本文的研究步骤如下:首先设计视频重建系统模型,介绍视频重建步骤,其次解释本模型中所采用的算法,尝试得出本算法具有高鲁棒性的结论,并以多个仿真实验加以验证,最后对全文进行总结并指出下一步工作方向。1系统模型语义通信中的视频重建模型如图1所示。模型包含编码器T。)和解码器R,()两部分,和n为网络参数,其中T。()位于发送端,R,()位于接收端,信道中仅持续传输T()从源图片SERWW3和原始驱动视频DERxWx3中提取的语义特征mER,其中H代表图像的高度,W代表图像的宽度。具体流程如下:(1)发送端:摄像头首先采集来自用户的一张面部照片作为源图片S,经信道发送至接收端
20、以待后续使用,此过程仅需一次,且S所占空间极小,故不将其纳入带宽的计算中。之后,摄像头同时捕捉到用户实时的视频,此视频作为驱动视频D,连同S一起输人到编码器T。()中,计算得到语义特征m,计算m的过程可表示为式(1):第48 卷总第52 2 期郭子睿,孙鲁楠,周英男,等:视频会议环境下面向语义通信的高鲁棒视频重建方法仅传1次编码器T解码器R源图片S提取网络K驱动视频D关键点D特征提取网络E发送端m=T(S,D)然后,将m传人信道,发送至接收端准备后续的视频重建。(2)无线信道:所得到的语义特征m在无线信道上进行传输时,会受到信道衰落和噪声的影响。在本模型中,m采用离散信号在信道中进行传输,并使
21、用了加性高斯白噪声来模拟信道中的噪声。在考虑使用单个通信链路对图像进行无线传输时,接收端接收到的语义特征m可以建模为式(2):m=hm+p(2)其中h代表信道衰落系数,其中pN(0,)为方差为的高斯信道噪声,是单位矩阵。(3)接收端:解码器接收来自无线信道的语义特征m,并与之前得到的源图片S一同计算得到重建视频D E RIxW3,如式(3):D=R,(S,m)2算法设计在本文所设计的算法中,编码器由一个关键点提取网络K和一个特征提取网络E组成;解码器由一个密集运动网络M和一个生成网络G组成。本章进一步对每个网络及其中涉及的算法进行分析,首先介绍了语义信息补偿的视频重建算法,阐述了如何加入语义信
22、息补偿使重建视频更具鲁棒性,然后介绍了所设计算法的损失函数。2.1语义信息补偿的视频重建算法给定一张目标人物的静态源图片S,和一段动态驱动视频D,视频重建目标是让S中的人脸,按D中的动作运动。因此,需要计算一个迁移函数Ts-D来映射D到S的变换。为了获得Ts-D,需要考虑以下极端情况:即在推理时,模型接收到的源图片和驱动视频帧对在视觉上姿态相差很大,导致无法直接实现D到S的变换。因此需要假设存关键点s无线信道密集运动网络M关键点遮挡掩码S+D持续传输8语义特征m图1视频会议场景下的视频重建系统模型(1)换为Ts-R。T R-D。只需要独立估计两个变换Ts-R和TR-D就可以实现对Ts-D的估计
23、,这也使得网络能够独立处理D和S。此时问题转换为如何在不显式表示R的情况下,由Ts-R和TR-D获得Ts-D。假设TD-R在每个关键点的邻域中是局部双射的,那么TD-R=TR-D,得到式(4):TseD=TseR o TR-D=TseRo TDLR设p表示R中的关键点位置,表示S和D中的关键点位置,Pk(k=1,K)表示参考顿R中关键点的坐标。在计算式(4)的一阶泰勒展开式后,得到式(5)和式(6):Ts-D()Ts-r(pk)+Ji(z-TD-R(pk)(5)一dJ=(3)本算法使用关键点提取网络K计算S和D中的关键点位置zs和 zD,对应式(6)中的Ts-R(pk)和 TD-R(pk)。驱
24、动顿D在输入关键点提取网络K的同时,被馈送到特征提取网络E中用于提取其语义特征8。为了实现这一目标,E采用了两个具有相同结构的4倍下采样卷积块。这些卷积块通过逐渐减小图像的尺寸并维持通道数不变,最终生成一个32 32 3尺寸的特征图,并通过无线信道传人生成网络G的解码器部分,用于生成最终的重建视频。通过利用特征图中的语义信息,生成网络G能够更好地还原驱动帧D的细节和姿态,从而提高重建质量。本文曾尝试32 32 3、16 16 6、8 8 12、442 4、2248等多种尺寸的8,但发现采用32 32 3尺寸的8能够在视频重建中取得最佳效果。这是因为此尺寸的能够较好地保留驱动顿D的语义信息,同时
25、具有恰当的维度,使得重建过程更加准确和鲁棒,因此采用此尺寸的8。式(5)中获得了初步的Ts-D,即对于R中的每个关键点,移动通信2024年2 月第2 期85运动场Ts-D接收端在一个抽象的参考帧R作为中间变量,此时Ts-D可以转(4)PK(6)PP=PKwarpSPADE生成网络G结果第48 卷“语义通信”专题!1总第52 2 期网络均获得了一组仿射变换的参数,之后需要将获得的K个仿射变换结合为一个密集运动场Ts-D。同时,S中的被遮挡部分(如耳朵)不能通过图像扭曲来恢复,因此应该进行修补,为了更好修复被遮挡的区域,需要一个遮罩Os-D来屏蔽掉应该修复的特征图区域。本算法将上一步获得的zzs,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 视频会议 环境 下面 语义 通信 高鲁棒 视频 重建 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。