基于重构误差的无监督人脸伪造视频检测_许喆.pdf
《基于重构误差的无监督人脸伪造视频检测_许喆.pdf》由会员分享,可在线阅读,更多相关《基于重构误差的无监督人脸伪造视频检测_许喆.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1571-1577ISSN 1001-9081CODEN JYIIDUhttp:/基于重构误差的无监督人脸伪造视频检测许喆,王志宏,单存宇,孙亚茹,杨莹*(公安部第三研究所 网络空间安全技术研发基地,上海 200031)(通信作者电子邮箱)摘要:目前有监督的人脸伪造视频检测方法需要大量标注数据。为解决视频伪造方法迭代快、种类多等现实问题,将时序异常检测中的无监督思想引入人脸伪造视频检测,将伪造视频检测任务转为无监督的视频异常检测任务,提出一种基于重构误差的无监督人脸伪造视频检测
2、模型。首先,抽取待检测视频中连续帧的人脸特征点序列;其次,基于偏移特征、局部特征、时序特征等多粒度信息对待检测视频中人脸特征点序列进行重构;然后,计算原始序列与重构序列之间的重构误差;最后,根据重构误差的波峰频率计算得分对伪造视频进行自动检测。实验结果表明,在FaceShifter、FaceSwap等人脸视频伪造方法上,与LRNet(Landmark Recurrent Network)、Xception-c23等检测方法相比,所提方法的检测性能的曲线下方面积(AUC)最多增加了27.6%,移植性能的AUC最多增加了30.4%。关键词:人脸伪造检测;无监督学习;时序异常检测;生成模型;人脸特征
3、点中图分类号:TP391.4;TP274 文献标志码:AUnsupervised face forgery video detection based on reconstruction errorXU Zhe,WANG Zhihong,SHAN Cunyu,SUN Yaru,YANG Ying*(Research and Development Base of Cyberspace Security Technology,The Third Research Institute of The Ministry of Public Security,Shanghai 200031,China)
4、Abstract:The current supervised face forgery video detection methods need a large amount of labeled data.In order to solve the practical problems of fast iteration and many kinds of video forgery methods,the unsupervised idea in temporal anomaly detection was introduced into face forgery video detec
5、tion,the face forgery video detection task was transformed into unsupervised video anomaly detection task,and an unsupervised face forgery video detection method based on reconstruction error was proposed.Firstly,the facial landmark sequence of continuous frames in the video to be detected was extra
6、cted.Secondly,the facial landmark sequence in the video to be detected was reconstructed based on multi-granularity information such as deviation features,local features and temporal features.Thirdly,the reconstruction error between the original sequence and the reconstructed sequence was calculated
7、.Finally,the score was calculated according to the peak frequency of the reconstruction error to detect the forgery video automatically.Experimental results show that compared with detection methods such as LRNet(Landmark Recurrent Network)and Xception-c23,the proposed method has the AUC(Area Under
8、Curve)of the detection performance increased by up to 27.6%,and the AUC of the transplantation performance increased by 30.4%.Key words:face forgery detection;unsupervised learning;temporal anomaly detection;generative model;facial landmark0 引言 随着深度生成技术的快速发展,机器自动内容生成水平不断提高,其中人脸伪造更是内容生成中的热门技术,在短视频、游戏
9、直播、视频会议等领域得到了广泛应用。但具备极高欺骗性的深度伪造引发了诸多争议,如色情视频换脸、人体图像合成等,带来了潜在的社会信任和社会安全问题。因此如何自动高效地检测伪造视频成为迫切需要解决的问题,吸引了国内外研究人员的广泛关注。目前人脸伪造视频检测主要被建模成有监督的分类任务,包括基于单帧的分类检测和基于多帧的分类检测。前者主要利用异常颜色、眼睛牙齿细节等特征在单帧内实现伪造视频检测1-6;后者则对视频中的眨眼频率、表情变化等时序信息进行建模7-13。基于多帧的方法相较于单帧,性能都有不同程度的提高,证明了时序信息的引入对提升检测精度的重要性。然而当前工作仍存在两个主要问题:一是由于深度伪
10、造方法不断地迭代更新、种类繁多,而现有的监督检测算法训练依赖的标注数据需要相应的伪造模型生成,这些伪造模型大多没有开源,复现难度大,训练成本高,极大地增加了检测模型的训练和更新成本;二是基于深度卷积网络提取特文章编号:1001-9081(2023)05-1571-07DOI:10.11772/j.issn.1001-9081.2022040568收稿日期:2022-04-24;修回日期:2022-06-17;录用日期:2022-06-17。基金项目:国家重点研发计划项目(2021YFB3101405)。作者简介:许喆(1993),男,安徽滁州人,研究实习员,硕士,CCF会员,主要研究方向:自然
11、语言处理、时序异常检测、人脸伪造检测;王志宏(1990),男,江苏泰兴人,助理研究员,博士,CCF会员,主要研究方向:自然语言处理、事件挖掘、网络公害治理;单存宇(1993),男,江苏大丰人,研究实习员,硕士,CCF会员,主要研究方向:图像识别、数据挖掘;孙亚茹(1993),女,山东菏泽人,研究实习员,硕士,CCF会员,主要研究方向:自然语言处理、数据挖掘;杨莹(1981),女,河南商丘人,副研究员,博士,CCF会员,主要研究方向:大数据分析、信息安全。第 43 卷计算机应用征的方法虽然性能良好但训练成本高,进一步提高了伪造检测模型的应用门槛。因此,需要一个平衡性能和成本的伪造检测方法。为解决
12、上述问题,在文献 10 研究的基础上,本文将伪造视频中不自然的表情和面部动态行为视为异常,引入时序异常检测任务中相关研究成果,设计了一种基于人脸特征点的无监督视频人脸伪造检测模型。主要思路是采用无监督方法重构正常视频的人脸特征点,然后通过比较重构误差的异常,判断视频的真伪。相较于目前有监督的检测模型,一方面,本文方法只需要正常视频作为训练数据,不需要任何伪造方法生成的带标注的伪造视频;另一方面,本文未使用深度卷积神经网络(Convolutional Neural Network,CNN)提取特征,仅采用主要人脸特征点,可以很好地保留视频人脸行为模式信息,同时减少训练时间,提高训练效率。本文的主
13、要工作包括:1)将时序数据异常检测方法引入人脸伪造视频检测中,将人脸伪造视频检测任务转为无监督的异常检测任务。2)提出一个全新的无监督的人脸伪造视频检测框架。本文方法无需任何标注数据,首先基于偏移特征、局部特征、时序特征等多粒度信息重构待检测视频中人脸特征点序列;然后通过计算原始序列与重构序列的重构误差对伪造视频进行自动检测。3)在人脸伪造视频标准数据集上进行了大量的对比实验,结果表明本文方法可以有效检测多种类型的伪造视频,同时具有训练时间短、实现简单的特点,大幅减少了训练和使用成本。1 相关工作 1.1人脸伪造检测目前人脸伪造视频检测主要被建模成有监督的分类任务,大多数工作都集中在基于单帧的
14、伪造检测方法上。一部分工作通过人工选择关键特征后作进一步检测,如 Matern等1通过颜色异常、脸部阴影和眼睛牙齿缺失的细节来判断真伪。更多的工作使用 CNN 自动抽取特征,如:Afchar等2认为微观的信息容易受到噪声的干扰,而宏观的信息不能很好地捕捉伪造细节,因此提出了基于介观的方法;Qian等3提出的F3-Net(Frequency in Face Forgery Network)在 CNN 提取的特征基础上进一步提取频域特征;Li等4通过检测替换人脸时的融合边界存在的噪声和错误来判断真伪,达到了良好的性能;汤桂花等5针对现有检测方法在有角度及遮挡情况下存在的真实人脸误判问题,通过提高面
15、部关键点定位准确度改善了由于定位误差引起的面部不协调,进而降低了真实人脸误判率;翁泽佳等6则引入领域对抗分支,所提模型能够抽取鲁棒性更强、泛化能力更高的特征。尽管目前基于单帧方法的效果良好,但是它们并没有充分利用视频的时序信息,所以最近越来越多的工作关注基于多帧的方法。其中一部分是基于人类自身的生理特征,如:李旭嵘等7通过基于 EfficientNet的双流网络检测模型在良好的准确率基础上提高了对抗压缩的能力;Li等8通过检测眨眼频率的异常作判断;Yang等9基于人脸特征点的中心区域和整体朝向不一致 作 区 分;Sun 等10提 出 的 LRNet(Landmark Recurrent Net
16、work)则通过门控循环网络捕捉人脸特征点序列中不自然的表情和面部异常变化。相较于人工选择的特征,利用CNN 提取特征的应用更广泛,如 Gera 等11和 Sabir 等12都利用 CNN 提取单帧特征,再用长短期记忆(Long Short-Term Memory,LSTM)网络提取时序特征;Gu 等13设计了两个非常复杂的模块分别捕捉空间不一致性和时序不一致性,达到了目前最优的性能。但是上述基于深度卷积网络特征的方法往往结构复杂、训练时间长。此外,现有的监督检测算法训练依赖的标注数据需要相应的深度伪造方法生成,由于伪造方法不断地迭代更新、种类繁多,而且大多没有开源,复现训练难度大、成本高,这
17、极大地提高了检测模型的应用门槛。1.2时序异常检测时序异常检测是从正常的时间序列中识别异常的事件或行为的任务。由于该任务获取标记数据成本高昂,因此文献 14-15 的有监督方法应用有限,所以目前大多数研究集中在无监督方法上。文献 16-17 中利用 LSTM网络构建时序特征来预测异常。Zong等18提出自动编码器和高斯混合模型相结合的方法,通过自动编码器计算序列关键信息的编码表示,再用高斯混合模型对编码表示进行密度估计。文献19-21 则结合LSTM网络和变分自动编码器,通过重构误差预测异常。基于序列重构误差的方法是目前主要的方法之一,可以很好地检测出序列中的异常,达到良好的精度。本文根据文献
18、 10 的假设,伪造视频中存在不自然的表情和面部器官移动,这些描述面部动态行为的几何特征可以被人脸特征点序列很好地表达出来。本文将这些不自然的地方视为该序列的异常,借鉴时序异常检测任务的无监督研究成果,设计基于人脸特征点的无监督视频伪造检测模型。2 无监督人脸伪造视频检测模型 本文模型由三个部分组成:数据预处理、人脸特征点序列重构和伪造得分计算。具体地说,对于待检测视频,先通过数据预处理抽取人脸特征点序列;然后利用卷积网络和循环网络编码多层次时序信息的变分自动编码器 CNN-GRU-VAE(CNN-Gated Recurrent Unit-Variational Auto-Encoder)重构
19、特征点序列;最后计算重构序列和原序列的误差获得伪造分数,最终实现伪造视频的自动检测。2.1数据预处理数据预处理的目的是抽取出待检测视频中人脸的特征点序列,包括人脸特征点抽取和特征点序列校准。首先对待检测视频中的每一帧进行人脸检测,并裁剪出人脸图像,抽取出68个人脸特征点22,再将这些人脸特征点通过仿射变换对齐到预先设定的位置。接着,需要对抽取出的人脸特征点序列进行校准。由于这些特征点是逐帧抽取的,即使在人脸几乎不移动的情况下,特征点也会有明显的抖动。因此参考文献 10 的工作,在校准过程中先通过 Lucas-Kanade 光流算法23预测连续帧的下一帧,再利用卡尔曼滤波器24合并原帧和预测帧去
20、除噪声,最终获得精度更高的人脸特征点序列。2.2人脸特征点序列重构本文人脸特征点序列重构主要采用变分自动编码器实现,包括编码模块和解码模块,整体框架如图 1所示。其中编码模块主要编码视频中多层次的人脸特征点的时序信息,得到深层编码表示。针对原始人脸特征点序列,首先通过捕捉帧与帧之间的变化获得“邻近帧”的偏移特征;然后基于CNN抽取连续数帧信息,获得“分块帧”的局部特征;最后采1572第 5 期许喆等:基于重构误差的无监督人脸伪造视频检测用 双 向 门 控 循 环 神 经 单 元(Bi-directional Gate Recurrent Unit,BiGRU)提取视频“连续帧”的序列特征。而解
21、码模块通过深层编码表示,采用 BiGRU 和全连接网络还原出人脸特征点的重构序列。本文提出的人脸特征点序列重构方法具体描述如下:对于N帧的原始人脸特征点序列,第i帧的第j个人脸特征点标记为p ji(i 1,N,j 1,68),每个特征点p ji按照横纵坐标表示为p ji=(x ji,y ji)。在编码过程中,先将每个人脸特征点前后帧的差值作为人脸特征点序列的“邻近帧”的偏移特征,表示为(x?ji,y?ji)=(x ji+1-x ji,y ji+1-y ji)。这里将偏移特征按横纵坐标分别表示,则 第 i 帧 的 偏 移 特 征 可 表 示 为 136 维 的 向 量fi=x?1i,y?1i,x
22、?2i,y?2i,x?68i,y?68i。文本分类相关工作25说明CNN可以有效提取序列的局部特征,因此,本文在前述偏移特征的基础上,使用 CNN 提取数帧之间的“分块帧”的局部特征。对于偏移特征序列fseq=f1,f2,fN,首先将相邻特征连接为特征矩阵,即fi:i+d=fifi+1fi+2fi+d(1)其中:d表示卷积核大小;表示连接操作。为了获得不同角度的特征,需要随机初始化通道个数的滤波器wj(j 1,m,wj Rd 136),其中m为通道个数。所以偏移特征fi对应的第j个通道的局部特征为:cij=h()wjfi-d2:i+d2+b(2)其中:*指的是卷积;h、b分别指激活函数和偏置。
23、综上,局部特征序列为:cseq=c1,c2,ci,cN(3)其中:ci表示m个通道组成的向量,表示第i帧对应的分块帧特征。进一步地,考虑到视频中人脸表情变化的连续性和关联性,本文在视频伪造检测过程中采用 BiGRU 建模人脸特征点序列的“连续帧”的序列特征。具体地,将局部特征ci通过BiGRU后得到每帧对应的隐层表示:|h?i=?GRU(ci)h?i=?GRU(ci)(4)将 正、逆 序 隐 层 表 示 拼 接,得 到 深 层 编 码 表 示zi=h?i;h?i,其序列为zseq=z1,z2,zN。此外,由于采样训练过程中不能传递梯度,所以本文采用重参数方式。即对于深层编码表示zi(i 1,N
24、),通过两个独立的全连接层分别得到期望和方差:i=FC(zi)、i=FC(zi)。重参数后的编码表示为z?i=i+ii,i服从正态分布N(0,I)(I为单位矩阵)。在解码过程中,同样需要考虑前后编码的时序信息,本文采用一个BiGRU和一个全连接网络依次解码。最终得到重构特征序列为f seq=f 1,f 2,f N。计算每一帧人脸特征点序列和重构特征序列的重构误差,即第i帧的重构误差为:ei=|f i-fi|=|x1i-x1i|,|y1i-y1i|,|x68i-x68i|,|y68i-y68i|(5)其中:x ji、y ji分别表示为第 j个原特征点的横、纵坐标;xji、yji分别表示为第j个重
25、构特征点的横、纵坐标。损失函数由每个 人 脸 特 征 点 的 重 构 误 差 和 KL 散 度(Kullback-Leibler divergence)两部分构成,即loss=lossreco+LKL(6)lossreco=i j()|xji-x ji+|yji-y ji|(7)LKL=-0.5i k()1+ln2ik-2ik-2ik(8)其中:是KL散度的系数。2.3伪造分数计算伪造分数根据待检测视频的人脸特征点的偏移特征原始序列与重构序列之间的重构误差计算得出。首先获得每帧 的 重 构 误 差ei=|x1i-x1i|,|y1i-y1i|,|x68i-x68i|,|y68i-y68i|,由于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 误差 监督人 伪造 视频 检测 许喆
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。