分销赏收藏举报申诉 / 7

立即下载开通VIP

当前位置：首页 > 学术论文 > 毕业论文/毕业设计 > 基于重构误差的无监督人脸伪造视频检测_许喆.pdf

基于重构误差的无监督人脸伪造视频检测_许喆.pdf

上传人：自信****多点

文档编号：274627

上传时间：2023-06-26

格式：PDF

页数：7

大小：1.62MB

《基于重构误差的无监督人脸伪造视频检测_许喆.pdf》由会员分享，可在线阅读，更多相关《基于重构误差的无监督人脸伪造视频检测_许喆.pdf（7页珍藏版）》请在咨信网上搜索。

1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1571-1577ISSN 1001-9081CODEN JYIIDUhttp：/基于重构误差的无监督人脸伪造视频检测许喆，王志宏，单存宇，孙亚茹，杨莹*（公安部第三研究所网络空间安全技术研发基地，上海 200031）（通信作者电子邮箱）摘要：目前有监督的人脸伪造视频检测方法需要大量标注数据。为解决视频伪造方法迭代快、种类多等现实问题，将时序异常检测中的无监督思想引入人脸伪造视频检测，将伪造视频检测任务转为无监督的视频异常检测任务，提出一种基于重构误差的无监督人脸伪造视频检测

2、模型。首先，抽取待检测视频中连续帧的人脸特征点序列；其次，基于偏移特征、局部特征、时序特征等多粒度信息对待检测视频中人脸特征点序列进行重构；然后，计算原始序列与重构序列之间的重构误差；最后，根据重构误差的波峰频率计算得分对伪造视频进行自动检测。实验结果表明，在FaceShifter、FaceSwap等人脸视频伪造方法上，与LRNet（Landmark Recurrent Network）、Xception-c23等检测方法相比，所提方法的检测性能的曲线下方面积（AUC）最多增加了27.6%，移植性能的AUC最多增加了30.4%。关键词：人脸伪造检测；无监督学习；时序异常检测；生成模型；人脸特征

3、点中图分类号：TP391.4；TP274 文献标志码：AUnsupervised face forgery video detection based on reconstruction errorXU Zhe，WANG Zhihong，SHAN Cunyu，SUN Yaru，YANG Ying*（Research and Development Base of Cyberspace Security Technology，The Third Research Institute of The Ministry of Public Security，Shanghai 200031，China）

4、Abstract:The current supervised face forgery video detection methods need a large amount of labeled data.In order to solve the practical problems of fast iteration and many kinds of video forgery methods，the unsupervised idea in temporal anomaly detection was introduced into face forgery video detec

5、tion，the face forgery video detection task was transformed into unsupervised video anomaly detection task，and an unsupervised face forgery video detection method based on reconstruction error was proposed.Firstly，the facial landmark sequence of continuous frames in the video to be detected was extra

6、cted.Secondly，the facial landmark sequence in the video to be detected was reconstructed based on multi-granularity information such as deviation features，local features and temporal features.Thirdly，the reconstruction error between the original sequence and the reconstructed sequence was calculated

7、.Finally，the score was calculated according to the peak frequency of the reconstruction error to detect the forgery video automatically.Experimental results show that compared with detection methods such as LRNet（Landmark Recurrent Network）and Xception-c23，the proposed method has the AUC（Area Under

8、Curve）of the detection performance increased by up to 27.6%，and the AUC of the transplantation performance increased by 30.4%.Key words:face forgery detection;unsupervised learning;temporal anomaly detection;generative model;facial landmark0 引言随着深度生成技术的快速发展，机器自动内容生成水平不断提高，其中人脸伪造更是内容生成中的热门技术，在短视频、游戏

9、直播、视频会议等领域得到了广泛应用。但具备极高欺骗性的深度伪造引发了诸多争议，如色情视频换脸、人体图像合成等，带来了潜在的社会信任和社会安全问题。因此如何自动高效地检测伪造视频成为迫切需要解决的问题，吸引了国内外研究人员的广泛关注。目前人脸伪造视频检测主要被建模成有监督的分类任务，包括基于单帧的分类检测和基于多帧的分类检测。前者主要利用异常颜色、眼睛牙齿细节等特征在单帧内实现伪造视频检测1-6；后者则对视频中的眨眼频率、表情变化等时序信息进行建模7-13。基于多帧的方法相较于单帧，性能都有不同程度的提高，证明了时序信息的引入对提升检测精度的重要性。然而当前工作仍存在两个主要问题：一是由于深度伪

10、造方法不断地迭代更新、种类繁多，而现有的监督检测算法训练依赖的标注数据需要相应的伪造模型生成，这些伪造模型大多没有开源，复现难度大，训练成本高，极大地增加了检测模型的训练和更新成本；二是基于深度卷积网络提取特文章编号：1001-9081（2023）05-1571-07DOI：10.11772/j.issn.1001-9081.2022040568收稿日期：2022-04-24；修回日期：2022-06-17；录用日期：2022-06-17。基金项目：国家重点研发计划项目（2021YFB3101405）。作者简介：许喆（1993），男，安徽滁州人，研究实习员，硕士，CCF会员，主要研究方向：自然

11、语言处理、时序异常检测、人脸伪造检测；王志宏（1990），男，江苏泰兴人，助理研究员，博士，CCF会员，主要研究方向：自然语言处理、事件挖掘、网络公害治理；单存宇（1993），男，江苏大丰人，研究实习员，硕士，CCF会员，主要研究方向：图像识别、数据挖掘；孙亚茹（1993），女，山东菏泽人，研究实习员，硕士，CCF会员，主要研究方向：自然语言处理、数据挖掘；杨莹（1981），女，河南商丘人，副研究员，博士，CCF会员，主要研究方向：大数据分析、信息安全。第 43 卷计算机应用征的方法虽然性能良好但训练成本高，进一步提高了伪造检测模型的应用门槛。因此，需要一个平衡性能和成本的伪造检测方法。为解决

12、上述问题，在文献 10 研究的基础上，本文将伪造视频中不自然的表情和面部动态行为视为异常，引入时序异常检测任务中相关研究成果，设计了一种基于人脸特征点的无监督视频人脸伪造检测模型。主要思路是采用无监督方法重构正常视频的人脸特征点，然后通过比较重构误差的异常，判断视频的真伪。相较于目前有监督的检测模型，一方面，本文方法只需要正常视频作为训练数据，不需要任何伪造方法生成的带标注的伪造视频；另一方面，本文未使用深度卷积神经网络（Convolutional Neural Network，CNN）提取特征，仅采用主要人脸特征点，可以很好地保留视频人脸行为模式信息，同时减少训练时间，提高训练效率。本文的主

13、要工作包括：1）将时序数据异常检测方法引入人脸伪造视频检测中，将人脸伪造视频检测任务转为无监督的异常检测任务。2）提出一个全新的无监督的人脸伪造视频检测框架。本文方法无需任何标注数据，首先基于偏移特征、局部特征、时序特征等多粒度信息重构待检测视频中人脸特征点序列；然后通过计算原始序列与重构序列的重构误差对伪造视频进行自动检测。3）在人脸伪造视频标准数据集上进行了大量的对比实验，结果表明本文方法可以有效检测多种类型的伪造视频，同时具有训练时间短、实现简单的特点，大幅减少了训练和使用成本。1 相关工作 1.1人脸伪造检测目前人脸伪造视频检测主要被建模成有监督的分类任务，大多数工作都集中在基于单帧的

14、伪造检测方法上。一部分工作通过人工选择关键特征后作进一步检测，如 Matern等1通过颜色异常、脸部阴影和眼睛牙齿缺失的细节来判断真伪。更多的工作使用 CNN 自动抽取特征，如：Afchar等2认为微观的信息容易受到噪声的干扰，而宏观的信息不能很好地捕捉伪造细节，因此提出了基于介观的方法；Qian等3提出的F3-Net（Frequency in Face Forgery Network）在 CNN 提取的特征基础上进一步提取频域特征；Li等4通过检测替换人脸时的融合边界存在的噪声和错误来判断真伪，达到了良好的性能；汤桂花等5针对现有检测方法在有角度及遮挡情况下存在的真实人脸误判问题，通过提高面

15、部关键点定位准确度改善了由于定位误差引起的面部不协调，进而降低了真实人脸误判率；翁泽佳等6则引入领域对抗分支，所提模型能够抽取鲁棒性更强、泛化能力更高的特征。尽管目前基于单帧方法的效果良好，但是它们并没有充分利用视频的时序信息，所以最近越来越多的工作关注基于多帧的方法。其中一部分是基于人类自身的生理特征，如：李旭嵘等7通过基于 EfficientNet的双流网络检测模型在良好的准确率基础上提高了对抗压缩的能力；Li等8通过检测眨眼频率的异常作判断；Yang等9基于人脸特征点的中心区域和整体朝向不一致作区分；Sun 等10提出的 LRNet（Landmark Recurrent Net

16、work）则通过门控循环网络捕捉人脸特征点序列中不自然的表情和面部异常变化。相较于人工选择的特征，利用CNN 提取特征的应用更广泛，如 Gera 等11和 Sabir 等12都利用 CNN 提取单帧特征，再用长短期记忆（Long Short-Term Memory，LSTM）网络提取时序特征；Gu 等13设计了两个非常复杂的模块分别捕捉空间不一致性和时序不一致性，达到了目前最优的性能。但是上述基于深度卷积网络特征的方法往往结构复杂、训练时间长。此外，现有的监督检测算法训练依赖的标注数据需要相应的深度伪造方法生成，由于伪造方法不断地迭代更新、种类繁多，而且大多没有开源，复现训练难度大、成本高，这

17、极大地提高了检测模型的应用门槛。1.2时序异常检测时序异常检测是从正常的时间序列中识别异常的事件或行为的任务。由于该任务获取标记数据成本高昂，因此文献 14-15 的有监督方法应用有限，所以目前大多数研究集中在无监督方法上。文献 16-17 中利用 LSTM网络构建时序特征来预测异常。Zong等18提出自动编码器和高斯混合模型相结合的方法，通过自动编码器计算序列关键信息的编码表示，再用高斯混合模型对编码表示进行密度估计。文献19-21 则结合LSTM网络和变分自动编码器，通过重构误差预测异常。基于序列重构误差的方法是目前主要的方法之一，可以很好地检测出序列中的异常，达到良好的精度。本文根据文献

18、 10 的假设，伪造视频中存在不自然的表情和面部器官移动，这些描述面部动态行为的几何特征可以被人脸特征点序列很好地表达出来。本文将这些不自然的地方视为该序列的异常，借鉴时序异常检测任务的无监督研究成果，设计基于人脸特征点的无监督视频伪造检测模型。2 无监督人脸伪造视频检测模型本文模型由三个部分组成：数据预处理、人脸特征点序列重构和伪造得分计算。具体地说，对于待检测视频，先通过数据预处理抽取人脸特征点序列；然后利用卷积网络和循环网络编码多层次时序信息的变分自动编码器 CNN-GRU-VAE（CNN-Gated Recurrent Unit-Variational Auto-Encoder）重构

19、特征点序列；最后计算重构序列和原序列的误差获得伪造分数，最终实现伪造视频的自动检测。2.1数据预处理数据预处理的目的是抽取出待检测视频中人脸的特征点序列，包括人脸特征点抽取和特征点序列校准。首先对待检测视频中的每一帧进行人脸检测，并裁剪出人脸图像，抽取出68个人脸特征点22，再将这些人脸特征点通过仿射变换对齐到预先设定的位置。接着，需要对抽取出的人脸特征点序列进行校准。由于这些特征点是逐帧抽取的，即使在人脸几乎不移动的情况下，特征点也会有明显的抖动。因此参考文献 10 的工作，在校准过程中先通过 Lucas-Kanade 光流算法23预测连续帧的下一帧，再利用卡尔曼滤波器24合并原帧和预测帧去

20、除噪声，最终获得精度更高的人脸特征点序列。2.2人脸特征点序列重构本文人脸特征点序列重构主要采用变分自动编码器实现，包括编码模块和解码模块，整体框架如图 1所示。其中编码模块主要编码视频中多层次的人脸特征点的时序信息，得到深层编码表示。针对原始人脸特征点序列，首先通过捕捉帧与帧之间的变化获得“邻近帧”的偏移特征；然后基于CNN抽取连续数帧信息，获得“分块帧”的局部特征；最后采1572第 5 期许喆等：基于重构误差的无监督人脸伪造视频检测用双向门控循环神经单元（Bi-directional Gate Recurrent Unit，BiGRU）提取视频“连续帧”的序列特征。而解

21、码模块通过深层编码表示，采用 BiGRU 和全连接网络还原出人脸特征点的重构序列。本文提出的人脸特征点序列重构方法具体描述如下：对于N帧的原始人脸特征点序列，第i帧的第j个人脸特征点标记为p ji（i 1，N，j 1，68），每个特征点p ji按照横纵坐标表示为p ji=(x ji，y ji)。在编码过程中，先将每个人脸特征点前后帧的差值作为人脸特征点序列的“邻近帧”的偏移特征，表示为(x?ji，y?ji)=(x ji+1-x ji，y ji+1-y ji)。这里将偏移特征按横纵坐标分别表示，则第 i 帧的偏移特征可表示为 136 维的向量fi=x?1i，y?1i，x

22、?2i，y?2i，x?68i，y?68i。文本分类相关工作25说明CNN可以有效提取序列的局部特征，因此，本文在前述偏移特征的基础上，使用 CNN 提取数帧之间的“分块帧”的局部特征。对于偏移特征序列fseq=f1，f2，fN，首先将相邻特征连接为特征矩阵，即fi：i+d=fifi+1fi+2fi+d（1）其中：d表示卷积核大小；表示连接操作。为了获得不同角度的特征，需要随机初始化通道个数的滤波器wj(j 1，m，wj Rd 136)，其中m为通道个数。所以偏移特征fi对应的第j个通道的局部特征为：cij=h()wjfi-d2：i+d2+b（2）其中：*指的是卷积；h、b分别指激活函数和偏置。

23、综上，局部特征序列为：cseq=c1，c2，ci，cN（3）其中：ci表示m个通道组成的向量，表示第i帧对应的分块帧特征。进一步地，考虑到视频中人脸表情变化的连续性和关联性，本文在视频伪造检测过程中采用 BiGRU 建模人脸特征点序列的“连续帧”的序列特征。具体地，将局部特征ci通过BiGRU后得到每帧对应的隐层表示：|h?i=?GRU(ci)h?i=?GRU(ci)（4）将正、逆序隐层表示拼接，得到深层编码表示zi=h?i；h?i，其序列为zseq=z1，z2，zN。此外，由于采样训练过程中不能传递梯度，所以本文采用重参数方式。即对于深层编码表示zi(i 1，N

26、人脸不同部分的特征点变化幅度和频率各不相同，比如嘴角比头顶的特征点变化更加频繁，因此本文将独立分析每一维特征点重构误差序列的变化。其中第 j 维特征点的重构误差序列表示为e jseq=e j1，e j2，e jN(j 1，136)。图 2为随机选取的一个正常视频（实线）和相应伪造视频（虚线），选择其中 4个有代表性的特征维度，绘制成的重构误差序列对比折线图。如同多变量时序异常检测任务一样，重构误差较大的地方说明在该点模型不能很好地还原，在图2中表现为一个个波峰。其中图2（a）、（b）是区分明显的样例，可以看出虚线部分的波峰更多，也更频繁；而实线基本没有起伏，十分平缓。

27、这是由于在训练阶段，模型只编码重构正常的特征序列，对于伪造特征序列则不能很好地还原，会产生更明显的波峰。时序异常检测任务通常通过对重构序列误差大小人工或自动地设置阈值来判断是否异常，但是本任务难以简单地通过一个阈值来区分。如图 2（c）、（d）所示的样例，正常视频序列的误差在某些点非常高，甚至超过伪造视频序列，这种情况在实际数据中更常见。这是因为相较于时序异常检测任务中系统产生的序列，正常的人脸移动也会包含很多的个性化特征，这种个性化特征造成的较大重构误差并不能简单地和伪造产生的重构误差区分开，导致通过简单设定阈值的方法并不能取得好的区分效果。但是从序列整体来看，伪造特征序列重构误差的波峰会更

28、频繁地出现。因为伪造视图1人脸特征点序列重构的整体框架Fig.1Overall framework of facial landmark sequence reconstruction1573第 43 卷计算机应用频中每一个表情都是伪造的，所以重构误差较大的地方较多，波峰也更多；而正常视频中每个人尽管都有自己独特的表情特点，但大多都服从普遍的模式，可以被很好地重构还原，所以波峰出现得较少。根据上述分析，本文从重构误差波峰频率的角度出发，使用离散傅里叶变换将时域序列转换为频域信号，此时伪造视频的重构误差序列在高频部分会占有更大的比例。所以本文通过在频域上设定频率阈值，分别计算每一维特征点重构误差

29、序列e jseq频率大于的比例作为特征点 j的伪造得分scorej，最终整个视频的伪造得分为：scoreall=score1+score2+score136，得分越大说明是伪造的可能性越大。图 3（a）、（b）分别表示测试集中伪造、正常视频的伪造分数频数图，即重构误差序列频域中高频和的频数图。容易看出，本文方法使正常和伪造的伪造分数集中于不同的区间，此时设置一个伪造分数相关的阈值，可以更简单地进行区分。3 实验与结果分析 3.1实验设置3.1.1数据集为验证本文方法的有效性，采用视频伪造检测任务中广泛使用的两个数据集FaceForensic+26和Celeb-DF27。其

30、中FaceForensic+遴选了互联网上的 1 000 个视频，用Deepfakes、Face2Face、FaceSwap、FaceShifter和NeuralTextures等5种伪造算法分别生成1 000个伪造视频。根据压缩率不同，每一个视频有未压缩、轻微压缩和重度压缩三个版本，本文实验采用轻微压缩版本。Celeb-DF包含了5 639个伪造视频和 540个正常视频，采用改进的开源深度伪造算法，改善了颜色不一致等明显伪影。3.1.2参数设置在预处理阶段，本文使用Dlib22标注人脸特征点。在重构流程前，将整个人脸特征点序列按 2 s 即 60 帧为一块切分，卷积网络的卷

31、积核大小设置为 5，填充设置为 2，通道设置为 32。编码的维度设置为 16，解码器的输出的维度设置为32。此外每批包含 256条数据，每次训练 200个轮次。采用Adam 优化器，学习率设置为 0.001。KL散度损失的权重设置为0.005。3.1.3衡量指标为了应对数据集样本不均衡的情况，本文实验选择不容易受不均衡样本影响的接受者操作特征（Receiver Operating Characteristic，ROC）曲线的曲线下方面积（Area Under Curve，AUC）作为衡量指标。RAUC=1M N|insi pos rankinsi-M (M+1)2（9）其中：i

32、nsi表示第i条样本；rankinsi代表第i条样本在得分从小到大排列时的序号；M、N分别表示正样本和负样本的个数；pos表示正例的集合。3.2实验及结果分析本文设计了以下实验：1）通过对比在不同伪造方法上的检测效果，验证本文提出的无监督人脸伪造视频检测方法的有效性和可移植性；2）通过对比不同方法的训练时间，进一步说明本文方法的高效率和低成本；3）通过消融实验，说明图2不同维度特征点序列的重构误差Fig.2Reconstruction errors of facial landmark sequences with different dimensions图3伪造分数分布比较Fig.3Comp

33、arison of forgery score distribution1574第 5 期许喆等：基于重构误差的无监督人脸伪造视频检测本文方法各部分设计的合理性。3.2.1对比实验对比实验主要用来说明本文无监督方法的有效性及可移植性。1）模型有效性。首先对比FaceForensic+数据集上不同伪造方法的检测性能，验证本文无监督人脸伪造视频检测方法 CNN-GRU-VAE 的有效性，实验结果如表 1 所示。CNN-GRU-VAE 训练集采用 FaceForensic+数据集，随机选择 800个正常视频作训练。测试分为两个部分，首先选择FaceForensic+

34、剩下的 200 个正常视频和不同方法下的 200个伪造视频分别构造不同方法下的测试集。LRNet（DF）是模型 LRNet10仅使用 DeepFake伪造的数据作为训练集负例得出的模型；LRNet（NT）是文献 10 仅使用NeuralTexture伪造的数据作为训练集负例得出的模型。可以看出本文方法在 DeepFake 上性能良好，不仅远好于 LRNet（NT），与LRNet（DF）也很接近；在 Face2Face 上与 LRNet（DF）性能接近；在 FaceShifter和 FaceSwap上比 LRNet（DF）和 LRNet（NT）都好。这说明本文的无监督模型仅使用正

35、常数据训练，面对未知伪造方法生成的视频仍然能够有效鉴伪，相较于使用单个伪造方法生成数据集上的训练模型，在未知方法生成的数据集上达到了不错的性能。CNN-GRU-VAE对NerualTexture伪造方法的检测效果较差，主要是模型中的对多层次时序信息建模干扰了对几何信息的感知，具体解释将在3.2.3节根据消融实验结果说明。2）模型移植性。使用 Celeb-DF27的所有数据测试不同数据源对模型性能的影响，结果如表2所示。其中，除LRNet和CNN-GRU-VAE之外，Two-stream28、Meso42、MesoInception427、FWA（Face Warping Artifacts）

36、29、DSP-FWA（Deep Spatial Pyramid Face Warping Artifacts）27、Xception-c2327、Capsule30采用的是文献 27 中的实验数据。FaceForensic+的实验设置和文献 27 相同，训练与测试集仅考虑DeepFake伪造数据集上的结果。可以看出本文的无监督方法在 FaceForensic+上超过部分方法，在 Celeb-DF上的性能好于多数方法。这说明本文模型在不同数据源上的可移植性优于多数有监督模型。3.2.2训练成本实验为了验证本文模型在训练成本上的优势，从 GPU 的显存占用、预处理后训练数据在硬盘占用和训练时长三个

37、方面，将本文方法和其他伪造检测模型进行比较，结果如表 3所示。其中，除 CNN-GRU-VAE 之外，Xception31、X-Ray4、CNN+RNN（Convolutional Neural Network+Recurrent Neural Network）32、TSN（Temporal Segment Network）33、LRNet采用的是文献 10 的实验数据。从表3可以看出，基于人脸特征点的模型在GPU的显存占用、硬盘训练数据占用和训练时长都有明显减少，LRNet和CNN-GRU-VAE显存和硬盘需求都远小于其他方法，训练时间都不到其他模型的1%。相较于同样基于人脸特征点的算法LR

38、Net，尽管本文模型比它复杂，但训练时间更短，显存占用更少。显存占用少是因为 LRNet每次输入的批大小为1 024，而 CNN-GRU-VAE 批大小为 256。训练时间更短的主要原因有：LRNet需要的训练数据比CNN-GRU-VAE多1倍；LRNet有两个相似的网络需要分开训练；LRNet收敛缓慢，通常需要400轮以上才能达到比较好的性能，1 000轮以上才能基本收敛，然而 CNN-GRU-VAE 训练 200轮时就已经基本收敛；由于本文是无监督算法，所以面对不同的伪造方法只需要训练一次，而LRNet此类的多数有监督算法想要达到比较理想的性能，需要在每一个伪造方法上训练一次。这充分说明了

39、本文提出的无监督算法在训练成本上的优势。3.2.3消融实验消融实验主要分析本文方法各部分设计的合理性和有效性，结果如表4所示。其中：CNN-GRU-VAE表示本文完整方法的 AUC得分；其他表示模型消除不同部分时的 AUC得分与完整模型 AUC 得分的差值。“不使用偏移特征”是模型将人脸特征点序列直接输入解码器，不使用偏移特征；GRU-VAE 是将编码器中去除 CNN 后的模型；CNN-GRU-AE 是用自动编码器替换变分自编码器。从整体结果来看，本文各部分设计都有效地提升了视频中人脸伪造检测的性能。使用偏移特征替换原始特征点后，Deepfake、FaceShifter和 FaceSwap 在

40、引入偏移特征后 AUC 分数都有 0.059 1 到0.061 8 的提升，而 Celeb-DF 有 0.045 0 的提升，说明了细粒表1不同模型在FaceForensic+数据集上的AUC得分Tab.1AUC scores of different models on FaceForensic+dataset模型LRNet（DF）LRNet（NT）CNN-GRU-VAEDeepfake0.964 30.778 20.914 4Face2Face0.678 20.944 90.632 3FaceShifter0.653 00.589 80.752 6FaceSwap0.757 10.677

41、40.837 4NeuralTextures0.615 30.920 90.525 7表2通过AUC分数对不同模型的移植性能评估Tab.2Transplantation performance evaluation of different models by AUC scores模型Two-streamMeso4MesoInception4FWADSP-FWAXception-c23CapsuleLRNetCNN-GRU-VAEFaceForensic+0.7010.8470.8300.8010.9300.9970.9660.9640.914Celeb-DF0.5380.5480.5360.

42、5690.6460.6530.5750.5690.606表3训练成本对比Tab.3Comparisons of training cost模型XceptionX-RayCNN+RNNTSNLRNetCNN-GRU-VAE显存占用/GB121291231.4硬盘占用/GB64180641201.11.1训练时间/h213022.5300.20.11575第 43 卷计算机应用度时序特征引入的有效性及必要性。但是在 Face2Face 和NeuralTexture 上的检测性能反而降低了，其中 Face2Face 变化不明显，但 NeuralTexture 的 AUC 分数下降了 0.040 5。

43、通过观察数据可以发现，相较于另外三个伪造算法，NeuralTexture 不自然的伪造痕迹更多体现在人脸器官的几何特点上，所以偏移特征虽然引入了细粒度时序特征，却弱化了模型对人脸特征点几何特征的提取，导致NeuralTexture的效果反而变差。而通过 GRU-VAE 模型的结果可知，引入 CNN 后，Deepfake、FaceShifter 和 Celeb-DF 的 AUC 分数都有较大的提升，其他的也有少量提升。这说明 CNN 引入的“分块帧”局部特征有助于加强模型的鉴伪能力。变分自编码器的引入使多数方法的AUC分数都有不同程度的提升，

44、说明相较于自编码器，变分自编码器通过引入噪声使模型更加健壮，在深度伪造检测上表现为增强了模型对个性时序特征的容纳能力。但是 NeuralTexture 上的性能降低了很多，这是因为区分 NeuralTexture 需要的是几何特征，而不断增强的时序特征并没有给区分NeuralTexture带来优势，反而阻扰了模型对几何信息的感知。4 结语本文创新性地将时序数据异常检测思想引入视频的人脸伪造检测中，提出了一种基于人脸特征点重构误差的无监督人脸伪造视频检测框架。首先对待检测视频逐帧抽取人脸特征点，并进行特征点序列校准；其次，基于偏移特征、局部特征、时序特征等多粒度信息对待检测视频中的人脸特征点序

45、列进行重构；然后基于离散傅里叶变换计算原始序列与重构序列之间的重构误差；最后根据重构误差的波峰频率对伪造视频进行自动检测。实验结果表明，本文提出的无监督方法能够有效检测现有大部分伪造方法生成的人脸伪造视频，并在不同数据源间具有良好的移植性。未来的工作旨在更好地融合几何特征和时序特征，同时希望能够提升模型区分个性特征和伪造特征的能力，使其达到更好的精度。参考文献（References）1 MATERN F，RIESS C，STAMMINGER M.Exploiting visual artifacts to expose Deepfakes and face manipulations C/Pr

46、oceedings of the 2019 IEEE Winter Applications of Computer Vision Workshops.Piscataway：IEEE 2019：83-92.2 AFCHAR D，NOZICK V，YAMAGISHI J，et al.MesoNet：a compact facial video forgery detection network C/Proceedings of the 2018 IEEE International Workshop on Information Forensics and Security.Piscataway

47、：IEEE，2018：1-7.3 QIAN Y Y，YIN G J，SHENG L，et al.Thinking in frequency：face forgery detection by mining frequency-aware cluesC/Proceedings of the 2020 European Conference on Computer Vision，LNCS 12357.Cham：Springer，2020：86-103.4 LI L Z，BAO J M，ZHANG T，et al.Face X-ray for more general face forgery de

48、tectionC/Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway：IEEE，2020：5000-5009.5 汤桂花，孙磊，毛秀青，等.基于深度对齐网络的生成对抗网络伪造人脸检测J.计算机应用，2021，41（7）：1922-1927.（TANG G H，SUN L，MAO X Q，et al.Generative adversarial network synthesized face detection based on deep alignm

49、ent networkJ.Journal of Computer Applications，2021，41（7）：1922-1927.）6 翁泽佳，陈静静，姜育刚.基于域对抗学习的可泛化虚假人脸检测方法研究 J.计算机研究与发展，2021，58（7）：1476-1489.（WENG Z J，CHEN J J，JIANG Y G.On the generalization of face forgery detection with domain adversarial learningJ.Journal of Computer Research and Development，2021，58（

50、7）：1476-1489.）7 李旭嵘，于鲲.一种基于双流网络的Deepfakes检测技术 J.信息安全学报，2020，5（2）：84-91.（LI X R，YU K.A Deepfakes detection technique based on two-stream networkJ.Journal of Cyber Security，2020，5（2）：84-91.）8 LI Y Z，CHANG M C，LYU S W.In ictu oculi：exposing AI generated fake face videos by detecting eye blinking C/Proc

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于误差监督人伪造视频检测许喆

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。