分销赏收藏举报申诉 / 8

立即下载开通VIP

当前位置：首页 > 学术论文 > 毕业论文/毕业设计 > 基于再编码的无监督时间序列异常检测模型_尹春勇.pdf

基于再编码的无监督时间序列异常检测模型_尹春勇.pdf

上传人：自信****多点

文档编号：368284

上传时间：2023-09-06

格式：PDF

页数：8

大小：1.72MB

《基于再编码的无监督时间序列异常检测模型_尹春勇.pdf》由会员分享，可在线阅读，更多相关《基于再编码的无监督时间序列异常检测模型_尹春勇.pdf（8页珍藏版）》请在咨信网上搜索。

1、2023 03 10计算机应用,Journal of Computer Applications2023,43(3):804-811ISSN 10019081CODEN JYIIDUhttp：/基于再编码的无监督时间序列异常检测模型尹春勇*，周立文（南京信息工程大学计算机与软件学院，南京 210044）（通信作者电子邮箱）摘要：针对时间序列的数据不平衡和高度复杂的时间相关性导致的异常检测准确率低的问题，以生成对抗网络（GAN）作为基础提出一种基于再编码的无监督时间序列异常检测模型RTGAN。首先，使用具有周期一致性的多个生成器保证生成样本的多样性，从而学习不同的异常模式；其次，使用堆叠式LS

2、TM-dropout RNN捕获时间相关性；然后，使用二次编码在潜在空间中比较生成样本和真实样本之间的差异，并将此差异作为再编码误差当作异常分数的一部分，从而提高异常检测的准确率；最后，使用新的异常分数对单变量和多变量时间序列数据集进行异常检测。将所提模型与七种基线异常检测模型在单变量和多变量时间序列上进行了比较。实验结果表明，所提模型在所有数据集上均获得了最高的平均F1值（0.815），并且总体性能分别比原始自编码器（AE）模型Dense-AE和最新的基准模型USAD高出36.29%和8.52%。通过不同的信噪比（SNR）检测模型的健壮性，结果表明所提模型一直优于LSTM-VAE、USAD

3、和 OmniAnomaly，尤其在 SNR 为 30%情况下，RTGAN 的 F1 值分别比 USAD 和 OmniAnomaly 高出 13.53%和10.97%。可见所提模型能有效提高异常检测的准确率和鲁棒性。关键词：生成对抗网络；异常检测；时间序列；堆叠式长短期记忆网络；自编码器；再编码中图分类号：TP391.1 文献标志码：AUnsupervised time series anomaly detection model based on re-encodingYIN Chunyong*，ZHOU Liwen（School of Computer and Software，Nanjin

4、g University of Information Science and Technology，Nanjing Jiangsu 210044，China）Abstract:In order to deal with the problem of low accuracy of anomaly detection caused by data imbalance and highly complex temporal correlation of time series，a re-encoding based unsupervised time series anomaly detecti

5、on model based on Generative Adversarial Network（GAN），named RTGAN（Re-encoding Time series based on GAN），was proposed.Firstly，multiple generators with cycle consistency were used to ensure the diversity of generated samples and thereby learning different anomaly patterns.Secondly，the stacked Long Sho

6、rt-Term Memory-dropout Recurrent Neural Network（LSTM-dropout RNN）was used to capture temporal correlation.Thirdly，the differences between the generated samples and the real samples were compared in the latent space by improved re-encoding.As the re-encoding errors，these differences were served as a

7、part of anomaly score to improve the accuracy of anomaly detection.Finally，the new anomaly score was used to detect anomalies on univariate and multivariate time series datasets.The proposed model was compared with seven baseline anomaly detection models on univariate and multivariate time series.Ex

8、perimental results show that the proposed model obtains the highest average F1-score（0.815）on all datasets.And the overall performance of the proposed model is 36.29%and 8.52%respectively higher than those of the original AutoEncoder（AE）model Dense-AE（Dense-AutoEncoder）and latest benchmark model USA

9、D（UnSupervised Anomaly Detection on multivariate time series）.The robustness of the model was detected by different Signal-to-Noise Ratio（SNR）.The results show that the proposed model consistently outperforms LSTM-VAE（Variational Autoencoder based on LSTM），USAD and OmniAnomaly，especially in the case

10、 of 30%SNR，the F1-score of RTGAN is 13.53%and 10.97%respectively higher than those of USAD and OmniAnomaly.It can be seen that RTGAN can effectively improve the accuracy and robustness of anomaly detection.Key words:Generative Adversarial Network(GAN);anomaly detection;time series;stacked Long Short

11、-Term Memory(LSTM)network;AutoEncoder(AE);re-encoding0 引言近年来时间序列在风险评估、金融分析、物联网、医疗等方面得到了广泛的应用1。它在计算机视觉、统计学、机器学习中越来越重要，比如触屏手势序列2被用来识别人类行为，基于时间序列成像提取时间序列特征3。然而，在时间序列中可能存在一些不符合现实变化规律的数据，称之为异常数据，虽然异常所占的比例很小，但容易被忽略。比如，在心电图诊断中忽略掉异常，这会发生误诊，对患者的健康造文章编号：1001-9081（2023）03-0804-08DOI：10.11772/j.issn.1001-9081.

12、2022010006收稿日期：20220106；修回日期：20220428；录用日期：20220429。作者简介：尹春勇（1977），男，山东潍坊人，教授，博士生导师，博士，主要研究方向：网络空间安全、大数据挖掘、隐私保护、人工智能、新型计算；周立文（1996），男，江苏沭阳人，硕士研究生，主要研究方向：异常检测、深度学习、大数据挖掘、对抗攻击。第 3 期尹春勇等：基于再编码的无监督时间序列异常检测模型成巨大威胁。在物联网中，传感器网络目前被广泛使用在地下施工安全检测和预警系统，然而传感器网络容易受到攻击，如果不能有效检测到异常可能会造成灾难，因此，提高时间序列异常检测准确率十分重要。时间序列

13、数据分为单变量和多变量时间序列数据。在气象、社交媒体流量、出租车服务等方面多变量时间序列无处不在，这也表明在现实世界中大部分时间序列都是多变量时间序列。然而，时间序列往往缺乏标签，同时标记异常需要高昂的专家成本而且还不能保证所有的异常类型都被标记，因此，设计不严重依赖标记数据的模型具有重要意义。在这种情况下，此类模型在现实场景中更有适应性；但是时间序列含有噪声和复杂的异常模式，这使得捕获高度复杂的时间相关性和检测异常更加困难。此外，许多模型忽略了时间序列中的时间相关性。深度学习方法使用了具有更多隐藏层的神经网络，因此能够捕获复杂的潜在特征和时间相关性，例如，MAD-GAN（Multivaria

14、te Anomaly Detection with Generative Adversarial Network）4和 USAD（UnSupervised Anomaly Detection）5使用长短期记忆（Long Short-Term Memory，LSTM）网络捕获时间相关性。同样，使用深度学习方法也有缺陷，比如，使用 AutoEncoder6和 LSTM-VAE（Long Short-Term Memory Variational AutoEncoder）7等模型通过重构误差进行异常检测。这类模型可以很好地拟合数据，当使用具有L2目标函数的LSTM时，仍然存在过拟合问题。

15、如果数据中包含异常，这些深度学习方法也拟合了这些异常，从而降低异常检测的性能，因此，当异常数据非常接近正常数据时，通常无法检测异常。基于生成对抗网络（Generative Adversarial Network，GAN）的异常检测方法：首次由Schlegl等8提出，它针对医学图像进行异常检测，引起很多学者对 GAN 进行异常检测的广泛关注。原始GAN只是通过比较原始数据与生成数据的分布差异判定异常，导致模型需要大量的计算成本。GAN本身有着模式崩溃的问题，训练也存在困难。Dendorfer等9提出MG-GAN（Multi-Generator Generative Adversar

16、ial Network），使用多个生成器，避免模式崩溃同时减少了分布外的样本。GAN虽然在异常检测中使用广泛，但是 GAN对时间序列的异常检测研究较少。考虑到上述问题，本文提出一个基于无监督深度学习的新型 GAN 结构 RTGAN（Re-encoding Time series based on Generative Adversarial Network），使用具有周期一致性的多个生成器，以确保生成器能够生成多样性的样本并学习时间序列数据中的特征空间，从而使RTGAN能够捕获给定数据的正态性。异常分数由多个生成器、再编码误差和两个鉴别器的输出计算得出。本文的主要工作如下：1）提出了一种新

17、颖的基于 GAN 的无监督异常检测方法。多个生成器保证生成样本多样性，在不同子空间中捕获复杂的异常模式，同时使用循环一致性，以避免冲突，并确保映射过程中的一一对应。2）设计堆叠 LSTM-dropout RNN（Stacked Long Short-Term Memory dropout Recurrent Neural Network）作为生成器和判别器的基本模型，尽可能地捕获高度复杂的时间相关性，解决了单一LSTM在训练过程中难以保持样本间的时间特性的问题。3）为了提高模型的可扩展性和可移植性，引入具有LSTM-dropout RNN的编码器进行二次编码输入数据，再编码误差作为异常评

18、分的一部分。当生成的时间序列在第一个编码器之后再次编码时，可以获得潜在空间的差异和时间相关性。1 相关工作前文提到时间序列被广泛应用在多个领域，但异常数据十分稀少而且容易被忽略，有时蕴含着重要的信息。一直以来针对异常的类型、数据类型以及工业应用提出了众多异常检测方法10-12，这些方法可以被分类为基于近似、基于预测和基于重构的方法。基于近似值的方法给定特征空间中的一组对象，使用距离或密度测量来量化对象之间的相似性。远离其他对象的不同对象可以被视为异常值。可以分为基于距离的方法，比如 K 近邻（K-Nearest Neighbors，KNN）13和基于密度的方法，比如局部离群因子14。在时间

19、序列中应用此方法也有2个主要缺陷：1）需要异常持续时间和异常个数的先验知识；2）基于近似值的方法无法获得时间序列相关性。基于预测的方法如果一个数据点的预测输入与原始输入之间的之差超过某一阈值，则将该数据点识别为异常。统计模型，如 ARIMA（AutoRegressive Integrated Moving Average）15、Fisher Discriminant Analysis16可以用来对时间序列进行异常检测，但是对参数的选择极为敏感。基于机器学习的方法试图解决以上问题，Ahmad 等17引入了 HTM（Hierarchical Temporal Memory），用于实时数据流

20、的异常检测。虽然循环神经网络（Recurrent Neural Network，RNN）可以捕捉时间序列的相关性，但是随着时间步长的增加，并不能很好地捕捉时间序列相关性，因此对上下文异常检测准确率有较大影响。基于重构的方法一个学习后的模型可以对一个时间序列进行编码，然后对其进行解码。重构误差可以通过原始样本和重构样本之间的差值来得到。重构误差越大表明为异常的可能性越大。主成分分析（Principal Component Analysis，PCA）18是最常见的数据降维的方法，将原始数据映射到低维空间后，也可以根据数据在低维空间里的坐标来重构原始数据。但是仅限于线性重构，

21、要求时间序列数据具有高度相关性并且服从高斯分布。自编码（AutoEncoder，AE）模型与 PCA类似，但 AE使用非线性激活函数时克服了PCA 线性的限制。其他基于 AE 的方法，如 Dai 等19提出SDF-VAE（Static and Dynamic Factorized-Variational Auto Encoder）。这些模型通过显式地将潜在变量分解为动态部分和静态部分来学习 KPI（Key Performance Indicators）表示。霍纬纲等20将自编码和隐马尔可夫模型相结合，提取时间序列特征，同时可以很好地表征时间序列。Schleinitz等21提出将异常检

22、测和时间序列预测任务相结合的 VASP（Variational Autoencoder based Selective Prediction）。然而，这些基于重构的方法容易出现过拟合，并且原始LSTM无法捕获高度复杂的时间相关性，这将降低异常检测的准确性。原始的 GAN22无法捕获时间相关性，于是 Li 等4提出了一种普通的 GAN，它使用 LSTM作为 GAN的基础，并且生成器可以学习多元时间序列的分布。Yooh 等23提出的 TimeGAN（Time Generative Adversarial Network），可以捕获每个时间步805第 43 卷计算机应用的特

23、征分布和关系。王静等24考虑到生成对抗网络训练不稳定、预测准确率不高等问题，提出 EMD-WGAN（EMD-Wasserstein Generative Adversarial Network）模型。本文使用生成对抗模型进行重构，并引入堆叠式 LSTM-dropout RNN作为生成器和鉴别器的基本模型捕获时间相关性。再编码误差作为异常评分的一部分并且多个生成器的重构误差可以直接作为异常评分，可以提高异常检测的性能。2 基于时间序列重构的对抗学习首先，针对高度复杂的相关性设计堆叠 LSTM-dropout RNN 作为生成器和鉴别器的基本框架，它由多个隐藏层组成堆叠 LSTM 网络并且使用了

24、 dropout 机制。其次，考虑到GAN存在模式崩溃缺陷应用了Wasserstein损失25；但是，这需要更大的搜索空间。因此，使用了周期一致性损失。最后，对于正常数据经过两次编码后在潜在空间上的差异较小，然而当使用正常样本训练后检测异常数据时，潜在的空间差异往往很大。因此，使用两个编码器和一个解码器来获得重编码器的损失，扩大异常。再编码损失可以作为异常分数的一部分，以提高异常分数的准确性。对于时间序列的无监督异常检测方法的主要思想是观察某段时间的数值是否符合正常分布，利用重构的方法检测异常。通过学习后的模型可以获得真实数据的特征，生成数据与真实数据误差较小则为正常，然而如果生成的数据与真实

25、数据误差较大，就可以判定为异常。在RTGAN模型中，如图 1所示，学习了 2个域 x、z之间的映射，也就是：x z以及g：z x。对于正常的数据，通过编码映射到潜在空间后解码为数据，最后将数据再次编码映射到潜在空间，此时和第一次编码后在潜在空间上的差异不会特别大。但是，针对异常数据时，再经历两次编码过程下潜在空间上的差距较大。为此设计了再编码结构，也就是：x z。同时设置了多个生成器，确保生成样本的多样性，可以学习到多种异常模式。生成器1、2充当编码器学习时间序列的特征，gi充当解码器，将编码后的潜在空间解码回时间序列，2将解码后的时间序列再次编码回潜在空间，可以通过潜在空间的差异判定异常。使

26、用了多个生成器，保证了生成样本的多样性学习到更多的异常模式，可以提高异常检测的准确度。Dx可以区分来自真实的时间序列还是生成的时间序列，Dz判定1的映射能力，保障了生成器 1可以很好地学习到时间序列的特征。为了能够处理较长的或者具有高度复杂时间相关性的时间序列，设计了堆叠LSTM-dropout RNN（如图2所示）为生成器与判别器的基础模型。将编码器1、2和解码器G=g1，g2，gnum_gen 看作是生成器，1充当编码器将时间序列映射到潜在空间中。多个解码器G，从潜在空间重构时间序列，2将重构后的时间序列再次编码回潜在空间，通过学习时间序列之间的时间相关性以及潜在空间上的差异计算重构误差。

27、2.1堆叠式LSTM-dropout RNN堆叠式 LSTM-dropout RNN 内部由堆叠式 LSTM 网络和dropout组成，使用多个隐藏层组成的堆叠LSTM网络获取时间序列相关性及其特征，解决了单一LSTM在训练过程中难以保持样本间的时间特性的问题。dropout提高了生成对抗模型的泛化能力和鲁棒性，如图2所示。RNN模型有梯度消失和梯度爆炸的缺陷，梯度爆炸可以采用梯度截断将超过阈值的梯度手动降到。相对于梯度爆炸，由于长期依赖的现象也会产生很小的梯度，无法通过类似此方法得到解决，如果刻意提高梯度的值将会使模型失去捕捉长期依赖性的能力。LSTM引入了门机制用于控制特征的流通和损失，解

28、决了长期依赖的问题。因此，LSTM可以作为GAN的基础模型，捕获时间序列相关性。LSTM主要有三个门，分别是遗忘门、输入门、输出门：遗忘门决定什么样的信息需要从单元中丢弃；输入门决定输入中哪些值来更新记忆状态；输出门根据输入和单元的内存决定输出内容。在内部状态的更新中使用了遗忘门和输入门。输入门是单元实际输出什么的最后限制。正是这些门和一致的数据流被称为 CEC（Constant Error Carrousel），可以保持每个单元稳定，即不产生梯度爆炸或者梯度消失。2.2模式崩溃原始 GAN 通过生成器与判别器优化自己的目标函数，可以看作是极大极小博弈V（D，G）。在训练过程中，生成网络G的目

29、标就是尽可能生成真实的样本去欺骗判别网络D。而 D的目标就是尽可能将 G生成的样本和真实的样本区分开。V（D，G）定义如下：minGmaxDV(D，G)=Expxlb(D(x)+Ezpzlb(1-D(G(z)（1）为了解决这个问题，首先使用Wasserstein loss作为对抗损失，用Wasserstein-1距离来训练判别器。其次使用了多个生成器保证生成样本的多样性。对于映射函数gi：z x，以及它的判别器Dx，Dx是用来区分生成样本和真实样本，衡量生成器gi的映射能力并对生成器进行惩罚，从而生成器可以生成更加真实的样本，有以下目标：mingimaxDxVx(Dx，gi)（2）其中：Vx(

30、Dx，gi)=Expxlb(Dx(x)+Ezpzlb(Dx(gi(z)图1RTGAN模型的框架Fig.1Framework of RTGAN modelLSTMLSTMLSTMLSTMdropoutLSTMLSTMLSTMdropout图2堆叠式LSTM-dropout RNN框架Fig.2Framework of stacked LSTM-dropout RNN806第 3 期尹春勇等：基于再编码的无监督时间序列异常检测模型k-利普希茨（k-Lipschitz）连续条件限制了一个连续函数的最大局部变动幅度，可以减小产生梯度爆炸的风险，使模型训练更加稳定。同样对于映射函数 1：x z，以及判别

31、器 Dz，有以下目标：mingimaxDzVz(Dz，gi)（3）其中：Vz(Dz，gi)=Expxlb(Dz(x)+Ezpz Dz(1(x)Dz是判定1将样本映射到潜在空间的能力，使1学习时间序列的特征，同时辨别样本是来自于随机样本 zpz还是编码后的样本1(x)。2.3周期一致性周期一致性损失保证数据的不同域之间可以相互转换，通常用于不同风格之间的转换。目前基于重构的方法，一般学习如何将输入映射到目标空间然后根据目标空间还原输入数据。由于目标空间太大，往往增加模型的训练难度和时间，然而Wasserstein的优化仅加快了模型的训练和避免模式崩溃。周期一致性损失恰好可以解决这个问题，它可以保

32、证数据不同域之间的转换，因为它减小了映射空间。为此，使用最小化原始样本与重构样本之间的L2范数，训练具有自适应的循环周期一致性损失生成网络1，2，gi：min gi，1Vcyc(1，gi)=Expxx-gi(1(x)2（4）2.4再编码改进的再编码器将堆叠式 LSTM-dropout RNN 作为编码器的基本架构，能够学习数据相关性。之前的模型架构通常对比原始数据分布与生成数据分布之间的差异并没有考虑到时间序列的相关性，当异常的数据十分接近正常数据时，这种差异很小，很容易让判别器判定为正常。使用具有堆叠式 LSTM-dropout RNN 编码器针对输入进行二次编码，由于改进的再编码有捕获时间

33、序列的相关性特征。因此，如果是异常样本经历过两次编码后潜在空间差异比较明显，可以更好地检测到异常。通过最小化输入特征1(x)=z与生成的时间序列的编码特征2(gi(x)之间的差异，可以使生成器学习如何正常样本编码成对应的潜在空间。定义如下：min gi，1，2Venc(1，gi，2)=Expx1(x)-2(gi(1(x)2（5）结合所给的目标函数（2）（5）可以得到最终的 MinMax的目标函数：min gi，1，2max Dx，DzVx(Dx，gi)+Vz(Dz，gi)+Vcyc(1，gi)+Venc(1，gi，2)（6）RTGAN整个框架如图1所示。在异常检测方面，首先，模型中的Dx不仅可

34、以区分真实时间序列数据和假的时间序列数据，而且会对输入的时间序列进行评分，可以直接用来判定异常；生成器可以对时间序列进行编码再解码，可以用它们的误差也就是重构误差值判定异常，RTGAN 使用了二次编码，通过对比潜在空间的差异判定异常。使用多个生成器保证生成样本多样性，可以生成各种正常样本从而降低异常检测的假阳性，同时学习到不同的异常模式。2.5异常分数在现实世界中的时间序列数据往往不是连续的或者长度一致的，这给衡量两个时间序列之间的差异带来了挑战。针对这个问题，本文使用动态时间规划（Dynamic Time Warping，DTW）计算重构误差，衡量两个长度不同的时

35、间序列的相似度。首先将其中一个序列进行线性放缩保证两个时间序列对齐，然后计算第一个时间序列的一个点与第二个时间序列中所有点之间的欧几里得距离，最后存储最小距离（称为“时间扭曲”）。假设x=xm-l，xm-l+1，xm为RTGAN的输入数据，x?=x?m-l，x?m-l+1，x?m为生成器生成的数据，它们之间的欧氏距离作为一个矩阵，warping的路径会穿越这个矩阵也就是最优路径。warping路径的第 k个元素表示为wk=(i，j)k即为最小距离。两个时间序列x和x?的DTW距离定义如下：Re=DTW(x，x?)=minw|1Kk=1Kwk|（7）RTGAN的重构误差为：Re(x)=

36、k=1ngDTW(x，x?k)（8）其中x?k为第k个生成器生成的样本。再编码误差Venc(1，gi，2)：lre(x)=i=1ngj=1T 1(x?j)-2(gi(1(x?j)1T（9）使用重构误差Re(x)、再编码误差lre和判别器输出Dx(x)相结合为最后的异常分数，Re(x)和lre越大，Dx(x)越小，为异常的概率越大。本文使用z-score标准化分别计算它们的值（ZRe(x)，Zlre，ZDx(x)），然后正则化它们，越大的值表明异常的概率越大：A(x)=(ZRe(xi)+Zlre(xi)+(1-)ZDx(x?i)（10）RTGAN 在每次迭代时，先训练判别器 nd次再训练 ng次

37、生成器。在训练过程中学习率为 lr，使用 RMSProp（Root Mean Square Prop）优化器。算法1 RTGAN算法。输入真实的样本 xi1，2，swmi=1；来自随机空间的样本 zi1，2，kmi=1；批大小为m；生成器数量为ng；每个epoch中判别器迭代的次数为nd。输出重构误差ZRe(x)；再编码误差Zlre；判别器分数ZDx(x)。1）For 每个 epoch do2）For k in nd do3）更新判别器Dx，Dz的梯度，使用梯度惩罚4）End for5）End for6）For j in ng do7）使用式（6）更新第i个生成器和两个编码器的梯度8）En

38、d For算法2 异常分数计算方法。输入重构误差ZRe(x)；再编码误差Zlre(x)；判别器分数ZDx(x)。输出异常分数score。1）For i in ng do2）A(x)=(ZRe(xi)+Zlre(xi)+(1-)ZDx(x?i)，使用 DTW计算重构误差，得到第i个异常分数807第 43 卷计算机应用3）score=score+A(x)4）End for5）将所有的异常分数求和取均值，得到最后的异常值作为输出score=score ng3 实验与结果分析使用 Python3.6 版本作为编程基础，用 PyTorch1.9.0、Anaconda 4.10.1、cuda11.3

39、实现和测试。使用 Ubuntu 18.04.5 LTS、Intel Xeon CPU E5-2678 v3、2 块 RTX 3060 GPU、16 GB内存的计算机上运行程序。研究工作主要针对时间序列异常检测任务，为了检验模型的效果，选用4个数据集：对单变量时间序列异常检测，本文使用 NASA（MSL 和 SMAP）提供的航天器遥测信号；对多变量时间序列异常检测，使用了CPS（Cyber Physical Systems）安全水处理和分配系统数据集（SWaT和WADI）。不同来源的数据集包含不同的异常，并且每个异常位置已知，表1给出了每个数据集的细节。SWaT 和 WADI：安全水

40、处理系统和水分配系统数据集来自新加坡 iTrust 网络安全研究中心，为多变量时间序列。SWaT 数据集中 51 个变量对应有 946 719 个样本，其中496 800个样本在正常工作情况下的样本，449 919个样本在具有攻击情况下的样本，异常比率为11.98%。WADI数据集中127个变量对应有5 962 172个样本，其中5 789 371个样本在正常工作情况下的样本，172 801个样本在具有攻击情况下的样本。选择其中577 658个样本作为其中的数据集，异常比率为5.99%。SMAP和MSL：它们是两个真实世界的公共数据集，来自NASA专家标记的数据集。SMA

41、P总共有562 800个样本只有25个变量，异常比率为 13.13%；MSL总共有 132 046个样本只有 55 个变量，异常比率为 10.27%，检测异常时使用单一的变量组成的时间序列。在 SWaT 中，攻击点包括了传感器和执行器，比如压强的变化会影响水流速度和水位等，这些传感器和执行器之间有着不同的相关性，WADI收集了这些信息并处理。随着传感器和执行器的增加，时间相关性会变得更复杂，这给时间序列异常检测带来了挑战。这些数据集中大部分时间序列都是正常的，而异常的时间序列十分稀少，这导致数据集不平衡，从而降低异常检测的准确率。3.1基准模型本文选择了7个最新的异常检测模型作为基准模型，以比

42、较所提出的RTGAN模型的性能。AutoEncoder 编码器可提取时间序列的特征，解码器可以还原时间序列数据，利用重构误差计算异常，因此将RTGAN 与具有密集层或 LSTM 层的变分自动编码器进行了比较。密集层自动编码器有3层编码器有2层分别有60、20个隐藏单元，解码器有60个隐藏单元。LSTM自动编码器有三层，有 256 个隐藏单元的 LSTM 编码器层和有 512 个隐藏单元的LSTM解码器层。孤立森林（Isolation Forest，IF）孤立森林是基于决策树的算法，从给定的特征集合，随机选择两个特征，通过在所选特征的最大值和最小值之间随机选择一个值来分割数据点，观察值的划分递归

43、地重复，直到所有的观察值被孤立。根据平均路径长度来区分正常和异常数据点：较短的路径表示异常，较长的路径表示正常的观测。OmniAnomaly26 这是一个结合了 GRU（Gated Recurrent Unit）和 VAE（Variation Auto-Encoder）的随机循环神经网络模型，通过学习多元时间序列的正常模式，并使用重构概率判定异常。LSTM-VAE 编码器由一个 LSTM 单元组成，像在 VAE架构中的每个编码器一样，它会产生一个2D输出用于逼近潜在分布的平均值和方差。解码器从二维潜在分布上采样，形成三维序列。然后将生成的序列与通过 LSTM 单元传递的原始分类嵌入

44、序列连接回去，以重建原始的流量序列，根据重构误差和判别结果检测异常。MAD-GAN 它使用了深度为 3 和 100 个隐藏（内部）单元的堆叠 LSTM 网络。鉴别器是相对简单的 LSTM 网络，具有深度1和100个隐藏单元，支持多元时间序列重构。DAGMM 网络结构分为压缩网络和估计网络。压缩网络是一个常规的自编码。通过压缩网络可以得到前面提到的两部分关键信息：一个是中间隐藏层特征（低维空间特征信息），一个是由输入向量和输出向量计算得到的重构误差。USAD 基于重构的无监督方法，USAD结构由3个部分组成，1个编码器和2个解码器，共享同一编码器网络的两个自动编码器AE1和AE2组成的架构，该模

45、型被用来获得异常得分，如果异常分数高于选定的异常阈值，则判定为异常。3.2实验结果与分析对每个模型选择合适的阈值用于判定异常，并且给出了每个模型的最优F1值。表2中描述了在公共数据集上的所有模型的结果（最优结果用粗体标记）。在整体性能上RTGAN 超越了其他的无监督方法，在所有的公共数据集中获得了最高的平均F1值（0.815）。为了检查异常检测的准确性，在 4 个数据集中集成了145个异常，其中式（10）中的异常分数被用于检测异常。最后发现 RTGAN 模型检测到 143 个异常（如图 3 所示），而USAD 检测到 123 个异常，意味着总体性能上看，RTGAN 优表1四个数据集的统计信息T

46、ab.1Statistics of four datasets数据集SWaTWADISMAPMSL样本总数946 719577 658562 800132 046样本数分类训练集568 031346 594337 68079 227测试集378 688231 064225 12052 819异常比率/%11.985.9913.1310.72特征数511272555表2异常检测的F1值对比Tab.2Comparison of F1-scores for anomaly detection模型RTGANDense-AEIFUSADDAGMMLSTM-VAEMAD-GANOmniAnomaly单变量

47、时间序列SMAP0.8610.7290.4730.8170.7640.6840.3810.853MSL0.9270.4830.6120.9110.8520.5790.1240.901多变量时间序列SWaT0.8530.8240.7380.8460.7970.8040.8100.833WADI0.6170.3540.3150.4300.2010.3800.6240.406最优平均F10.8150.5980.5350.7510.6540.6120.4850.748808第 3 期尹春勇等：基于再编码的无监督时间序列异常检测模型于 USAD。本文在 NASA 数据集上（SMAP、MSL）测

48、试了RTGAN 的收敛性，在训练和测试时使用了 SMAP 和 MSL 数据集上的平均损失，如图 4 所示，当训练到 70 次左右收敛。在时间开销上，机器学习方法异常检测速度比深度学习的方法快，虽然RTGAN在训练集和测试集上消耗了较多的时间，但是获得了最优的性能，随着硬件设备的快速发展，耗时的问题带来的影响会更小。在时间序列分析中，往往通过信噪比（Signal-to-Noise Ratio，SNR）检测模型的健壮性，使用不同信噪比的高斯噪声加入到原始时间序列中，所有数据集上的最优性能平均F1 值实验结果如表 3 所示，其中噪声对 LSTM-VAE、USAD、OmniAnomaly的影响较大

49、，RTGAN虽然随着信噪比的增加性能在逐渐下降，但是仍然明显优于其他模型。1）多变量时间序列SWaT和WADI。在SWaT数据集中，RTGAN 的平均 F1值比传统的方法 IF（0.738）高出 15.58%，对比USAD（0.846）表现出最佳的性能。在WADI数据集中，RTGAN 比 MAD-GAN 降低了 1.13%，但胜过了 DAGMM（0.201）、IF（0.315）、LSTM-VAE（0.38）和 AE（0.354），比USAD（0.43）高出43.49%。从表2可以得出RTGAN在SWaT和 WADI 数据集上的最佳的总体平均性能（0.735），相较于MADGAN（0.

50、717）和 USAD（0.638）提高了 2.51%和26.36%。2）单变量时间序列 SMAP 和 MSL。RTGAN 在 SMAP 和MSL 数据集上都获得了最好的性能。在 SMAP 数据集上，RTGAN 比 MAD-GAN（0.381）和 IF（0.473）更优，高出 LSTM-VAE（0.684）25.88%，相较于 USAD（0.817）的平均 F1 值高出 5.39%，同时优于 OmniAnomaly。在 MSL 数据集上，RTGAN 远优于 MAD-GAN，并且 MAD-GAN 在 MSL 数据集上表现最差平均 F1值仅有 0.124，同时 RTGAN 的性能明显

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于编码监督时间序列异常检测模型尹春勇

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。