基于再编码的无监督时间序列异常检测模型_尹春勇.pdf
《基于再编码的无监督时间序列异常检测模型_尹春勇.pdf》由会员分享,可在线阅读,更多相关《基于再编码的无监督时间序列异常检测模型_尹春勇.pdf(8页珍藏版)》请在咨信网上搜索。
1、2023 03 10计算机应用,Journal of Computer Applications2023,43(3):804-811ISSN 10019081CODEN JYIIDUhttp:/基于再编码的无监督时间序列异常检测模型尹春勇*,周立文(南京信息工程大学 计算机与软件学院,南京 210044)(通信作者电子邮箱)摘要:针对时间序列的数据不平衡和高度复杂的时间相关性导致的异常检测准确率低的问题,以生成对抗网络(GAN)作为基础提出一种基于再编码的无监督时间序列异常检测模型RTGAN。首先,使用具有周期一致性的多个生成器保证生成样本的多样性,从而学习不同的异常模式;其次,使用堆叠式LS
2、TM-dropout RNN捕获时间相关性;然后,使用二次编码在潜在空间中比较生成样本和真实样本之间的差异,并将此差异作为再编码误差当作异常分数的一部分,从而提高异常检测的准确率;最后,使用新的异常分数对单变量和多变量时间序列数据集进行异常检测。将所提模型与七种基线异常检测模型在单变量和多变量时间序列上进行了比较。实验结果表明,所提模型在所有数据集上均获得了最高的平均F1值(0.815),并且总体性能分别比原始自编码器(AE)模型Dense-AE和最新的基准模型USAD高出36.29%和8.52%。通过不同的信噪比(SNR)检测模型的健壮性,结果表明所提模型一直优于LSTM-VAE、USAD
3、和 OmniAnomaly,尤其在 SNR 为 30%情况下,RTGAN 的 F1 值分别比 USAD 和 OmniAnomaly 高出 13.53%和10.97%。可见所提模型能有效提高异常检测的准确率和鲁棒性。关键词:生成对抗网络;异常检测;时间序列;堆叠式长短期记忆网络;自编码器;再编码中图分类号:TP391.1 文献标志码:AUnsupervised time series anomaly detection model based on re-encodingYIN Chunyong*,ZHOU Liwen(School of Computer and Software,Nanjin
4、g University of Information Science and Technology,Nanjing Jiangsu 210044,China)Abstract:In order to deal with the problem of low accuracy of anomaly detection caused by data imbalance and highly complex temporal correlation of time series,a re-encoding based unsupervised time series anomaly detecti
5、on model based on Generative Adversarial Network(GAN),named RTGAN(Re-encoding Time series based on GAN),was proposed.Firstly,multiple generators with cycle consistency were used to ensure the diversity of generated samples and thereby learning different anomaly patterns.Secondly,the stacked Long Sho
6、rt-Term Memory-dropout Recurrent Neural Network(LSTM-dropout RNN)was used to capture temporal correlation.Thirdly,the differences between the generated samples and the real samples were compared in the latent space by improved re-encoding.As the re-encoding errors,these differences were served as a
7、part of anomaly score to improve the accuracy of anomaly detection.Finally,the new anomaly score was used to detect anomalies on univariate and multivariate time series datasets.The proposed model was compared with seven baseline anomaly detection models on univariate and multivariate time series.Ex
8、perimental results show that the proposed model obtains the highest average F1-score(0.815)on all datasets.And the overall performance of the proposed model is 36.29%and 8.52%respectively higher than those of the original AutoEncoder(AE)model Dense-AE(Dense-AutoEncoder)and latest benchmark model USA
9、D(UnSupervised Anomaly Detection on multivariate time series).The robustness of the model was detected by different Signal-to-Noise Ratio(SNR).The results show that the proposed model consistently outperforms LSTM-VAE(Variational Autoencoder based on LSTM),USAD and OmniAnomaly,especially in the case
10、 of 30%SNR,the F1-score of RTGAN is 13.53%and 10.97%respectively higher than those of USAD and OmniAnomaly.It can be seen that RTGAN can effectively improve the accuracy and robustness of anomaly detection.Key words:Generative Adversarial Network(GAN);anomaly detection;time series;stacked Long Short
11、-Term Memory(LSTM)network;AutoEncoder(AE);re-encoding0 引言 近年来时间序列在风险评估、金融分析、物联网、医疗等方面得到了广泛的应用1。它在计算机视觉、统计学、机器学习中越来越重要,比如触屏手势序列2被用来识别人类行为,基于时间序列成像提取时间序列特征3。然而,在时间序列中可能存在一些不符合现实变化规律的数据,称之为异常数据,虽然异常所占的比例很小,但容易被忽略。比如,在心电图诊断中忽略掉异常,这会发生误诊,对患者的健康造文章编号:1001-9081(2023)03-0804-08DOI:10.11772/j.issn.1001-9081.
12、2022010006收稿日期:20220106;修回日期:20220428;录用日期:20220429。作者简介:尹春勇(1977),男,山东潍坊人,教授,博士生导师,博士,主要研究方向:网络空间安全、大数据挖掘、隐私保护、人工智能、新型计算;周立文(1996),男,江苏沭阳人,硕士研究生,主要研究方向:异常检测、深度学习、大数据挖掘、对抗攻击。第 3 期尹春勇等:基于再编码的无监督时间序列异常检测模型成巨大威胁。在物联网中,传感器网络目前被广泛使用在地下施工安全检测和预警系统,然而传感器网络容易受到攻击,如果不能有效检测到异常可能会造成灾难,因此,提高时间序列异常检测准确率十分重要。时间序列
13、数据分为单变量和多变量时间序列数据。在气象、社交媒体流量、出租车服务等方面多变量时间序列无处不在,这也表明在现实世界中大部分时间序列都是多变量时间序列。然而,时间序列往往缺乏标签,同时标记异常需要高昂的专家成本而且还不能保证所有的异常类型都被标记,因此,设计不严重依赖标记数据的模型具有重要意义。在这种情况下,此类模型在现实场景中更有适应性;但是时间序列含有噪声和复杂的异常模式,这使得捕获高度复杂的时间相关性和检测异常更加困难。此外,许多模型忽略了时间序列中的时间相关性。深度学习方法使用了具有更多隐藏层的神经网络,因此能够捕获复杂的潜在特征和时间相关性,例如,MAD-GAN(Multivaria
14、te Anomaly Detection with Generative Adversarial Network)4和 USAD(UnSupervised Anomaly Detection)5使 用 长 短 期 记 忆(Long Short-Term Memory,LSTM)网络捕获时间相关性。同样,使用深度学习方法也有缺陷,比如,使用 AutoEncoder6和 LSTM-VAE(Long Short-Term Memory Variational AutoEncoder)7等模型通过重构误差进行异常检测。这类模型可以很好地拟合数据,当使用具有L2目标函数的LSTM时,仍然存在过拟合问题。
15、如果数据中包含异常,这些深度学习方法也拟合了这些异常,从而降低异常检测的性能,因此,当异常数据非常接近正常数据时,通常无法检测异常。基 于 生 成 对 抗 网 络(Generative Adversarial Network,GAN)的异常检测方法:首次由Schlegl等8提出,它针对医学图像进行异常检测,引起很多学者对 GAN 进行异常检测的广泛关注。原始GAN只是通过比较原始数据与生成数据的分布差异判定异常,导致模型需要大量的计算成本。GAN本身有着模式崩溃的问题,训练也存在困难。Dendorfer等9提出MG-GAN(Multi-Generator Generative Adversar
16、ial Network),使用多个生成器,避免模式崩溃同时减少了分布外的样本。GAN虽然在异常检测中使用广泛,但是 GAN对时间序列的异常检测研究较少。考虑到上述问题,本文提出一个基于无监督深度学习的新 型 GAN 结 构 RTGAN(Re-encoding Time series based on Generative Adversarial Network),使用具有周期一致性的多个生成器,以确保生成器能够生成多样性的样本并学习时间序列数据中的特征空间,从而使RTGAN能够捕获给定数据的正态性。异常分数由多个生成器、再编码误差和两个鉴别器的输出计算得出。本文的主要工作如下:1)提出了一种新
17、颖的基于 GAN 的无监督异常检测方法。多个生成器保证生成样本多样性,在不同子空间中捕获复杂的异常模式,同时使用循环一致性,以避免冲突,并确保映射过程中的一一对应。2)设 计 堆 叠 LSTM-dropout RNN(Stacked Long Short-Term Memory dropout Recurrent Neural Network)作为生成器和判别器的基本模型,尽可能地捕获高度复杂的时间相关性,解决了单一LSTM在训练过程中难以保持样本间的时间特性的问题。3)为了提高模型的可扩展性和可移植性,引入具有LSTM-dropout RNN的编码器进行二次编码输入数据,再编码误差作为异常评
18、分的一部分。当生成的时间序列在第一个编码器之后再次编码时,可以获得潜在空间的差异和时间相关性。1 相关工作 前文提到时间序列被广泛应用在多个领域,但异常数据十分稀少而且容易被忽略,有时蕴含着重要的信息。一直以来针对异常的类型、数据类型以及工业应用提出了众多异常检测方法10-12,这些方法可以被分类为基于近似、基于预测和基于重构的方法。基于近似值的方法 给定特征空间中的一组对象,使用距离或密度测量来量化对象之间的相似性。远离其他对象的不同对象可以被视为异常值。可以分为基于距离的方法,比如 K 近邻(K-Nearest Neighbors,KNN)13和基于密度的方法,比如局部离群因子14。在时间
19、序列中应用此方法也有2个主要缺陷:1)需要异常持续时间和异常个数的先验知识;2)基于近似值的方法无法获得时间序列相关性。基于预测的方法 如果一个数据点的预测输入与原始输入之间的之差超过某一阈值,则将该数据点识别为异常。统 计 模 型,如 ARIMA(AutoRegressive Integrated Moving Average)15、Fisher Discriminant Analysis16可以用来对时间序列进行异常检测,但是对参数的选择极为敏感。基于机器学习的方法试图解决以上问题,Ahmad 等17引入了 HTM(Hierarchical Temporal Memory),用于实时数据流
20、的异常检测。虽然循环神经网络(Recurrent Neural Network,RNN)可以捕捉时间序列的相关性,但是随着时间步长的增加,并不能很好地捕捉时间序列相关性,因此对上下文异常检测准确率有较大影响。基于重构的方法 一个学习后的模型可以对一个时间序列进行编码,然后对其进行解码。重构误差可以通过原始样本和重构样本之间的差值来得到。重构误差越大表明为异 常 的 可 能 性 越 大。主 成 分 分 析(Principal Component Analysis,PCA)18是最常见的数据降维的方法,将原始数据映射到低维空间后,也可以根据数据在低维空间里的坐标来重构原始数据。但是仅限于线性重构,
21、要求时间序列数据具有高度相关性并且服从高斯分布。自编码(AutoEncoder,AE)模型与 PCA类似,但 AE使用非线性激活函数时克服了PCA 线性的限制。其他基于 AE 的方法,如 Dai 等19提出SDF-VAE(Static and Dynamic Factorized-Variational Auto Encoder)。这些模型通过显式地将潜在变量分解为动态部分和静态部分来学习 KPI(Key Performance Indicators)表示。霍纬纲等20将自编码和隐马尔可夫模型相结合,提取时间序列特征,同时可以很好地表征时间序列。Schleinitz等21提出 将 异 常 检
22、测 和 时 间 序 列 预 测 任 务 相 结 合 的 VASP(Variational Autoencoder based Selective Prediction)。然而,这些基于重构的方法容易出现过拟合,并且原始LSTM无法捕获高度复杂的时间相关性,这将降低异常检测的准确性。原始的 GAN22无法捕获时间相关性,于是 Li 等4提出了一种普通的 GAN,它使用 LSTM作为 GAN的基础,并且生成器可以学习多元时间序列的分布。Yooh 等23提出的 TimeGAN(Time Generative Adversarial Network),可以捕获每个时间步805第 43 卷计算机应用的特
23、征分布和关系。王静等24考虑到生成对抗网络训练不稳定、预测准确率不高等问题,提出 EMD-WGAN(EMD-Wasserstein Generative Adversarial Network)模型。本文使用生成对抗模型进行重构,并引入堆叠式 LSTM-dropout RNN作为生成器和鉴别器的基本模型捕获时间相关性。再编码误差作为异常评分的一部分并且多个生成器的重构误差可以直接作为异常评分,可以提高异常检测的性能。2 基于时间序列重构的对抗学习 首先,针对高度复杂的相关性设计堆叠 LSTM-dropout RNN 作为生成器和鉴别器的基本框架,它由多个隐藏层组成堆叠 LSTM 网络并且使用了
24、 dropout 机制。其次,考虑到GAN存在模式崩溃缺陷应用了Wasserstein损失25;但是,这需要更大的搜索空间。因此,使用了周期一致性损失。最后,对于正常数据经过两次编码后在潜在空间上的差异较小,然而当使用正常样本训练后检测异常数据时,潜在的空间差异往往很大。因此,使用两个编码器和一个解码器来获得重编码器的损失,扩大异常。再编码损失可以作为异常分数的一部分,以提高异常分数的准确性。对于时间序列的无监督异常检测方法的主要思想是观察某段时间的数值是否符合正常分布,利用重构的方法检测异常。通过学习后的模型可以获得真实数据的特征,生成数据与真实数据误差较小则为正常,然而如果生成的数据与真实
25、数据误差较大,就可以判定为异常。在RTGAN模型中,如图 1所示,学习了 2个域 x、z之间的映射,也就是:x z以及g:z x。对于正常的数据,通过编码映射到潜在空间后解码为数据,最后将数据再次编码映射到潜在空间,此时和第一次编码后在潜在空间上的差异不会特别大。但是,针对异常数据时,再经历两次编码过程下潜在空间上的差距较大。为此设计了再编码结构,也就是:x z。同时设置了多个生成器,确保生成样本的多样性,可以学习到多种异常模式。生成器1、2充当编码器学习时间序列的特征,gi充当解码器,将编码后的潜在空间解码回时间序列,2将解码后的时间序列再次编码回潜在空间,可以通过潜在空间的差异判定异常。使
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 编码 监督 时间 序列 异常 检测 模型 尹春勇
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。