一种融合变量的日志异常检测方法.pdf
《一种融合变量的日志异常检测方法.pdf》由会员分享,可在线阅读,更多相关《一种融合变量的日志异常检测方法.pdf(5页珍藏版)》请在咨信网上搜索。
1、NETINFOSECURITY入选论文2023年第10 期doi:10.3969/j.issn.1671-1122.2023.10.003一种融合变量的日志异常检测方法张玉臣,李亮辉,马辰阳,周洪伟(中国人民解放军信息工程大学密码工程学院,郑州450 0 0 1)摘要:为了充分挖掘日志中变量的潜能,优化日志异常检测效果,文章提出一种融合变量的日志异常检测方法SiEv。首先,该方法可以识别主体变量,并根据主体变量将日志划分为不同片段;然后,SiEv以这些日志片段为输入,基于长短期记忆网络(LongShort-TermMemory,LST M)训练或检测异常,从而避免不同主体的日志序列特征相互干扰
2、;最后,根据日志片段将Sv划分为多个类别,从不同角度检测日志。为了验证文章所提方法的有效性,SiEv对Loghub所提供的日志数据集进行测试。实验结果表明,SiEv能够发现多种类型日志中存在的异常,识别同一主体的活动行为模式和变化趋势。关键词:日志;异常检测;LSTM;变量中图分类号:TP309文献标志码:A文章编号:16 7 1-112 2(2 0 2 3)10-0 0 16-0 5中文引用格式:张玉臣,李亮辉,马辰阳,等一种融合变量的日志异常检测方法J.信息网络安全,2023,23(10):16-20.英文引用格式:ZHANG Yuchen,LI Lianghui,MA Chenyang,
3、et al.A Log Anomaly Detection Method withVariablesJ.Netinfo Security,2023,23(10):16-20.A Log Anomaly Detection Method with VariablesZHANG Yuchen,LI Lianghui,MA Chenyang,ZHOU Hongwei(Department of Cryptographic Engineering,Information Engineering University of PLA,Zhengzhou 450001,China)Abstract:In o
4、rder to fully tap the potential of variables in logs and optimize theeffectiveness of log anomaly detection,this paper proposed a novel log anomaly detectionmethod SiEv with the variables.Firstly,this method identified the subject variable in thelog,and divided the log into different fragments based
5、 on the subject variable.Then,SiEvtook these fragments as input for LSTM to avoid mutual interference between log sequencefeatures of different subjects.Finally,according to different log fragments,SiEv was able tobe divided into multiple categories to detect logs with the view of different perspect
6、ives.Toverify the effectiveness of the method,SiEv was tested with the log dataset provided by theLoghub.The experimental results indicate that SiEv is able to detect anomalies in varioustypes of logs,identify the activity behavior patterns and trends of the same subject.Key words:log;anomaly detect
7、ion;LSTM;variables收稿日期:2 0 2 3-0 6-0 4基金项目:国家自然科学基金6 19 0 2 42 7 作者简介:张玉臣(19 7 7 一),男,河南,教授,博士,主要研究方向为保密管理;李亮辉(2 0 0 0 一),男,河北,本科,主要研究方向为保密管理;马辰阳(2 0 0 0 一),男,河南,本科,主要研究方向为网络信息防御;周洪伟(19 7 9 一),男,重庆,副教授,博士,主要研究方向为网络信息安全。通信作者:周洪伟hong_wei_16NETINFOSECURITY2023年第10 期入选论文0引言日志异常检测是发现日志异常的重要手段之一。日志记录着系统运行
8、过程中的信息,包括警报、错误、事件、运行时间和信号等。通过对这些信息进行分析,可以有效发现异常和故障,并及时采取措施保持系统稳定运行!。然而,系统日志通常包含海量数据,故障类型较多且变化速度快,这给日志异常检测带来了巨大挑战2 。传统基于规则的检测方法完全依赖领域专家构建规则,不适用于各种复杂环境和新兴故障类型3-。近年来,人们将深度学习技术应用于日志异常检测领域。Deeplogl8使用LSTM神经网络对正常会话的顺序模式进行建模得到正常行为模式,检测时如果发现违反正常行为模式的行为,则认为发现异常。LogAnomaly9使用日志计数向量作为输入,训练LSTM模型来检测序列和定量异常。基于上述
9、方法,nLSALogl1和LogNLI对LSTM网络做了一定改进。大多数利用LSTM的方法使用事件发生序列或其变体训练网络,并将测试数据中的异常序列模式定性为异常12 。上述工作8-12 仍然存在进一步优化的可能。例如,使用LSTM网络需要大量计算资源,使得人们在使用LSTM网络时通常会简化数据,从而减少计算资源需求。因此,LogAnomaly只使用了日志中的事件信息,没有关注日志行为的主体信息。本文认为在一些情况下,这些主体信息对于日志异常检测是有帮助的。因此,有的工作直接以日志原文的语义为LSTM的输人,避免日志主体等语义的丢失13。但是这种语义抽象会使训练工作量增加,难以很好地平衡准确性
10、和效率。本文提出一种融合变量的日志异常检测方法SEV。首先,识别日志中的主体变量,所谓主体变量是指日志中记录事件的实施者,事件与主体变量共同作为SEv的分析数据源,可以更准确地捕捉各主体的工作流序列;然后,为了准确分析日志,根据主体变量将日志序列划分为多个不同片段,针对不同日志片段从不同角度实施异常检测;最后,在Loghub14提供的公开数据集上进行实验,实验结果表明,SiEv在HDFS数据集上的准确率、召回率和F1值优于Deeplog,在多个数据集上也有较好的表现。1相关工作在日志异常检测中,传统的机器学习方法可以根据特征提取方式和检测算法的不同进行分类。文献15 提取了日志的状态变量比例向
11、量和消息计数向量两种特征,并采用主成分分析(Principal ComponentsAnalysis,PCA)算法进行模型训练。文献16 构造了以会话ID为行、日志模板为列的特征矩阵,并通过专家知识对语义相近的模板进行合并以减少噪声干扰,采用支持向量机算法进行异常检测。文献17 首先识别训练数据中的正常数据集,然后提取其中的正常状态,最后利用决策树算法和隐马尔可夫算法相结合的方式识别异常。文献18 首先通过TF-IDF(T e r mFrequency-Inverse Document Frequency)技术提取日志特征,并利用此特征将日志模板向量化,然后使用meanshif聚类方法为训练数
12、据打上标签,最后将标签化的数据利用K最邻近(KNearest Neighbor,K NN)算法进行模型训练和异常识别。文献19 将日志消息特征分别用字符串度量和数值度量,并利用聚类的算法进行模型训练,该方法可实现实时在线检测功能。基于深度学习技术的异常检测方法根据使用的模型不同进行划分。Deeplog8利用两层叠加的LSTM模型对正常日志进行训练,通过学习正常执行路径下的日志序列规律进行异常检测。nLSALogl10在Deeplog的基础上为网络增加自注意力机制,使得模型能更好地捕获日志内部的序列规律。LogAnomaly9将日志序列建模成语义向量序列,并将此序列输入LSTM网络中进行训练,借
13、鉴词嵌入的相关规律提出模板嵌入方法,提升了模型的鲁棒性。LogNL!受语义向量的启发,在Deeplog的基础架构上,将所有不同日志序列改为语义向量序列,改善了模型学习能力。LogRobust20将日志序列分为前向和后向,采用Bi-LSTM网络训练日志样本,可以更大程度上学习日志文件的序列规律,同时使用日志的语义表达过滤掉一些噪声干扰。17NETINFOSECURITY入选论文2023年第10 期NoTIL21借鉴传统机器学习的计数向量方法,利用学习固定时间窗口内的日志计数规律检测异常。传统的机器学习方法一般在日志模板上进行特征学习,不能很好地处理日志变量信息。在异常检测中,需要更大规模数据集和
14、计算资源的基于深度学习的算法有的没有考虑日志变量,有的采用复杂的语义方法表示变量信息,这增加了计算量,降低了算法的效率。鉴于此,本文提出一种融合变量的日志异常检测方法,旨在解决上述方法对于日志变量的不兼容性和计算量大的问题。该方法在特征提取与特征选择阶段之前插人一个基于变量名的筛选器,筛选器将日志按相同名称的变量聚合起来,针对不同的聚合日志分别采用LSTM网络进行序列规律学习,并将新的日志序列代入训练好的模型中,进行异常检测。2融合变量的日志异常检测方法本文针对主体变量进行讨论,将基于LSTM并融合主体变量的日志异常检测统称为SiEv。日志中的变量分为多种类型,例如,日志中记录进程ID的变量可
15、以视为主体变量,而反映进程状态的变量可以视为状态变量,本文主要关注主体变量。根据应用主体变量方法的不同,将SiEv进一步细分为SiEv-1、Si Ev-2、Si Ev-3和SiEv-4。SiEv-1利用同一个主体变量的事件序列作为LSTM的训练数据集或检测数据集;SiEv-2利用相同主体变量的事件频率作为LSTM的训练数据集或检测数据集;SiEv-3利用相同事件的主体变量数量作为LSTM的训练数据集或检测数据集;SiEv-4利用主体变量数量作为LSTM的训练数据集或检测数据集,本文主要对SiEv-1和SiEv-2进行讨论。2.1主体变量识别主体变量是标识日志动作参与者的变量,其可能是一个进程、
16、线程,也可能是一个软件、IP地址,还可能是分布式系统的内嵌模块和外置主机。对于大型多用户交互的软件系统,其日志中包含多个并发工作流的工作痕迹,如果不加以区分会使事件序列特征相互干扰。通过划分主体变量,可以有效缩小日志数据的搜索范围,降低数据访问的时间成本,提高数据查询和分析的效率。因此,正确区分不同主体对于实现精细化的日志处理、管理和挖掘等功能至关重要。本文基于专家预设的规则识别日志主体变量,通过统计和分析不同类型的日志特征,发现其主体变量位置是固定的,并结合日志类型和主体变量位置制定适用于不同日志的主体变量提取规则。在日志预处理时,根据日志类型获取相应的主体变量提取规则,同时采用正则匹配将对
17、应位置的主体变量提取出来。常见4种日志的规则集如表1所示,通过提取每个日志条目中的主体变量,并利用设置好规则的筛选器对日志序列进行筛选,根据不同主体变量将其归属到相应的事件序列中,最终生成准备数据。表1常见4种日志类型与主体变量位置规则集日志类型主体变量位置规律 logHadoop log中的HDFSNodeReBGL messagepeatlLevel训练预测18NETINFOSECURITY2023年第10 期入选论文SEv-1利用LSTM构建日志异常模型并实施检测。SEv-1将特定主体的事件序列提取后得到的序列转换为LSTM的输入。在完成训练后,LSTM能够根据历史的日志序列预测下一个日
18、志事件的发生概率。在实施检测时,当实际事件序列与LSTM所预测的事件序列存在明显差异时,则认为出现异常。在图1中,LSTM预测序列(1,2,3 的下一个事件为4,如果实际检测时出现了事件序列(1,2,3,d),那么就认为出现异常。如果不区分主体变量,那么事件d就会成为干扰LSTM的噪音。2.3 SiEv-2SiEv-2将以主体变量所涉及的事件频率为数据源。本文将日志事件序列按不同主体变量分类后,尽可能减少每个主体变量的事件序列的复杂程度,使其特征更趋明显。根据本文样例分析,在多数日志中,每个主体通常只会产生少数特定类别的事件序列,并且每个序列都由重复事件或事件片段组成。与SiEv-1根据事件序
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 融合 变量 日志 异常 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。