基于GHM可视化和深度学习的恶意代码检测与分类.pdf
《基于GHM可视化和深度学习的恶意代码检测与分类.pdf》由会员分享,可在线阅读,更多相关《基于GHM可视化和深度学习的恶意代码检测与分类.pdf(7页珍藏版)》请在咨信网上搜索。
1、信息安全研究第10 卷第3期2 0 2 4年3月Journalot information Security ResearchVol.10No.3Mar.2024DOl:10.12379/j.issn.2096-1057.2024.03.04基于GHM可视化和深度学习的恶意代码检测与分类张淑慧12.胡长栋 王连海.2 41(齐鲁工业大学(山东省科学院)山东省计算中心(国家超级计算济南中心)2(算力互联网与信息安全教育部重点实验室(齐鲁工业大学(山东省科学院)3(山东省计算机网络重点实验室(山东省计算中心(国家超级计算济南中心)4(山东省基础科学研究中心(计算机科学)齐鲁工业大学(山东省科学院)
2、)济南(zhangshhsdas.org)Malware Detection and Classification Based on GHM Visualizationand Deep LearningZhang Shuhuil-23.4,Hu Changdong,Wang Lianhai-23,Xu Shujiangl-234,Shao Wei-3,and Lan Tian1(Qilu University of Technology(Shandong Academy of Sciences)Shandong Computing Center(National SupercomputingJ
3、inan Center),Jinan 250014)2(Key Laboratory of Com puting Power Network and Information Security,Ministry of Education(Qilu University ofTechnology(Shandong Academy of Sciences),Jinan 250014)3(Shandong Provincial Key Laboratory of Computer Netorks(Shandong Computing Center(National SupercomputingJina
4、nCenter),Jin a n 2 50 0 14)4(Shandong Fundamental Research Center for Com puter Science(Qilu University of Technology(Shandong Academyof Sciences),Jinan 250014)Abstract Malware detection is becoming more and more challenging due to the increasingcomplexity and variability of malicious code.Most muta
5、ted or unknown malicious programs areformed by improving or obfuscating the logic of existing malicious codes,so it is becoming moreand more important to discover malicious code families and determine their malicious behaviors.Inthis paper,we proposed a novel malware visualization method based on GH
6、M(Gray,HOG,Markov)for data preprocessing.Unlike the traditional visualization methods,this method extractsmore effective data features through HOG and Markov in the visualization process,and constructsa three-channel color image.In addition,a VLMal classification model based on CNN and LSTM isconstr
7、ucted to realize the malware detection and classification of visual images.Experimentalresults show that this method can effectively detect and classify malicious code with good accuracyand stability.Key words malware detection;deep learning;malware classification;memory forensics;visualization收稿日期:
8、2 0 2 3-0 6-10基金项目:国家自然科学基金项目(6 2 10 2 2 0 9);山东省自然科学基金重点项目(ZR2020KF035);泰山学者工程资助项目(tsqn202312231)通信作者:胡长栋(10 4312 10 6 49 )引用格式:张淑慧,胡长栋,王连海,等。基于GHM可视化和深度学习的恶意代码检测与分类 J.信息安全研究,2 0 2 4,10(3):2 16-2 2 22161徐淑 12.4兰田1济南250014)济南250014)济南250014)250014)学术论文.ResearchPapers摘要恶意代码的复杂性和变异性在不断增加,致使恶意软件的检测变得越来
9、越具有挑战性,大多数变异或未知的恶意程序是在现有恶意代码的逻辑基础上进行改进或混淆形成的,因此发现恶意代码家族并确定其恶意行为变得越来越重要.提出了一种基于GHM(Gray,HOG,Markov)的新型恶意软件可视化方法进行数据预处理.与传统的可视化方法不同,该方法在可视化过程中通过HOG和马尔科夫提取出更加有效的数据特征,并构建了3通道彩色图像.此外,构建了基于CNN和LSTM的VLMal分类模型,对可视化图像进行恶意软件检测分类.实验结果表明,该方法可以有效地检测和分类恶意代码,具有较好的准确性和稳定性.关键词恶意软件检测;深度学习;恶意软件分类;内存取证;可视化中图法分类号TP393.0
10、8随着互联网的广泛应用,恶意代码的数量和种类增长迅速1I,AV-TEST研究所每天捕获到超过45万个新的恶意程序样本和潜在的未知应用程序 2 .恶意代码指的是在受害者的计算机或网络上执行未经授权和有害操作的软件,包括病毒、蠕虫、木马和僵尸程序,导致数据泄露、系统破坏和网络瘫痪 3.研究者们对恶意代码检测技术展开了研究,包括基于签名的检测、基于行为的检测和基于机器学习的检测方法.近年来,基于图像处理的检测方法 4用于可视化和恶意软件分类已经变得越来越受欢迎.由于缺乏有效的预处理,其检测精度和稳定性并不高.本文构建了一种VLMal神经网络模型,以训练和分类预处理的数据.大多数PE文件都是加密和混淆
11、的.然而,运行在内存中的PE文件是已解密和解包的原始数据.为了评估模型的有效性,本文收集了PE文件样本并在沙盒环境中执行PE文件.然后,使用内存取证技术从内存中提取出PE文件,构建小型内存PE文件数据集.本文的主要工作和贡献如下:1)提出了基于GHM(Gray,HOG,Markov)的PE二进制文件可视化方法,利用图像转换、增强和马尔科夫矩阵等多种技术生成3个灰度图像,并将这些图像构建3通道的彩色图像,保留了PE文件更加详细的数据特征.2)构建了基于 CNN(卷积神经网络)和 LSTM(长短期记忆模型)的VLMal分类模型,实现对可视化的图像进行恶意软件检测分类.3)构建了1个小型样本的内存P
12、E文件数据集,以评估本文提出方法的检测效果,弥补了目前没有公开内存PE文件数据集的不足.1相关工作在计算机安全领域,恶意软件的检测和分类变得越来越重要.为了解决这一问题,研究者们提出静态分析、动态分析和内存取证分析等多种分析技术.1.1青静态分析Schultz等人 51 提出一种用于识别恶意代码的初始数据挖掘方法,利用恶意软件二进制文件的字符串序列、字节序列和PE文件头部3个不同的静态特征进行识别.Iwamoto 等人 6 使用n-gram技术从Windows二进制文件中提取字节,并使用1对多的分类方法训练了多个分类器.Zhang等人 7 提出一种基于操作码序列的勒索软件分类方法,该方法将勒索
13、软件样本的操作码序列转换为n-gram序列,然后使用n-gram 特征的词频值构建特征向量,采用5种机器学习方法对勒索软件进行分类.Soni等人 8 提出一种利用API调用和操作码序列信息进行恶意软件分类的方法,该方法首先提取这些特征,然后使用朴素贝叶斯(NB)、逻辑回归、随机森林(RF)和支持向量机(SVM)4种机器学习算法对恶意软件进行分类,1.2动态分析静态分析侧重于在不执行程序代码的情况下分析程序代码,而动态分析是运行软件并在其执行过程中监视其行为.Anderson 等人 91 提出一种基于动态指令跟踪图的恶意软件检测算法.该方法从收集的数据中构建了马尔科夫图,使用SVM(支持向量机)
14、进行分类.Nair等人 10 提出一种基于API调用的动态分析方法检测恶意软件,对所网址http:/1217信息安全研究第10 卷第3期2 0 2 4年3月Journalotinformatien Security ResearchVol.10No.3Mar.2024有恶意软件家族生成签名,并发现同一家族的大多数变异病毒共享相同的基本特征.Bayer 等人 1提出一种可扩展的聚类方法,用于基于相似行为识别和分组的恶意软件聚类.1.3内存取证分析恶意软件内存取证是一种分析计算机内存中的恶意软件行为的技术.Bozkir等人 12 利用内存数据通过计算机视觉和机器学习技术对恶意软件进行分类.Otsu
15、ki等人 13 提出从6 4位Windows系统内存镜像中提取堆栈痕迹的方法.Uroz等人 14提出从注册表 ASEP(auto-start extensibility point)中寻找未知和罕见程序的方法.针对通过内存转储获取的Windows进程和系统库文件,Martin-Prez等人 151提出以文件对象为导向和线性搜索的方法,清除重定位,实现转储文件的相似性计算。相较于之前的恶意软件分类研究,本文构建了1个3通道彩色图像.在构建彩色图像时,本文根据数据集中的稀疏性对每个通道的图像生成算法进行了改进。2方案设计本节将详细解释本文方案整体工作流程(如图1所示)。01230303430204
16、220463330302031302044204520384236380D4230203820422030363430313545203120342030302038423536203420382.1数据集x本文使用Kaggle公共恶意软件检测数据集 16 作为第1个数据集.此外,收集了最新的恶意的和常用的良性PE文件,在沙箱中运行,并在内存中提取PE文件,确保了PE文件是真实的、未加密的数据,并将收集到的样本构建了小样本数据集作为本文的第2 个数据集。2.1.1数据集AKaggle发布的微软恶意软件分类挑战数据集包含10 8 6 8 条带标签的训练数据和未标记的测试数据,分为9 类.本文提出
17、的检测方法是一种监督学习方法,因此只使用微软恶意软件分类挑战数据集的训练集作为本文的数据集.以8:2 的比例将其划分为新的训练集和测试集.2.1.2数据集B本文从VirusShare收集样本作为恶意样本,并将Windows系统中常用软件作为良性样本.通过使用VirusTotal平台检测收集的样本,发现每2181训练集口卷积层+ReLU门池化层224224641121221282242243图1本文方案整体工作流程个反病毒平台给出的标签不一致,因此本文将收集到的样本分为良性和恶意2 个类别.之前的研究已经通过在沙箱中运行并以其他格式发布了预处理样本.文献 17 给出了1个API数据集,在杜鹃沙盒
18、中执行PE文件,生成报告,提取API调用.然而,没有在相关文献中找到提供原始内存PE文件的数据集,只有将内存PE文件转换为API或图像格式的数据集.因此,本文在沙盒中运行收集到的静态样本,并每隔10 min转储1次内存镜像,重复该过程10 次,尽可能多地捕获恶意行为.本文使用volatility18和团队开发的内存取证工具 191分析这些转储的内存镜像,从而提取exe和dll文件.2.2GHM可视化2.2.1灰度图转化为了可视化PE文件,需要将它们转换为向量矩阵从而可视化为灰度图.然而,由于每个PE文件的数据大小差异较大,将它们转换成具有相同宽度的2 维矩阵会导致较小的文件在放大时其结构测试集
19、口FlattenLSTMLinear+dropout565625614145127751225088口输出层学术论文.ResearchPapers(BFTi,如果 S:+0.遭受损失.因此,在将其转换为2 维向量矩阵时根据文件的大小确定矩阵向量的宽度,如表1所示:表1图像宽度设定表文件大小/B图像宽度/px文件大小/B图像宽度/px3264326412864.128256128256384256数据集中每个样本的大小不均匀,由于训练神经网络需要创建大小一致的灰度图像,本文将不同大小的灰度图像调整为2 2 42 2 4px.2.2.2HOG图像为了增强灰度图像的对比度,采用方向梯度直方图(HOG
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 GHM 可视化 深度 学习 恶意代码 检测 分类
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。