基于改进随机森林的海量结构化数据异常辨识算法.pdf
《基于改进随机森林的海量结构化数据异常辨识算法.pdf》由会员分享,可在线阅读,更多相关《基于改进随机森林的海量结构化数据异常辨识算法.pdf(4页珍藏版)》请在咨信网上搜索。
1、Microcomputer Applications Vol.39,No.11,2023文章编号:10 0 7-7 57 X(2 0 2 3)11-0 156-0 4基于改进随机森林的海量结构化数据异常辨识算法宋冀峰(中国政法大学,刑事司法学院,北京10 0 0 8 8)摘要:结构化数据同时具备现海量与复杂的特征,导致其异常辨识难度上升,为此提出基于改进随机森林的海量结构化数据异常辨识算法。凭借互补集合经验模态分解,获得海量结构化数据的本征模态函数,去除噪声点。随机选择特征子集分裂决策树节点,采用AdaBoost算法对随机森林进行加权,完成随机森林改进。将改进随机森林的扩展空间范围定义为异常值
2、范围,结合局部敏感哈希算法度量去除噪声点后的数据异常度,实现海量结构化数据异常辨识。通过实验表明,所提算法的海量结构化数据异常辨识精准度最高达到了9 5.8%,结构化数据量为40 0 G时的辨识耗时为2.52 min,说明该算法的海量结构化数据异常辨识精准率高、耗时短,具有较高的应用价值。关键词:改进随机森林;结构化数据;数据异常辨识;本征模态函数;局部敏感哈希算法中图分类号:TP124Anomaly Identification Algorithm of Massive Structured Data(Criminal Justice College,China University of
3、Political Science and Law,Beijing 100088,China)Abstract:Structured data has both quantitative and complex characteristics,which makes it more difficult to identify massivestructured data anomalies.Therefore,an anomaly identification algorithm of massive structured data based on improved randomforest
4、 is proposed.By means of empirical mode decomposition of complementary sets,the intrinsic mode functions of massivestructured data can be obtained and noise points can be removed.The decision tree node is split by randomly selecting featuresubset,and the random forest is weighted by AdaBoost algorit
5、hm to complete the improvement of random forest.The extendedspatial range of the improved random forest is defined as the range of outlier,and the local sensitive hash algorithm is used tomeasure the degree of data anomalies after removing noise points,so as to realize anomaly identification of mass
6、ive structureddata.Through experiments,it has been shown that the proposed algorithm achieves a maximum accuracy of 95.8%for anoma-ly identification of massive structured data.When the structured data volume is 400 G,the identification time is 2.52 minutes,indicating that the algorithm has high accu
7、racy and short time for anomaly identification of massive structured data,and hashigh application value.Key words:improved random forest;structured data;data anomaly identification;eigenmode function;locally sensitiveHash algorithm特征较为显著的随机分量,求解了随机分量中的异常数,但0引言在实际应用中,这一算法仅适合于单个异常点检测,对于连随着社会信息化水平的不断提升
8、,网络中的结构化数据续范围的异常点检测的效果差;殷浩然等3提出一种基于三呈现爆发式增长。而面对如此海量的结构化数据,确定其中维卷积神经网络的数据异常辨识算法,提取数据矩阵中的异的异常数据能够充分满足高速存储应用、数据备份、数据共常特征,利用三维卷积神经网完成辨识任务。但该算法的运享以及数据容灾需求。但是由于结构化数据具有较高的复行过程较为复杂,导致耗时增加。杂性,导致异常点识别精准率低与辨识耗时长的问题出为此,综合上述问题,提出基于改进随机森林的海量结现,因此寻找一种面向海量结构数据异常点辨识的方法是构化数据异常辨识算法。随机森林作为一种深度学习算法,很有必要的。在数据异常点分类问题中的应用较
9、为广泛,使用随机选择特为此相关研究人员陆续提出各种结构化数据辨识算法。征子集增加结构化数据中决策树的随机性,从而缩小异常检文旭等2 针对数据辨识精度差问题,提出一种基于因子分析测的范围;通过局部敏感哈希算法对结构数据异常点度量,的数据异常辨识算法。通过分解大数据负荷曲线,获得波动引人相关的向量空间,最终完成对数据异常辨识。作者简介:宋冀峰(198 5一),男,博士生,研究方向为监察法学、数据挖掘。156.研究与设计文献标志码:ABased on Improved Random Forest微型电脑应用2 0 2 3年第39 卷第11期SONG JifengMicrocomputer Appli
10、cations Vol.39,No.11,20231海量结构化数据去噪处理由于原始结构化数据中存在大量环境噪声分量,这些均是大量不可用的数据,即噪声点,需要对数据中的噪声点进行去除。通过互补集合经验模态分解4方法,得到结构数据的本征模态函数,对本征模态函数分量进行重构,获得增强后的数据,实现数据去噪处理。互补集合经验模态分解方法5主要依赖于经验模态分解方法,假设初始结构化数据信号为Z(t),在信号引人正值的随机白噪声6 u(t)与负值的随机白噪声一u;(t),此时的结构化数据信号表达式如下:Z.(t)=Z(t)+sou(t),i=1,2,n式(1)中,u(t)代表第i轮引人的白噪声数值,s代表
11、信号噪声幅值。对信号进行经验模态分解,获得相对应的模态数值IMFi(t)与残差数值r;(t),经验模态分解7 表达式如下:X,(t)=ZIMFi(t)+r;(t)一k式(2)中,k代表最大相关熵。将正数值的随机白噪声的轮数进行到2 M轮次数时,结合文献8 的研究成果对于经验模态分解互补集合进行推理,其具体的表达式如下:IMF(0)=)2Mi=1将经验模态分解集合结果与残差数值进行组合重构,获得去噪的结构化数据:X,(0)=2IMF()+r:(t)k=12基于改进随机森林的异常数据范围确定随机森林9 是当前最广泛的分类器之一,通过随机选择特征子集来分裂决策树的节点,提高决策树的随机性,以此实现随
12、机森林改进,进而提高结构化数据异常范围的确定精准度。假设代表去噪后数据X,(t)的特征向量,yi代表X,(t)的特征类别,随机森林的通过平均决策树的输出公式10 如下:F()=式(5)中,T代表超参数,f()代表无剪枝的决策树,抽样数据集的预测公式为Zfi()I(E X,(t)D()=I(E X,(t)式(6)中,I代表指示函数。AdaBoost算法有着非常优秀的泛化能力,该方法通过不断更新样本的权重,使决策树将精力都使用在之前的分类样本上,进而提高泛化能力,Ada-Boost算法对随机森林进行T轮加权的具体公式如下:U(a)=2if(a)k=1式(7)中,i代表每轮权重系数。经过i一1轮迭代
13、随机森林模型表达式如下:研究与设计F-i()=1 fi()Ui()+.+U-i()i-ifi-i()(8)结合上述分析,搭建泛化风险函数,具体表达式如下:R(h)Rs(h)+(9)m/d式(9)中,S代表结构化数据训练集异常风险概率,R(h)代表泛化风险,Rs(h)代表经验风险,d代表模型维度,m代表样本数量,e代表泛化误差,代表任意一个常数。结合上述分析,确定异常范围,具体公式如下:q=R(h)/sum(F.():=13结构化数据异常辨识方法设计(1)通过局部敏感哈希算法,在数据异常范围内训练数据,将牵引数据集按照不同类别进行分类,设定异常缩小范围后的数据Q,建立相应的哈希表。其在高斯分布中
14、分布均匀,N形成高斯矩阵A,通过结构化数据在高维空间中分布稀疏的(2)情况,获得结构化数据的中空间几何坐标位置,假设结构化数据的异常特征向量用(Wal,W2,i)表示,j代表结构化数据异常簇个数,w代表第个异常簇在结构数据库中的比重,向量空间模型中结构化数据异常簇之间的相似2IMFi.(0)+IMF2.()度11表达式:(3)Sim(Q)=(4)式(11)中,w;代表结构化数据异常簇频率12。通过概率设定阈值,完成异常数据的判断。4实验检测与分析为了验证提出的基于改进随机森林的海量结构化数据异常辨识算法有效性,选择因子分析异常辨识算法与三维卷积神经网络算法进行对比实验。实验的基础使用Windo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 随机 森林 海量 结构 数据 异常 辨识 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。