基于卷积神经网络的大数据去模糊挖掘仿真.pdf
《基于卷积神经网络的大数据去模糊挖掘仿真.pdf》由会员分享,可在线阅读,更多相关《基于卷积神经网络的大数据去模糊挖掘仿真.pdf(5页珍藏版)》请在咨信网上搜索。
1、421文章编号:10 0 6-(2023)06-0421-04第40 卷第6 期2023年6 月真机仿计算基于卷积神经网络的大数据去模糊挖掘仿真苑颖,唐莉君?(1.银川能源学院信息传媒学院,宁夏银川7 50 10 2;2.宁夏大学信息工程学院,宁夏银川7 50 10 5)摘要:由于当下大数据普遍存在着复杂异构和强噪声等问题,而很多挖掘算法又面临着参数亢余或者效率低下等困境,因此提出了基于卷积神经网络的大数据去模糊挖掘算法。首先利用模糊融合得到属性的自关联特征,经过归一化操作后,计算出数据集的聚类模态;考虑穴余数据和噪声数据的影响,引人加权滤波操作,完成对混合数据的模糊分块挖掘。然后基于DCNN
2、的基本结构设计了参量压缩和搜索方向,降低计算资源开销,并通过选边与渐进方式增强前后层间的联系以及稳定性。最后利用Java编写去模糊挖掘算法,部署于Hadoop集群上,通过Versicolor与Setosa两个数据集采取仿真,经过与其它方法的对比分析,验证了所提方法在抗干扰性、执行效率和资源消耗方面均展现出比较明显的性能优势,能够有效适用于复杂属性数据,改善余数据与强噪声的干扰。关键词:卷积神经网络;模糊融合;加权滤波;渐进搜索;数据挖掘中图分类号:TP311文献标识码:BSimulation of Big Data Defuzzification Mining Based onConvolut
3、ional Neural NetworkYUAN Ying,TANG Li-jun2(1.School of Information Media,Yinchuan University of Energy,Yinchuan Ningxia 750102,China;2.School of Information Engineering,Ningxia University,Yinchuan Ningxia 750105,China)ABSTRACT:Due to the widespread problems of complex heterogeneity and strong noise
4、in current big data,andmany mining algorithms facing difficulties such as parameter redundancy or low efficiency,this paper proposes a bigdata deblurring mining algorithm based on convolutional neural networks.Firstly,the autocorrelation feature of attrib-utes was obtained by fuzzy fusion,and the cl
5、ustering mode of data set was calculated after normalization operation;Considering the influence of redundant data and noise data,the weighted filtering operation was introduced to completethe fuzzy block mining of mixed data.Then,based on the basic structure of DCNN,the parameter compression andsea
6、rch direction were designed to reduce the computational resource overhead,The connection and stability betweenthe front and rear layers were enhanced by edge selection and gradual method.Finally,the de fuzzy mining algorithmwas written in Java and deployed on Hadoop cluster.Simulation experiments we
7、re carried out through based on twodata sets of versicolor and setosa.Through the comparative analysis with other methods,it is verified that the proposedmethod shows obvious performance advantages in anti-interference,execution efficiency and resource consumption.Itcan be effectively applied to com
8、plex attribute data and improve the interference between redundant data and strongnoise.KEYWORDS:Convolutional neural network;Fuzzy fusion;Weighted filtering;Progressive search;Data mining基金项目:宁夏回族自治区教育厅2 0 18 年产教融合人才培养示范专业建设项目(2 0 18 SFZY40);银川能源学院2 0 2 0 年校级本科教学工程项目(2 0 2 0 TD-X-02)收稿日期:2 0 2 2-0
9、1-10修回日期:2 0 2 2-0 4-194221引言当前的网络环境中,部署了大量的客户应用和服务器,每天所产生的数据量达到TB以上1。无论是从体量或者增速方面,都在不断增长。于此同时,数据的来源也呈现出多样化,形成了大量多源异构数据。对于金融服务、通讯管理、自动驾驶,以及电子商务等行业2,3,大数据挖掘具有重要的经济和发展利益。但是,由于异构数据和临阶噪声的原因4,使得在处理大数据时需要解决准确性与抗干扰问题。目前针对大数据挖掘已经取得了不少的研究成果,文献5提出了FCM改进算法,改善了增量聚类的收敛性能,该方法的普适性较好,但是对于模糊数据处理的效果并不理想。文献6 针对云平台数据分析
10、了特征状态,并引人BP神经网络对数据做聚类处理。该方法是基于云平台的数据分析,在应用场景和抗干扰方面都有一定的局限性。文献7首先对数据采取特征分析与滤波操作,然后也通过BP神经网络做聚类处理。该方法利用滤波来改善噪声影响,但是对于随机数据的处理精度仍然不够完善。文献8 先获取频繁项及其关联性,在此基础上设计了具有三层结构的模糊DCNN,并通过降维方式进行特征抽取与压缩。该方法在云服务场景下的性能较好,对于其它应用场景的适用性还有待确认。虽然很多学者提出并设计了不同的解决方案,但是面对大数据体量和属性的快速发展,降低当前分类算法的计算代价,依旧是一件巫待解决的事情。本文在引人DCNN后,为了增强
11、其特征搜索性,结合并行思想设计了模糊DCNN算法。利用剪枝降低多余参数的出现,根据共轭梯度法求解训练方向,避免算法重启,并采用选边与渐进方式改善网络各层单元不匹配问题,提高网络训练的稳定性。2大数据去模糊挖掘为了优化大数据的挖掘性能,首先根据相似性计算来得到属性特征。对于任意数据集D,其属性i对应的数据与训练集描述如下(d(i)=XX,e(ni+n)+n(i)(1)(m(i)=XXre(ni+m)+n2(i)X、XH、X 依次表示属性特征向量;QH、O H 依次表示幅度。推导出数据集D的数值属性特征如下JD=MIC E M/JI c(C,D)(2)其中,M表示数据集D经过SVD分解后得到的特征
12、矩阵;J表示判断准则。同理推导出分类属性特征如下:JD=MIC E M/JI c(C,D)1-)(3)对某一分类的数据采取特征分析,通过属性差别确定模糊集如下V(do)=Jf(t)do(t)dt80(4)d。表示基;f(t)表示训练函数。利用模糊融合,就可以得到各个属性的自关联特征。经过归一化操作后,就可以计算出数据集的聚类模态,完成数据分类。由于上述计算过程是基于混合属性分析的,难免会受到余数据和噪声数据的影响,于是,这里引人加权滤波操作,函数描述如下1-jcot80c(t)2元expu)cot$-jcos dt(5)式中,u为分类对应的质心参量;c(t)为对应的属性值;为时间窗口。此外,依
13、据统计原理,可以将模糊分类的匹配公式描述如下m1M=P:(6)i=1其中,m表示数据阶数;l,表示离散区间数;,表示分类的特征因子;P;表示分类的分布密度。利用匹配公式计算各个分类的质心差异程度,进而得到模糊分类:XP;C.=M+2Xp。(7)其中,与z代表模糊分类的融合权重,与z的满足如下条件(+2=1(8)(max(Xp:)-min(Xp:)Xpo假定分类规则:XCV,YCV,同时XnY为非空集合,此时的匹配集合可以描述如下x(t+1)=x(0)+c(aoTopa-x(t)+c,(bcTepg-x(t)(9)其中,ca与c。依次为数值与分类对应的属性值;aoTo与bT。依次为数值与分类对应
14、的特征。经过该公式处理后,便可完成对混合数据的模糊分块挖掘。3改进DCNNDCNN包含若干卷积层和池化层,这样有利于对混合大数据的有效降维9。同时,数据的训练包含正反向传播。其中,正向传播的目的是用来计算各层输入特征,公式描述为y:=f(Zai*xt+f)(10)kEK对于卷积层i,它的输入是x,输出结果是y,偏移量是of;i是层i中卷积核k的权重;*是卷积计算;f()是激活方程。反向传播的目的是通过训练结果对权重进行修正,该过程的目标方程描述如下m0()=min)S(x)+r()(11)S()是损失函数;r()是正则处理。4233.1网络参量压缩当数据量增长时,DCNN的参数会随之急剧增长,
15、从而导致在大数据场景中的应用存在性能瓶颈,于是这里采取预训练方式来减轻后续网络层的参量与计算。采用Softmax替代式(11)内部的S(x),通过Softmax可以描述训练过程中所有样本的损失情况。并基于此,把任意样本损失采取泰勒展开式处理,可以得到=a)f(a)f(a)(x,):+0!1!2!:-a)+h.(x,)(12)!其中,x表示特征i的损失。如果x=0,则根据(x1的清除便能求出x;的泰勒损失。泰勒损失值越小,说明此特征越不重要。对所有特征的损失值采取降序排列,通过剪枝操作去除掉损失值相对小的特征。3.2搜索方向网络对样本进行训练时,其搜索方向采用如下规则-eoi=0(13)-e;+
16、v,d;i#0e;=VO();v;为方向参数。寻优的过程就是找到目标下降的趋势,在大数据分类过程中,采取Hadoop处理,首先利用split将数据集合切分为若干个子块,然后通过map求解所有网络的权重信息。最后根据权重数据确定特征分类。由于式(13)是从共轭梯度推到而来的,在进行最优解计算时,是关键因素,合理的v;有利于提高网络收敛性能。V;的确定采取如下方式eDiff.Vmax(14)Diff-d其中,Dif-=e;-ei-1。同时,为保证目标的下降趋势和减轻计算负担,d,的计算公式设置如下(15)d.利用该公式可以避免算法的重启,进一步增强网络训练速度。3.3选边与渐进搜索在特征搜索完成,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 卷积 神经网络 数据 模糊 挖掘 仿真
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。