基于改进型深度学习算法的计算机数据分析.pdf
《基于改进型深度学习算法的计算机数据分析.pdf》由会员分享,可在线阅读,更多相关《基于改进型深度学习算法的计算机数据分析.pdf(5页珍藏版)》请在咨信网上搜索。
1、Microcomputer Applications Vol.39,No.9,2023文章编号:10 0 7-7 57 X(2 0 2 3)0 9-0 0 9 4-0 5研究与设计基于改进型深度学习算法的计算机数据分析微型电脑应用2 0 2 3年第39 卷第9 期边陆,林少波,郭栋,代素敏,韩飞飞,程鹏(北京中电飞华通信有限公司,北京10 0 7 0 0)摘要:为了实现企业生产运营中大量数据的处理和分析,提出使用分布式文件系统和数据库完成大量数据的存储任务,根据用户需求使用批处理和流处理框架进行数据分析。在数据降维中采用非负矩阵分解的方法,将原始业务数据集映射到低维空间,并引入局部正则化保留数
2、据的部分高维特征。基于深度学习算法建立关系抽取模型,采用BERT模型完成文本信息的实体抽取,编码器中加入前向反馈机制和多头注意力机制。实验表明,系统的分类精度最高达到0.97,算法模型提取出的正确样本条数最多可达到47 个。关键词:数据分析;深度学习模型;流处理框架;数据降维;关系抽取模型中图分类号:TP37文献标志码:AComputer Data Analysis Based on Improved Deep Learning AlgorithmBIAN Lu,LIN Shaobo,GUO Dong,DAI Sumin,HAN Feifei,CHENG Peng(Beijing Zhongd
3、ian Feihua Communication Co.,Ltd.,Beijing 100700,China)Abstract:In order to process and analyze large amounts of data in the production and operation of enterprises,the distributedfile systems and databases are used to complete large amounts of data storage tasks,and batch processing and stream proc
4、essingframeworks are used for data analysis according to user needs.In the data dimensionality reduction,the method of non-negativematrix decomposition is used to map the original business data set to a low-dimensional space,and local regularization is intro-duced to retain some of the high-dimensio
5、nal features of the data.A relationship extraction model is established based on thedeep learning algorithm,the BERT model is used to complete the entity extraction of the text information,and the forwardfeedback mechanism and the multi-head attention mechanism are added to the encoder.Experiments s
6、how that the classificationaccuracy can reach up to 0.97,and the number of correct samples extracted by the algorithm model can reach up to 47.Key words:data analysis;deep learning model;flow processing framework;data dimension reduction;relational extractionmodel0引言“工业4.0 利用最新的信息技术促进了企业的协同发展,使企业内部的
7、各个系统信息互联,推动了企业的横向集成和纵向集成1-2 。在数据处理分析研究中:文献3 针对工业生产过程中出现的多源异构问题,提出了基于XML文档技术的异构数据转换集成方法,将异构数据转换为文档实现数据源的有效集成;文献4 利用Hadoop大数据框架建立了数据分析的分布式平台,实现了企业业务信息的互通互联和资源共享;文献5 应用了Spark大数据处理技术,优化了数据查询速率,通过并行化计算完成图像数据的快速检索;文献6 提出了一种端到端的实体关系抽取模型,使用词序关系和语法树结构完成信息抽取,加快了数据处理过程中信息作者简介:边陆(197 6 一),男,硕士,工程师,研究方向为软件工程;林少波
8、(198 6 一),男,本科,工程师,研究方向为电子信息工程;郭栋(198 3一),男,硕士,工程师,研究方向为计算机科学与技术;代素敏(198 9一),女,硕士,工程师,研究方向为计算机技术;韩飞飞(198 9一),女,硕士,工程师,研究方向为计算机应用技术;程鹏(198 6 一),男,硕士,研究方向为产品管理与产品设计。94抽取的效率。当前研究中,对于有高噪声、强余的高维数据的处理效果较差,在数据分析和组织过程中计算量过大且复杂程度较高,在有效分离数据类别的同时,无法保证相同特性的数据聚集。1数据分析算法1.1高维数据降维方法本研究基于非负矩阵分解的方法进行数据降维,将企业业务数据的各部分
9、累加构成全局数据,并在特征提取过程中保证所有数据为非负值,直接利用数据关系进行矩阵分解。根据系统中业务数据的局部与整体之间的关系建立矩阵分解模型,实现企业高维数据的非线性维数约减7。给定非负矩阵X=1,2,,JER ,为2 个非负矩阵的积8 ,可Microcomputer Applications Vol.39,No.9,2023表示为X=UXV,UE RX,VE RX式中,U、V 表示两个系统中业务数据的非负矩阵,n表示样本数量,d表示特征数量。将业务数据集分解为U、V 两个矩阵,U=u i,u z,,un表示权重向量矩阵,V=i,U 2,,U,表示基向量矩阵。基向量矩阵V为一个r维的向量空
10、间R,R 中的点可表示为原始数据集中的向量,经过矩阵分解后忽略了数据的高维几何结构。为了保留业务数据的部分高维特征,在矩阵分解中引入局部正则化,根据目标函数提出相应的优化方案。局部约束非负矩阵算法的降维流程如图1所示。开始原始业务数据集立计算映射矩阵立初始化矩阵U、到达最大选代次数?更新矩阵V更新矩阵图1局部约束非负矩阵算法的降维流程本研究对降维过程中算法的稀疏度进行了控制,算法的稀疏度可表示为/n-(ZI:1)/VZaisp():Vn-1式中,n表示数据集中向量的维度,表示业务数据集中的样本。通过调整正则化参数使矩阵分解模型更加稳定,避免出现过拟合的情况,模型的损失函数可表示为(3)式中,Y
11、表示模型输出的数据,X表示输入的原始数据,表示模型系数,表示常数参数9。对于企业信息系统中n个d维的样本X=i,2,,n,在高维空间的损失函数为9,通过求解模型的权重系统,将数据集从高维映射到低维后重构系数不变,低维空间中 n个r 维样本V=ui,U 2,,的损失函数10 可表示为IV,-VW,I =tr(V(I-W)(I-W)TVT)=tr(VGVT)i=1(4)式中,W表示重构系数,I表示单位矩阵,G表示映射关系。在矩阵分解过程中需要保持稳定的同时控制稀疏性,在低维空间中保留原始数据高维的结构,得到的目标函数可表示为minlX-UVI/+tr(VGVT)+入2 IUll2+(/V)(5)式
12、中,入1、入2、入3表示平滑系数,0 表示模型参数。通过调节不研究与设计同项的比重控制降维后基矩阵的稳定性,通过局部线性化正(1)则保留信息系统中高维数据集的数据内部几何结构,控制权重矩阵保证低维数据特征的稳定性。1.2基于改进型深度学习的关系抽取企业系统中智能搜索、自动问答和信息推荐等应用需要从文本数据中提取多个实体之间的关系,形成相关的知识图谱,在深度学习中构建复杂的知识库。本研究基于预训练模型建立关系抽取模型,在解决关系分类任务时定义了编码器模型。系统数据库中,=o,i,a n 表示词语序列,o=CLS为特殊的开始标记,=SEP 为结束标记。数据序列中,si=(i,j)、S2=(k,l)
13、为一对整数,关系语句用三元组r=(,1,s 2)表示,Si、S2 表示实体区间,关系语句中的第一重构线性结构个实体用i,j-表示,第二个实体用,ai-表立示。通过关系表示函数映射到向量hr,向量h,为s1、S2 之间映射到低维空间的词语序列关系。本研究关系表示模型的结构如图2 所示。输出特征矩阵V重构系数是是发生变化?香输出特征矩阵V分类验证结束微型电脑应用2 0 2 3年第39 卷第9 期相似度线性和归一化层线性和归一化层残差和归一化残差和归一化前向反馈前向反馈残差和归一化残差和归一化多头注意力机制多头注意力机制二(2)位置嵌入输入向量图2 关系表示模型结构模型输人的关系语句词语序列为=ao
14、,Elstanai,aj-Elend,E2startck,a-E2end其中,E1start、El e n d 、E2 s t a r 、E2 e n a 为4个标记,用来扩展关系语句。第一个实体区间表示更新为3,=(i十1,j十1),第二个实体区间表示更新为32=(k十3,l十3)。从编码器中提取固定长度作为关系表示的方法,采用2 个实体的开始标记对应的隐藏层输出进行拼接。在关系抽取任务中的有监督关系抽取中,给定有关系描述r和预测关系的类型t,固定的关系类型字典设为T,当t=0时表示关系语句汇总的实体之间的缺乏关系。在有监督任务中设定一个新的分类层,可表示为WERk*H其中,k表示业务数据关
15、系类型的数量,H表示关系标识的大小。在关系抽取任务中对于关系描述r对应的词序列,经过编码器训练后得到隐藏层输出向量,再经过线性归一化后得到固定长度的向量hr。通过预先学习得到关系类别表示,95输入向量(6)(7)Microcomputer Applications Vol.39,No.9,2023关系语句表示和关系类别为Softmax得到的关系分类。在FS关系抽取中,利用查询关系语句对数据序列中的一组候选关系语句进行排序和匹配,在数据集汇中给定K组有N个被标记的关系语句S=(r o,t o),(r,t),其中t;E(1,,K)。对于少样本任务关系,对待查询的关系语句的数据序列,经过transf
16、ormer编码器训练得到固定长度的向量hr。对于候选关系语句可以进行相同的操作,得到关系表示向量,并将待查询语句和候选语句作为向量点积,Softmax查询语句和候选关系语句作为向量点积的相似度进行关系分类。2数据分析系统数据分析是体现企业各类业务数据价值的过程,对于不同来源和不同结构的数据,数据分析方法可分为结构化数据分析、文档数据分析、多媒体数据分析、Web数据分析等,最大限度地发挥数据价值。系统能够选择特定的数据源对数据维度进行加工处理,根据用户需求选择数据字段、数据量限制、排列方式等,根据数据属性创建数据集,通过属性编辑控制模块显示内容。数据分析系统架构如图3所示。研究与设计据进行降维处
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进型 深度 学习 算法 计算机 数据 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。