基于深度学习的交通运输行业数据自动分级方法研究.pdf
《基于深度学习的交通运输行业数据自动分级方法研究.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的交通运输行业数据自动分级方法研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、DOI:10.11991/yykj.202305020网络出版地址:https:/ F1 值分别达到了 70.48%和 70.16%,明显高于现有的几种主流模型,可以有效提高数据分级的效率。关键词:交通运输行业;数据共享;数据安全;数据分级;深度学习;卷积神经网络;双向门控循环单元;胶囊网络中图分类号:TP399文献标志码:A文章编号:1009671X(2024)02014506Research on automatic classification method of transportation industrydata based on deep learningWANGJiye1,ZH
2、ANGShaobo2,YERunze3,ZHANGShaoyang21.ShaanxiProvincialTransportationOperationMonitoringCenter,Xian710075,China2.SchoolofInformationEngineering,ChanganUniversity,Xian710064,China3.OrganizationDepartmentofTheCPCXidianUniversityCommittee,XidianUniversity,Xian710071,ChinaAbstract:Topromotetheinterconnect
3、ionofinformationsystemsinthetransportationindustry,ensuredatasecurity,andfurtherpromotehealthydevelopmentoftheindustry,thispaperstudiesdatasharingandautomaticclassificationmethods in the transportation industry.Based on the data classification method of convolutional neural network-bidirectionalgati
4、ngrecurrentunit-capsulenetwork(CNN-BiGRU-CapsNet)model,thispaperdesignsandimplementstheautomaticdataclassificationmoduleinthetransportationinformationresourcedirectorysystem,andcompletestheautomaticclassificationofdataintheindustryfield.TheexperimentalresultsshowthattheaccuracyandF1scoreofthepropose
5、dalgorithmhavereached70.48%and70.16%respectively,whicharesignificantlyhigherthanseveralexistingmainstreammodelsandcaneffectivelyimprovetheefficiencyofdataclassification.Keywords:transportationindustry;datasharing;datasecurity;dataclassification;deeplearning;convolutionalneuralnetwork;bidirectionalga
6、tingrecurrentunit;capsulenetwork数据分级是指按照数据对国家安全、公共利益或者个人、组织合法权益的影响和重要程度,对数据进行级别的判定,不同的数据级别采用不同的保护和共享方式。有效的数据共享和分级机制是进行信息系统互联、保障数据安全的前提。数据分级应遵循合法、可执行、客观性、时效性和从高从严 5 个原则。2021 年 9 月开始施行的中华人民共和国数据安全法第三章首条中明确提出要建立数据分类分级保护制度。近年来国家各级部门出台的政策和标准中13,对数据分级提出了诸多要求,主要是考虑数据安全和法律法规及管理要求。很多地方政府和行业管理部门也出台了自己的数据分类分级政
7、策。文献 4 以文本数据分类为例,对数据分类算法进行了全面的梳理和总结,并指出了目前数据分类算法中存在的问题和挑战,为未来的研究提收稿日期:20230525.网络出版日期:20231220.基金项目:陕西省交通运输厅科技项目(20-15X).作者简介:王继晔,男,高级工程师.张少博,男,讲师,博士.通信作者:张少博,E-mail:.第51卷第2期应用科技Vol.51No.22024年3月AppliedScienceandTechnologyMar.2024供了思路和方向。常见的数据分类方法有朴素贝叶斯、adaboost 和 K 最邻近(Knearestneighbors,KNN)等。近年来随着
8、深度学习研究和应用的快速发展,提出了一些基于深度学习的数据分类模型和方法。为了更好地对公安数据资源中的数据进行分级分类,文献 5 提出了一种基于数据表、数据字段和数据记录这 3 个维度的访问控制模型。基于甚深卷积网络(verydeepconvolutionalnetworks,VDCNN)和双向门控循环单元(bidirectionalgatingrecurrentunit,BiGRU)混合模型的文本分类算法,可以一定程度上提高文本分类的准确率6。一种基于循环神经网络(recurrentneuralnetwork,RNN)的多任务学习模型7利用相邻语句间的相关性分析来提高分类的性能。文献 8 利
9、用各省、市、自治区科技厅、局的公开数据,使用结合Word2Vec 和潜在狄利克雷分配(LatentDirichletAllocation,LDA)的 LDA2Vec 方法对文本进行关键词提取和主题分类。文献 9 结合了拼音字符、汉字字符、词性语义等特征,使用 BiGRU-卷积神经网络(convolutionalneuralnetworks,CNN)进行了多特征融合的中文文本分类,通过 2 个数据集的实验验证,其准确率有一定提升。为了改善不平衡数据分类过程中易产生过拟合的问题,文献 10 设计和实现了一种基于改进的变分自编码器结合数据预处理方法,实验结果表明算法在保证准确率的同时能够提高 F 值
10、(F-measure)和几何平均数(G-mean)。文献 11 提出一种基于小波极值学习机和深度学习的联合分类器,该分类器能够利用两者优点来提高数据分类的准确性和效率。交通运输行业是重要的支撑行业,其产生的数据具有体量大、更新快等特点,还包含个人隐私和有关国家安全的数据。交通运输行业数据分级是指依据行业相关政策法规对交通运输数据进行级别判定,主要判断数据泄漏对个人、行业和社会可能造成的危害程度。交通数据分级分类方法需要结合交通政务实际的数据业务特点,统筹考虑法律法规要求、数据共享应用需求与数据安全需求。而当前交通运输行业缺乏完善的数据分类分级政策法规,已颁布的相关指导性文件例如信息资源分类标准
11、,就会欠缺可供执行的理论和方法。另外,交通运输行业中很多数据具有流转快、更新频率高、涉及多个部门等特点,数据生命周期中的分级管控策略也非常重要。而当前交通运输数据分级安全管控措施也不够完善,绝大多数数据分级的任务仍是由人手动完成,导致成本高、效率低、分级结果主观性强,且非常依赖工作人员的素质。本文以现有国家、地方和行业政策法规为参考依据,以交通运输行业权威开放平台信息和政府部门信息资源目录为研究基础,提出了一种基于CNN-BiGRU-胶囊网络(capsulenetwork,CapsNet)模型的数据类别判定方法,设计并实现了交通运输信息资源目录系统中数据的自动分级模块,并在前期工作的基础上,完
12、成了行业领域下的数据自动分级,以克服上述人工分级带来的不足。1交通运输行业数据分级交通运输行业对数据分级的要求迫切。交通运输部科学研究院制定了交通运输政务数据共享管理办法等政策文件,各省交通运行监测中心也已经完成了交通运输政务信息资源目录的编制工作。为了指导公路水路交通运输处理活动中非涉密数据的分类分级工作,2022 年 9 月,交通运输部印发了公路水路交通运输数据分类分级指南(交办科技202244 号),将公路水路交通运输数据分为一般数据、重要数据和核心数据。本文据此 3 个级别对数据进行分级,并将它们依次分别对应我国等级保护法中规定的数据资源级别:1 级数据(主动公开),23 级数据(不主
13、动公开)和 4 级数据(不主动公开),以此涵盖全部类型。本课题组前期通过人工和 Scrapy 爬虫框架收集了我国交通运输行业信息资源目录和网站公开信息作为初始语料,在使用爬虫进行内容抓取的网站使用条款和隐私政策中,均未发现有禁止使用网络爬虫抓取其内容的声明。根据交通运输行业政策法规和文本特点制定了标注规则,并以BIOES 格式进行了人工标注,获得了行业主动公开实体和不主动公开实体的语料集。针对大规模数据需要自动标注的情况,并结合基于 Transformer的 双 向 编 码(bi-directionalencoderrepresentationsfromtransformers,BERT)、双
14、向长短期记忆网络(bi-directionallongshort-termmemory,BiLSTM)和条件随机场(conditionalrandomfield,CRF)模型,对 2 个语料集中的文本内容进行了实体识别和序列标注。基于上述前期工作,为了对不主动公开的数据类型进行细分,本文基于 CNN-BiGRU-CapsNet 算法,将不主动公开实体根据文本特点分为“重要数据”和“核心数据”2 种级别,从而完成交通运输行业的数据的自动分级。146应用科技第51卷2交通运输数据自动分级算法交通运输行业数据自动分级需要综合考虑政策法规和交通行业面对的挑战和问题。从政策法规的角度,需要基于法律法规以
15、及行业中的相关的政策和条文;从交通运输行业角度,为了最大程度体现交通运输行业数据自动分级的权威性和可推广性,不采用现网络上较流行的中文文本数据集,规避了其规模大但是针对性不强的缺点,通过网络爬虫技术对政府官方网站的法律法规以及主动公开内容进行数据抓取,结合交通运输行业政府信息资源目录的内容,形成了具有行业政策特色的标注规范,构建了适用于数据分级的语料库。2.1算法框架图 1 为本文采用的 CNN-BiGRU-CapsNet 模型结 构,模 型 由 嵌 入 层、CNN 层、BiGRU 层 和CapsNet 层 4 部分组成。嵌入层使用了 Word2Vec模型对不主动公开语料库中的所有实体短语进行
16、了词向量的训练及表示;CNN 层采用了多层卷积神经网络,通过输入层、卷积层、池化层和全连接层有效地提取了语义信息;使用 BiGRU 从字符向量序列中提取上下文信息;最后使用 CapsNet 结构来对实体标签进行预测,然后添加一个马尔可夫传递函数对预测结果进行约束,实现实体识别和分类。标记 1标记 2标记 nCapsNetCapsNet 层CapsNetH1H2Hnh1h2hnGRUGRUGRUX1X2X3C1C2Cn反向BiGRU 层CNN 层CNN嵌入层词向量特征输入特征上下文特征文本深度特征正向秦岭隧道净宽值单位CapsNetGRUGRUGRUGRUGRU图1CNN-BiGRU-CapsN
17、et 模型结构2.2算法各层设计2.2.1嵌入层为了能基于输入的词汇预测其上下文词汇,在嵌入层中使用 WordVec 模型中的 Skip-Gram 模式训练词向量,以更好地进行领域语义提取,其损失函数定义为Lskip-gram=wClog2p(context(w)|w)wcontext(w)式中:为单独词汇,为该词语的上下文词汇。首 先,将 本 文 语 料 库 中 的 实 体 短 语 导 入Jieba 分词的自定义分词模块,将汉语问题分割成交 通 运 输 特 定 领 域 的 单 词 组 合;接 着 使 用Word2Vec 模型对经过打标处理得到的 2 类文本数据进行训练,在此过程中将以固定组合
18、出现的词汇作为单个词汇表示,如“隧道净宽值”,同时对经常出现的词汇进行抽样处理,对所有目标进行负采样,以此提高训练性能;最终将本层的输出作为卷积神经网络的输入。2.2.2CNN 层CNN 层的多层卷积神经网络进行语义信息的提取,其中包含输入层、卷积层、池化层和全连接层。其输入为已训练好的词向量,输出为特征矩阵。xi Rndd输入层中,将已经训练好的词向量作为输入,记为,其中 n 为词数,向量维度 的值设置为 200;卷积层中,采用 ReLU 函数作为激活函数,深度特征分别设置大小为 3、4、5 的滤波器提取;池化层中,选择最大池化即输出局部中的最优解;全连接层中,由于 BiGRU 层要以序列化
19、结构作为输入,因此通过全连接层将池化层获得的向量拼接成一个特征矩阵 H,最终传递至 BiGRU 层进行上下文特征关系的提取。2.2.3BiGRU 层tHtH=(H1,H2,Hn)使用 BiGRU 从字符向量序列中提取上下文信息。GRU 是一种单向神经网络结构,由更新门和复位门组成,可以选择保存上下文信息来解决RNN 梯度消失或爆炸的问题。为解决语义理解中 当 前 时 刻 输 出 和 前 后 时 刻 的 关 系 抽 取,BiGRU 将正向 GRU 单元和反向 GRU 单元拼接,输 出 由 2 个 方 向 的 GRU 共 同 状 态 决 定。将BiGRU 网 络 在 时 刻 的 隐 层 输 出 定
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 交通运输 行业 数据 自动 分级 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。