基于GMM聚类的铁路网络数据风险等级分类方法.pdf
《基于GMM聚类的铁路网络数据风险等级分类方法.pdf》由会员分享,可在线阅读,更多相关《基于GMM聚类的铁路网络数据风险等级分类方法.pdf(6页珍藏版)》请在咨信网上搜索。
1、基于 GMM 聚类的铁路网络数据风险等级分类方法商婧1,王佳宁1,刘旭1,李琪2,王健1(1.北京交通大学计算机与信息技术学院,北京100044;2.北京经纬信息技术有限公司,北京100081)摘要:铁路行业信息基础设施及重要信息系统产生的数据种类繁多、数量庞大且价值密度高,而不同类型或等级的铁路网络数据存在不同级别的安全风险。为了完善铁路网络数据风险评估机制,设计一种基于高斯混合模型(GMM,GaussianMixtureModel)聚类的铁路网络数据风险等级分类方法。从数据和风险角度提取关键信息,构建风险信息数据集;通过 K-means 聚类获得初始聚类中心;基于混合距离计算进行 GMM
2、聚类,实现数据风险等级划分。经实验验证,与传统 K-means 聚类、谱聚类算法相比,GMM 聚类算法对铁路网络数据的聚类效果更优,能够更加准确地对铁路网络数据进行风险等级分类,从而为进一步落实铁路网络数据安全管理要求提供重要的技术支撑。关键词:高斯混合模型(GMM)聚类;K-means 聚类;最大期望(EM)算法;铁路网络;数据风险;风险等级分类中图分类号:U285.49:TP393文献标识码:ADOI:10.3969/j.issn.1005-8451.2023.11.09Risk level classification method for railway network databas
3、ed on GMM clusteringSHANGJing1,WANGJianing1,LIUXu1,LiQi2,WANGJian1(1.SchoolofComputerandInformationTechnology,BeijingJiaotongUniversity,Beijing100044,China;2.BeijingJingweiInformationTechnologiesCo.Ltd.,Beijing100081,China)Abstract:Theinformationinfrastructureandimportantinformationsystemsintherailw
4、ayindustrygenerateawidevarietyofdatatypes,largequantities,andhighvaluedensity,anddifferenttypesorlevelsofrailwaynetworkdatahavedifferentlevelsofsecurityrisks.Inordertoimprovetheriskassessmentmechanismforrailwaynetworkdata,thispaper designed a risk level classification method for railway network data
5、 based on GMM clustering.The paperextractedkeyinformationfromtheperspectivesofdataandrisk,andconstructsariskinformationdataset,obtainedinitialclustercentersthroughK-meansclustering,performedGMMclusteringbasedonmixeddistancecalculation,andimplemented data risk level classification.Through experimenta
6、l verification,compared with traditional K-meansclusteringandspectralclusteringalgorithms,theGMMclusteringalgorithmhasabetterclusteringeffectonrailwaynetworkdataandcanmoreaccuratelyclassifytherisklevelofrailwaynetworkdata,whichprovideimportanttechnicalsupportforfurtherimplementingtherequirementsofra
7、ilwaynetworkdatasecuritymanagement.Keywords:Gaussian Mixture Model(GMM)clustering;K-means clustering;Expectation Maximization(EM)algorithm;railwaynetwork;datarisk;risklevelclassification随着铁路的高速发展,铁路行业已经进入了大数据时代1;逐步成熟的大数据技术能够为铁路运输组织的各个环节予以高效指导2-3。铁路网络业务场景众多,数据资产规模庞大、类型繁杂、价值密度高,因此对关键信息基础设施、重要数据、个人信息、数
8、据跨境流动等方面有较高的安全保护需求。研究并形成铁路网络数据风险等级分类方法,对落实铁路网络数据安全管理要求,确保铁路网络数据安全风险可控、在控具有重大意义。目前,已有众多学者对风险等级分类技术进行收稿日期:2023-07-31基金项目:中 国 国 家 铁 路 集 团 有 限 公 司 科 技 研 究 开 发 计 划 课 题(K2022W006)作者简介:商婧,在读博士研究生;王佳宁,在读硕士研究生。第32卷 第11期Vol.32 No.11数据安全Data Security文章编号:1005-8451(2023)11-0039-06RCA2023.11 总第 320 期39了研究。骆公志等人4
9、提出一种基于粗糙集理论的网络信息安全风险等级分类技术,通过成对比较矩阵赋予每个信息系统对应权重,生成加权多粒度粗糙集,并在模型容错性等方面进行了详细分析,但由于该方法需要拓展粗糙集模型并获取信息系统各类规则,实施过程较为复杂;陈玮等人5使用卷积神经网络和双向长短期记忆模型对企业新闻数据进行风险划分,但该方法需要对大量训练语料进行人工信息标注,且构建双向长短期记忆模型所花费的时间过多,实用性较差。除上述方法外,也可使用聚类算法进行风险等级分类。李畅等人6基于模糊谱聚类技术,依据真实驾驶数据,建立了在线驾驶风险等级分类算法,但由于谱聚类技术对每簇数据量有一定的要求,故在数据量较大时使用受限;丁慧等
10、人7使用改进的密度聚类算法进行风险等级判定,通过查询每个节点的欧氏平均距离邻域,分别计算每个节点密度和所有节点平均密度,得到每个节点的方差,并采用基于等深度分块法进行数据分割,从而在每个数据分区运行密度聚类算法,得到聚类结果。然而,该方法在对数据进行标准化处理后,使用单一距离度量方法进行聚类,没有考虑数据属性的复杂性对聚类结果带来的影响,对实际应用场景的适应性较差。综上所述,现有的风险等级分类技术多数需要获取复杂规则或大规模信息标注,一些使用聚类方法的技术也没有考虑到数据属性的复杂性,且没有进行结果的有效性评估,进而导致无法得到最优的分类结果。为克服现有风险等级分类方法的局限性,同时对铁路网络
11、数据进行更加有效的风险等级分类,本文 提 出 了 基 于 高 斯 混 合 模 型(GMM,GaussianMixtureModel)聚类的铁路网络数据风险等级分类方法。该方法考虑数据的无序和有序属性,基于混合距离计算进行 GMM 聚类,最终能够将输入的数据根据其等级和生命周期阶段进行更加准确、有效的风险等级分类。本文算法以铁路数据分类分级结果为基础,识别数据在全生命周期内的潜在风险,研究并确定铁路网络数据风险等级分类,为制定差异化的数据安全保护措施提供支撑,对进一步落实铁路网络数据安全管理要求具有重大意义。1 相关技术介绍1.1 K-means 聚类K-means 聚类算法是一种迭代求解的聚类
12、分析算法,算法步骤如下。(1)确定簇数和最大迭代次数,初始化类簇。(2)初始化聚类中心。从数据样本中,随机选取 k 个数据样本点作为聚类中心。(3)将数据样本分配到与其欧式距离最近的类中。(4)迭代聚类中心。计算每个簇中所有数据样本点的均值,作为新的聚类中心。(5)如果聚类中心不再偏移或偏移很小,或者达到最大迭代次数 N,则停止迭代,输出聚类结果,否则重复步骤(3)和(4)。1.2 距离度量考虑到铁路网络数据属性较为复杂等特点,本文对有序属性和无序属性使用多种距离计算方式进行度量。1.2.1VDM 距离mu,amu,a,iVDM(ValueDifferenceMetric)主要用于对不存在序关
13、系的离散无序数据属性进行距离度量。令表示在属性 u 上取值为 a 的样本数,表示在第 i 个样本簇中在属性 u 上取值为 a 的样本数,k 为样本簇个数,则属性 u 上两个离散值 a 和 b 之间的VDM 距离为VDM2(a,b)=ki=1?mu,a,imu,amu,b,imu,b?2(1)1.2.2MindkovDM 混合距离ncnnc对于有序属性和无序属性同时存在的混合距离计算,本文采用 MindkovDM 距离计算方法,将欧式距离和 VDM 距离结合,假定共有 n 个属性,其中,个无序属性,个有序属性,则 MinkovDM 距离为MinkovDM(xi,xj)=vutncu=1VDM2(
14、xiu,xju)+nu=nc+1|xiuxju|2(2)1.3 GMM 聚类根据铁路网络数据规模大、数据类型多样等特点,本文使用 GMM 聚类技术。对于大规模数据,数据安全2023年11月RCA402023.11 总第 320 期GMM 聚类算法相较其他聚类算法更加有效,且时间复杂度更低8,聚类结果也更加稳定。与 K-means 聚类方法不同,这种聚类方法依概率划分各个样本簇,而不会将数据确定地分为某一个簇。该方法采用的训练模型是几个高斯模型的加权和,之后将样本数据分别在若干个高斯模型上进行投影,分别得到这些样本数据点被划分在各个类簇上的概率,最后选取概率最大的簇作为数据点最终划分结果9。2
15、铁路网络数据风险分类算法铁路网络数据风险分类步骤为:(1)数据预处理,从风险和数据角度提取关键信息,构建风险信息数据集;(2)利用数据的有序属性进行 K-means聚类,获得初始聚类中心;(3)通过计算混合距离调整聚类中心;(4)基于上述聚类中心,进行多轮迭代,完成 GMM 聚类,并对每轮聚类结果进行评估;(5)将评估表现最好的聚类结果作为最终类簇划分,并确定每类风险评分,最终根据评分确定风险等级,完成数据风险等级分类,如图 1所示。xnum_iter k x x1 x2K-meansyx1x2 y GMMCPSPCP/SPCP/SPnum_iter图1铁路网络数据风险分类算法流程2.1 数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 GMM 铁路 网络 数据 风险 等级 分类 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。