基于多维特征提取的资源数据识别与校核算法.pdf
《基于多维特征提取的资源数据识别与校核算法.pdf》由会员分享,可在线阅读,更多相关《基于多维特征提取的资源数据识别与校核算法.pdf(5页珍藏版)》请在咨信网上搜索。
1、现代电子技术Modern Electronics Technique2023年12月1日第46卷第23期Dec.2023Vol.46 No.230 引 言随 着信息与通信技术(Information and Communications Technology,ICT)的快速发展,数据逐渐成为各个行业的重要资产之一,大数据技术在医疗、金融、商务与网络安全等方面的应用日渐广泛13。而在数据应用过程中,数据的准确性和可靠性至关重要,因此异常数据的检测识别也受到众多研究学者的关注46。异常数据的识别原理可以分为基于距离、密度、子空间和集成学习的 4类检测算法,但不同算法在数据维数高、数据样本大的情况下
2、,其准确性及时效性也较为有限79。电力行业在高速发展的同时,也积累了海量的人力资源数据,对这些数据的深入挖掘可以有效提高电网的运营管理水平。而目前针对大规模人力资源数据的识别与校核算法仍存在计算速度慢、成本过高以及准确度低等缺陷。针对此,本文在传统孤立森林算法基础上引入了加权随机、平方预测误差(Squared Prediction Error,基于多维特征提取的资源数据识别与校核算法汤 伟1,2,徐声龙2,杨 慧2,刘佳颖2,李卉茹2(1.武汉大学 电气与自动化学院,湖北 武汉 430072;2.国网湖北省电力有限公司 超高压公司,湖北 武汉 430050)摘 要:针对现有资源数据异常识别与智
3、能校核算法准确性和可靠性差的问题,设计了一种基于多维特征提取的资源数据识别与校核算法。该算法以多维指标数据作为输入,通过加权随机算法构建初始孤立森林,再以平方预测误差(SPE)统计量作为判据,实现孤立森林的冗余消除,进一步采用离散粒子群算法优化选取最优子森林,从而实现对异常数据的智能高效检测。基于人力资源数据进行的算例分析测试结果表明,所提 RRADPSOWRIF 算法的异常数据识别准确率可达95%,多次计算的偏差在2%以内,相比传统算法具有更高的检测准确率与稳定性,能够为人资数据的管控提供决策支撑。关键词:孤立森林;离散粒子群;异常检测;多维特征提取;数据校核;人力资源数据中图分类号:TN9
4、934;TP277 文献标识码:A 文章编号:1004373X(2023)23010905Design of resource data recognition and verification algorithm based on multidimensional feature extractionTANG Wei1,2,XU Shenglong2,YANG Hui2,LIU Jiaying2,LI Huiru2(1.School of Electrical Engineering and Automation,Wuhan University,Wuhan 430072,China;2.E
5、HV Company,State Grid Hubei Electric Power Co.,Ltd.,Wuhan 430050,China)Abstract:In view of the poor accuracy and reliability of anomaly recognition and intelligent verification algorithms for existing resource data,a resource data recognition and verification algorithm based on multidimensional feat
6、ure extraction is designed.In this algorithm,the multidimensional indicator data is taken as the input,an initial isolated forest is constructed by weighted random method,and then the squared prediction error(SPE)statistics is used as the criterion to eliminate redundancy in the isolated forest.Furt
7、hermore,the discrete particle swarm optimization(DPSO)is used to optimize the selection of the optimal sub forest,so as to achieve intelligent and efficient detection of abnormal data.The test results of case analysis based on human resource data show that the accuracy rate of abnormal data recognit
8、ion of the proposed RRADPSOWRIF algorithm reaches 95%,and its deviation of multiple calculations is within 2%.In comparison with the traditional algorithms,the proposed algorithm has higher detection accuracy and stability,and can provide decisionmaking support for the control of human resource data
9、.Keywords:isolated forest;discrete particle swarm;abnormal detection;multidimensional feature extraction;data check;human resource dataDOI:10.16652/j.issn.1004373x.2023.23.020引用格式:汤伟,徐声龙,杨慧,等.基于多维特征提取的资源数据识别与校核算法J.现代电子技术,2023,46(23):109113.收稿日期:20230625 修回日期:20230718基金项目:国家自然科学基金重点支持项目(U1805263)1091
10、09现代电子技术2023年第46卷SPE)统计量去冗余和粒子群优化等方法,以提升孤立森林算法的准确性与可靠性,实现对异常数据的智能化高效检测。1 孤立森林算法通常情况下,数据集中异常数据的占比较少,而且与正常数据之间存在着明显的特征差异,孤立森林算法1013根据这一原则对数据集进行随机划分,进而实现异常数据的识别。孤立森林由多个孤立树构成,孤立树为二叉树,父节点根据某一随机维度在最大值与最小值范围内进行数据样本分割。左分叉子树由该维度取值小于父节点的所有数据样本构成,右分叉子树由该维度取值大于父节点的所有数据样本构成。孤立树的构建过程包含以下步骤:1)对于具有D维空间的原始数据集A,从中随机选
11、取一个非空数据子集B;2)从 数 据 子 集B中 随 机 选 取 一 个 维 度d,d1,2,D;3)在数据子集B维度d的最大值与最小值范围内随机选取一个分割值v;4)对数据子集B中的每个数据样本xb进行分割,若xb在维度d的取值xbd v,则xb被划分至左分叉子树B1,若xbd v,则xb被划分至右分叉子树B2;5)对左分叉子树B1和右分叉子树B2重复步骤2)步骤 4),直至树达到最大高度限制或者所有数据均已被划分完毕,由此孤立树构建完成。孤立森林则是由多株孤立树构成,每次在原始数据集A中随机选取非空子集进行孤立树构建。数据点在每个孤立树上都具有唯一的高度,即该孤立树的根节点到该数据点的路径
12、长度。根据数据点在所有孤立树上的平均高度可计算数据的异常评分值,如式(1)所示:S(a,N)=2-h(a)b(N)(1)式中:S(a,N)为数据样本a的异常评分值;N为数据集中数据样本的总数;h(a)为数据样本a的平均高度;b(N)为标准化因子。b(N)的计算方法如下:b(N)=2H(N-1)-()2(N-1)NH(i)=ln i+0.577 215 664 9 (2)式中H(i)为谐波数。根据上述公式可以计算数据的异常评分值S,且满足0 S 1。当某个数据样本的异常评分值S越接近1时,表明该数据样本越有可能是异常值;而当S越接近0时,则表明该数据样本越有可能是正常值。根据上述原则,即可实现数
13、据校核与异常识别。基于孤立森林的异常数据校核识别算法框架如图1所示。图1 孤立森林算法示意图2 基于多维特征提取的数据识别算法2.1 算法整体架构本文所设计算法的整体架构如图 2 所示。以多维指 标 数 据 作 为 输 入,首 先 利 用 加 权 随 机 孤 立 森 林(Weighted Random Isolation Forest,WRIF)算法进行初始孤立森林的构建;然后采用基于平方预测误差(SPE)统 计 量 的 去 冗 余 算 法(Redundancy Reduction Algorithm,RRA)进行剪枝;再进一步基于离散粒子群优化(Discrete Particle Swarm
14、 Optimization,DPSO)算法进行最优子森林的优化选取,最后输出数据校核与异常识别结果。图2 数据校核与异常识别算法架构2.2 改进的孤立森林算法孤立森林算法是一种利用数据集中异常数据较少且易于被划分的特点,实现异常数据快速识别的人工智能算法。但是孤立森林在构建过程中具有较强的随机性,导致其在计算精度和稳定性方面存在一定的缺陷。为了提高算法的准确性,需要随机构建大量的孤立树,110第23期大幅降低了算法的计算效率。同时,随着孤立树数量的增加,难免会存在差异度较小的孤立树,造成了一定程度的冗余。针对此,本文提出了改进的孤立森林算法,从而提高算法的准确性、稳定性与检测效率。改进算法的具
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多维 特征 提取 资源 数据 识别 校核 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。