基于集成学习的空间科学卫星工作模式识别.pdf
《基于集成学习的空间科学卫星工作模式识别.pdf》由会员分享,可在线阅读,更多相关《基于集成学习的空间科学卫星工作模式识别.pdf(12页珍藏版)》请在咨信网上搜索。
1、Learning(in Chinese).Chinese Journal of:Space Science,2023,43(4):768-779.D0I:10.11728/cjss2023.04.20220301022GAO Lijing,CHEN Zhimin,GUO Guohang,WANG Chunmei.Recognition of Working Pattern of Space ScienceSatellite Based on Ensemble0254-6124/2023/43(4)-0768-12Chin.J.SpaceSci.空间科学学报基于集成学习的空间科学卫星工作模式识别
2、*1,2陈志敏郭国航1,2高立京王春梅1(中国科学院国家空间科学中心北京100190)2(中国科学院大学北京100049)摘要针对空间科学卫星遥测参数数据量大且特征维度高、需要消耗大量人力资源预先设置海量阈值、预先设置的阈值可能不再适用、现有监测手段可扩展性低等问题,提出了一种基于集成学习的空间科学卫星工作模式识别方法。该方法采用相关系数统计特性和互信息理论对遥测参数数据进行筛选降维,使用数据重采样技术解决数据集中存在的类别不平衡问题,构建集成学习模型,实现空间科学卫星工作模式的识别。借助某型号科学卫星真实遥测参数数据对该方法进行验证,在短时内便可构建完成算法模型,模型对整体类别的识别正确率高
3、达99.67%,可正确识别多数类样本和少数类样本,为地面运控人员判断空间科学卫星工作模式提供了决策依据。关键词遥测参数数据,特征降维,数据重采样,集成学习中图分类号TP391Recognition of Working Pattern of Space ScienceSatellite Based on Ensemble LearningCHEN ZhiminGAO Lijing1,2GUO Guohang1,2WANG Chunmeil1(National Space Science Center,Chinese Academy of Sciences,Beijing 100190)2(Un
4、iversity of Chinese Academy of Sciences,Beijing 100049)AbstractAiming at the issues of space science satellite telemetry parameters,such as large amount ofdata,high dimension,the need of numerous artificial resource consumption for preset massive thresholds,the preset thresholds that may not be appl
5、icable,and the current monitoring methods with low scalabili-ty,a working pattern recognition method is proposed for scientific satellite based on ensemble learning.Correlation coefficient statistical characteristics and mutual information theory are used to screen andreduce the dimension of telemet
6、ry parameter data.Data resampling technology is used to solve the prob-lem of category imbalance for the dataset.An integrated learning model is used to identify the workingmode of space science satellite.The method is verified with the real telemetry parameter data of quan-*中国科学院空间科学先导专项科学卫星任务运控技术项
7、目资助(XDA15040100)2022-03-01收到原稿,2 0 2 2-10-11收到修定稿E-mail:The Author(s)2023.This is an open access article under the CC-BY 4.0 License(https:/creativecommons.org/licenses/by/4.0/)769高立京等:基于集成学习的空间科学卫星工作模式识别tum science satellites.And the algorithm model can be constructed in a short time,and the overal
8、lrecognition accuracy rate reaches 99.67%,which can correctly identify the majority and minority classsamples.The method can provide decision-making basis for ground personnel to judge the working modeof space science satellites.Key wordsTelemetry parameter data,Feature dimension reduction,Data resa
9、mpling,Ensemble learning0引言空间科学卫星在轨工作期间会向地面下传海量遥测参数数据,这些遥测参数数据是地面运控系统判断其在轨工作模式的重要依据。目前地面运控人员主要通过监视重点遥测参数是否超出事先设定的阈值来识别空间科学卫星当前工作模式,由于空间科学卫星上携带的有效载荷数量众多,需要地面人员事先设定海量的阈值,耗费大量的人力资源。当需要监视其他卫星时,需要重新为新的卫星设置海量的阈值,移植成本高,可扩展性弱。同时,随着卫星在轨运行时间的增加,加之空间环境复杂,辐射因素或温度因素可能引起元器件发生异常,同时机械部件的长期磨损、电子线路的老化、蓄电池因充放电过多导致的性能退
10、化等一系列问题都可能会使得前期预先设定的阈值不再适用,而地面人员又难以根据当前情况适时调整阈值。因此,设计一种可以根据遥测参数自动识别空间科学卫星工作模式的方法是很有必要的。目前,对于航天器工作模式识别的研究主要集中于航天器故障诊断和遥测参数判读方面。文献 2 开发了NoveltyDetection组件,利用最大最小值、均值、标准差等统计特征重新表示遥测数据,并结合LOF(LocalOutlierFactor)方法进行异常检测。文献 3 使用混合概率主成分分析(MixtureProbabilis-tic Principal Component Analysis,MPPCA)与隐半马尔科夫模型(
11、Hidden Semi-Markov Model,HSMM)实现数据维度约简,使用序列蒙特卡罗算法进行参数估计,实现航天器故障诊断。文献 4 针对遥测参数中缓变参数的自动判读问题,提出使用基于历史数据的统计特性自动判读遥测数据参数的方法。文献 5以极限学习机(Extreme Learning Machine,ELM)预测模型为基础,使用集成学习的方法,针对目标参数的不同类别分别给出判读策略。文献 6 将传感器与卫星姿态之间的穴余关系作为特征,利用主成分分析(Principal Component Analysis,PC A)进行特征降维,通过监测特征值之间相应比例的变化实现遥测参数的判读。文献
12、 7 使用灰关联分析以及信息熵剔除余参数并离散化参数,提出的PrefixSpan算法能够通过卫星遥测数据检测其异常的模式。基于上述研究,本文提出了一种基于随机森林算法模型的空间科学卫星工作模式识别方法,将卫星工作模式识别问题归约为机器学习领域中的多标签分类问题。借助皮尔逊相关系数和互信息理论,剔除特征与特征之间相关性高、特征与目标之间相关性低的特征,实现对遥测参数数据的特征降维。使用随机过采样、SMOTE过采样、SMOTE-Tomek混合采样等多种数据重采样技术处理数据集,解决数据集中存在的类别不平衡问题。构建以Bagging集成学习思想为基础的随机森林算法模型,实现空间科学卫星工作模式的识别
13、。使用某型号科学卫星真实遥测参数数据进行实验验证,比较不同数据重采样技术之间的性能差异,探索了不同基学习器数量下算法模型的性能表现,将随机森林模型与其他常用机器学习算法模型在同一数据集上进行性能对比。实验结果证明,本文方法解决了数据集中存在的类别不平衡问题,同时构建算法模型耗时短,整体类别的识别正确率高,可正确识别多数类样本和少数类样本,能够为地面运控人员判断空间科学卫星工作模式提供决策依据1工作模式识别方法1.1问题模型与向量表示1.1.1遥测数据形式化描述定义1空间科学卫星的遥测参数集合表示为P=(pili=1,2,n).(1)其中pi表示第i维的遥测参数。7702023,43(4)Chi
14、n.J.SpaceSci.空间科学学报定义2以星上时为时间基准,在某一时刻卫星采集到的遥测参数数据向量表示为Mg)=(0(=E(0 p p9.(2)其中,t(i)表示某一时刻的星上时,用来在时间维度上标识遥测参数数据向量。P()=pp9p)为对应时刻采集到的n维遥测参数数据向量。定义3卫星在时间1K的时间段内产生的遥测数据表示为1TD1,K=MgMSPt(1)(1)(1)(1)PiP2Pnt(2)(2)(2)(2)PiP2Pn(3)t(K)(K)(K)(K)PiP2n定义4其某型号空间科学卫星共存在5种工作模式,其工作模式集合表示为L=(l1,l2,l3,l4,ls).(4)1.1.2工作模式
15、识别问题模型空间科学卫星的工作模式指的是卫星在执行特定科学任务时所处的整体状态,可以将空间科学卫星工作模式识别问题归约为机器学习领域的多标签分类问题。1.2算法框架基于集成学习的空间科学卫星工作模式识别方法的整体算法框架如图1所示。首先从数据库中获取以分库分表形式存放的原始遥测参数数据,合并分库分表中的遥测参数数据并将其中的十六进制数据按照配置文件转换为十进制数据。借助星历计划安排获取每个星上时区间内卫星所处的工作模式,根据遥测参数数据的星上时时间戳所处的时间区间为每条数据打上标签,用以标识该条数据产生时卫星所处的工作模式,得到带有标签的原始数据集。之后对原始数据集中的数据进行缺失值填充、异常
16、值剔除、数据标准化等预处理操作。剔除数据集中的余无关特征,可以减少训练和预测的计算量,因此下一步需对特征进行筛选降维,计算特征与特征之间的皮尔逊相关系数剔除余特征,计算特征与目标之间的互信息剔除无关特征。在航天任务中,空间科学卫星工作模式调度的特殊性决定了其处于不同工作模式间的时间占比相差较大,造成遥测参数数据存在严重的类别不平衡问题。为解决该问题,对原始数据集分别进DatabaseTelemetry raw data of sub database and sub tableData parserCategory imbalancetreatmentHexadecimalTelemetry
17、parameterRandomSMOTEconversionmergingoversamplingalgorithmDatasetSMOTE-TomekannotationalgorithmData preprocessingModel selectionMissingvalueOutlierfieliminationBaggingRandom forestDatanormalizationFeature selectionModelevaluationBetweenBetweenfeaturefeaturesand targetAccuracyF1-scorePearson correlat
18、ionMutualcoefficientinformation图1整体算法框架Fig.1Overall algorithm framework771高立京等:基于集成学习的空间科学卫星工作模式识别行随机过采样、SMOTE过采样、SMOTE-Tomek混合采样等处理。在模型选择方面,基于Bagging集成学习思想,采用随机森林作为识别空间科学卫星工作模式的算法模型。在算法模型的评价指标方面,由于数据集中存在严重的类别不平衡问题,单靠正确率这一评价指标不能完整评价模型的拟合能力和泛化能力,还需要用到F1-score这一评价指标。下面以图1中的整体算法框架为基础,介绍其每一部分内容。1.3数据预处理
19、数据预处理过程主要进行缺失值填充、异常值剔除和数据归一化的工作。1.3.1缺失值填充遥测参数数据的一个特点是数据变化缓慢,同一个遥测参数的值不会在短期内发生剧烈变化,因此对于某个遥测参数中的缺失值可参考其附近时刻值。这里取该缺失值前后各30 个采样值的均值作为该缺失值的填充值,若采样值的数量不满30 则以实际数量为准。1.3.2异常值剔除异常值定义为因设备编解码错误或传输过程出错而产生的严重偏离正常数据范围的值,对于异常值,使用箱型图进行判别。箱型图是一种用作显示一组数据分散情况的统计图,可以用来识别数据分布以及检测异常数据,其主要由5个点组成:下边缘Tmin,下四分位数Q1,中位数Q2,上四
20、分位数Q3,上边缘Tmax。若数据位于上下边缘区间之外,则认为是异常值8,如图2 中两个红色点所示,均为异常值。箱型图的下边缘和上边缘计算公式如下:Tmin=Q1-1.5R,(5)Tmax=Q3+1.5R.(6)其中,R=Q3-Q1o对使用箱型图检测出的异常值进行剔除,并使用1.3.1节中提到的缺失值填充方法进行填充1.3.3数据归一化遥测参数数据中不同参数的数值量纲是不同的,特征之间取值范围的悬殊性不利于数值求解,导致模型收敛困难,降低模型的训练效率。针对大部分机器学习算法,在建模之前都需要对数据进行归一化处理,消除参数间数值量纲差异带来的不利影响。本文中使用的数据归一化方式为零均值归一化,
21、该方式可以将数据映射到均值为0、标准差为1的标准正态分布上9。数值c的零均值归一化公式为a=(7)其中,表示该特征下的数据均值,表示该特征下的数据标准差。1.4特征筛选对数据集进行特征筛选降维可以删除穴余无关的参数特征并保留重点参数特征,能够在不影响或略微影响模型精度的情况下大大减少计算量,提高训练和预测的效率。本文根据数据集的统计特性判断数据集中的参数特征是否具备余参数特征和无关参数特征,借助皮尔逊相关系数和互信息理论分析数据集样本的统计分布特性,剔除特征与特征之间相关性高、特征与目标之间相关性低的特征。1.4.1皮尔逊相关系数皮尔逊相关系数是一种衡量数据统计特性的指标,可以描述遥测参数数据
22、中特征与特征之间的线性相关性。遥测参数特征X与遥测参数特征Y之间的皮尔逊相关系数为MedianQ2Lower edge TminLowerquartileQiUpperquartileQsUpper edge TmaxOutlierOutlierR1.5xR1.5R图2箱型图检测异常值Fig.2Abnormal value detected by box diagram7722023,43(4)Chin.J.SpaceSci.空间科学学报cov(X,Y)Px,YE(XY)-E(X)E(Y)/E(X2)-(E(X)VE(Y2)-(E(Y)?nnciyiiyi=1=1=122nn2nyi=1=1=
23、11(8)其中,cov(X,Y)表示遥测参数特征X与遥测参数特征Y的协方差,x和o分别表示遥测参数特征X和遥测参数特征Y的标准差 10 相关系数p的取值范围为-1,1,p=-1时表示两个遥测参数特征之间为线性负相关,=1表示两个遥测参数特征之间为线性正相关,=0时表示两个遥测参数特征之间不存在线性关系。一般地,使用相关系数的绝对值表示两个遥测参数特征之间的相关程度,相关系数的绝对值pl与相关程度的关系见表1。在本文中,对于遥测参数数据中的所有特征,分别计算两两之间的皮尔逊相关系数,对于皮尔逊相关系数绝对值满足0.9lpl1的两个遥测参数特征,只保留其中一个特征,即剔除了遥测参数数据中特征与特征
24、之间相关程度极高的穴余参数特征1.4.2互信息互信息用来描述两个随机变量之间共同拥有的信息量,可以度量遥测参数特征与目标标签之间的线性和非线性依赖程度。遥测参数特征X和目标标签Y之间的互信息为I(X,Y)=H(X)-H(X|Y).(9)其中,H(X)表示遥测参数特征X的,H(X|Y)表示在给定目标标签Y的条件下遥测参数特征X条件概率分布的嫡,二者计算公式分别为表1皮尔逊系数与相关程度的关系Table 1Relationship between Pearson coefficientand correlation degree皮尔逊相关系数绝对值p取值相关程度0Ipl0.3低相关0.3 Ipl0
25、.8中相关0.8Ipl1高相关H(X)=-p(a)Ibp(a);(10)aEXH(X|Y)=-p(c,y)Ibp(aly).(11)CEXEY计算遥测参数数据中每个特征与目标标签之间的互信息,并对互信息结果进行降序排序,选取前50%的特征进行保留,即剔除了遥测参数数据中与目标标签相关性较低的特征。1.5类别不平衡处理类别不平衡问题指的是在一个分类问题中某些类的样本数量远多于其他类别的样本数量 12 。对于分类问题的场景,如果直接将传统分类器应用于类别不平衡数据集,由于数据集中各个类别的不平衡比例过大,分类器极有可能将所有的样本数据均识别为类别数量多的那一类 13)。在遥测参数数据中类别不平衡问
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 集成 学习 空间科学 卫星 工作 模式识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。