风力发电机温度时序预测方法优化.pdf
《风力发电机温度时序预测方法优化.pdf》由会员分享,可在线阅读,更多相关《风力发电机温度时序预测方法优化.pdf(6页珍藏版)》请在咨信网上搜索。
1、发电机作为风机核心部件,其温度过热往往是发电机故障的综合表现,业界和学术界对风机发电机温度预测做了很多的研究。该文在前人研究的基础上,对发电机温度时序预测模型构建中的多个环节进行了深入优化:通过数据集转换将时间序列数据集转换为有监督学习数据集,进而采用有监督学习算法;风机的实时测量值有数百个之多,通过量化自变量和因变量之间的非线性关系,进行更合理的特征筛选,剔除与预测目标弱相关或不相关的特征;基于无监督学习算法,实现了训练集中异常数据的自动过滤,并通过对数十个风场数据质量的统计分析,剔除影响建模精度约 5%的脏数据;最后构建多个算法模型,并通过在相同计算环境上的横向对比实验,以均方误差、解释方
2、差、R2 score 作为衡量模型精度的指标,从各种建模算法中选择精度较高的算法。提出的一系列改进措施为提高风力发电机温度时序预测模型精度提供了参考。关键词:风力发电机;时序预测;数据变换;特征优选;孤立森林;XGBoost中图分类号:TP181;TK83摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)09-0215-06doi:10.3969/j.issn.1673-629X.2023.09.032Optimization of Wind Turbine Generator Temperature Time SeriesPrediction Me
3、thodWANG Yan-guo1,QIN Guan-jun1,LAN Jin-jiang2(1.NR Electric Co.,Ltd.,Nanjing 211101,China;2.China Three Gorges Renewables(Group)Co.,Ltd.,Beijing 100032,China)Abstract:As the core component of the wind turbine generator,the overheating of the generator is often the comprehensive performanceof the ge
4、nerator fault.The industry and academia have done a lot of research on the temperature prediction of the wind turbine generator.Based on previous research,we have deeply optimized several links in the construction of the generator temperature time series predictionmodel:the time series dataset is co
5、nverted into a supervised learning dataset through dataset conversion,and the supervised learningalgorithm is used.There are hundreds of real-time measured values of generator.Through quantifying the nonlinear relationship betweenindependent variables and dependent variables,more reasonable feature
6、screening is carried out to eliminate the features that are weaklyrelated or unrelated to the prediction target.Based on the unsupervised learning algorithm,the automatic filtering of abnormal data in thetraining set is realized,and through the statistical analysis of the data quality of tens of win
7、d farms,the dirty data that affects the modelingaccuracy by about 5%is eliminated.Finally,several algorithm models are constructed.Through horizontal comparison experiments inthe same computing environment,mean square error,explanatory variance and R2 score are used as indicators to measure the accu
8、racy ofthe model,and algorithms with higher accuracy are selected from various modeling algorithms.A series of improvement measuresproposed provide a reference for improving the accuracy of wind turbine generator temperature time series prediction model.Key words:wind turbine generator;time series p
9、rediction;data conversion;feature optimization;isolation forest;XGBoost0摇 引摇 言近年来,国内风电行业发展迅速,随着风电装机容量的增加和精细化运维要求的提升,风机故障成为业主越来越关注的问题。发电机作为核心部件,其温度过热往往是发电机故障的综合表现1。目前学术界已开展了发电机温升故障预警和风机主轴承故障预测的研究1-5、风机齿轮箱故障预测的研究6-8。上述研究在筛选智能算法的自变量时,尚未交代自变量筛选的第 33 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展CO
10、MPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.9Sep.摇 2023原则。同时,工程中正常的风机 scada 样本数据本身存在着数据缺失、数据异常等各种情况9,这些异常数据会对机器学习算法的精度产生很大的影响,但实际生产环境下,又无法仅靠人工和固定规则做数据剔除,而上述文献也尚未给出剔除异常数据的自动化手段。除了风机本体部件健康状况外,环境因素(如风速、气压、环境温度等)是决定 风机运行工 况的重要原因2,10,而环境因素的变化趋势在小时级时间粒度上是随机性的,ARIMA(差分整合移动平均自回归模型,Autoreg
11、ressive Integrated Moving Average model)等单维度的时序预测算法很难收到预期的效果,风力发电机温度时序预测的研究中必须考虑多维度的影响因素。该文基于业务场景明确了自变量和因变量的非线性关系,并在此基础上采用合适的算法做特征筛选;分析了多维时序数据集到有监督学习数据集变换的可行性,从而把多维时序预测转化为回归算法模型;随着风机的老化、环境的变化等影响,风机发电机温度与其特征变量之间的对应关系也在发生变化,工程中需要定期基于近期数据自动更新预测模型,面对庞大的样本集和多样的异常数据,该文把 iForest(孤立森林,Isolation Forest)算法11-
12、12引入模型训练流程,实现了异常数据剔除的自动化;最后通过多种算法的对比,明确了 2 阶 Ridge 回 归、XGBoost(极 端 梯 度 提 升,eXtreme Gradient Boosting)算法13-14在本场景中的优越性。1摇 基本理论1.1摇 数据集变换本场景的原始数据为时间序列数据集,时序预测是根据前 k 步的数据来预测第 k+1 步至第 k+h 步的值。对此,可以把前 k 步的数据视为自变量 X,第 k+1 第 k+h 步的数据视为因变量 Y,转化为有监督学习数据集,进而使用有监督学习算法。首先,根据业务规律和预测需求确定参数 k 和 h(为简化说明,该文以 h=1 为例做
13、说明)。对于时间序列数据集中相邻的 k+1 个 向量 Xt,Xt+1,Xt+k-1,Xt+k,构建 Xt,Xt+1,Xt+k-1与 Xt+k的子集Yt+k之间的对应关系矩阵,如公式(1)。则对于样本数量为 n 的时间序列数据集,构建出的有监督学习数据集样本数量为 n-k。X1XkX2Xk+1左Xn-kXn-1寅Yk+1Yk+2左Yn摇(1)其中,左侧自变量矩阵中每个 X 元素为 r 维向量(r 逸1),整个矩阵为(n-k)*k*r 的 3D 张量,在利用回归算法构建预测模型时,自变量矩阵需进一步转化为(n-k)*(k*r)的 2D 张量。实际使用中,可根据需要舍弃第 2 k 列,以便简化自变量
14、矩阵;右侧因变量矩阵中每个 Y 元素为 s 维向量(r 逸 s 逸1),整个矩阵为(n-k)*s 的 2D 张量。1.2摇 特征优选算法风机的实时测量值有数百个之多,若把这些数据全用于模型输入,会大大增加建模计算的复杂度,并极易引起过拟合问题。对此需要特征优选,剔除与预测目标弱相关或不相关的特征。考虑到线性关系是非线性关系的特例,该文以风机发电机温度与其特征向量之间为非线性关系为前提,使用 spearman 相关系数15-17和随机森林平均不纯度减少算法18-20为特征优选工具。spearman 相关系数是一种无参数检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另
15、外一个变量的严格单调函数,则 spearman 秩相关系数就是+1 或-1,称变量完全 spearman 秩相关。对原始数据 xi,yi按从大到小排序,记 xi,yi为原始 xi,yi在排序后列表中的位置,xi,yi称为 xi,yi的秩次,秩次差 di=xi-yi,spearman 秩相关系数公式见公式(2)。随机森林平均不纯度减少方法也可用于特征优选,随机森林由多个决策树构成,决策树中的每一个节点都是关于某个特征的条件,为的是将数据集按不同的响应变量一分为二。利用不纯度可以确定节点(最优条件),对于回归算法,通常采用方差或最小二乘拟合。当训练决策树时,可以计算出每个特征减少了多少树的不纯度。
16、对于一个决策树组成的森林来说,可以算出每个特征平均减少了多少不纯度,并把它平均减少的不纯度作为特征选择的指标。籽=1-6移d2in(n2-1)摇(2)其中,n 为样本数量。1.3摇 iForest 数据过滤算法iForest 算法11-12是基于集成学习的快速异常检测方法,属于无监督学习,由多个 iTree(isolation Tree,孤立树)分类器组成,每个 iTree 是一个二叉树结构。在构建 iTree 时,先对数据集 D 随机选取一个特征 f,并在该特征的取值范围内随机选取一个分割点 p,按特征 f 把 D 分割为左右两部分,若 di(f)p,则数据di 被划分在右子树,反之则划分在
17、左子树,循环递归直到每个数据与其他数据完全分割开或达到最大树层次。风电 scada 数据中,异常数据要远少于正常数据,则异常数据会更靠近树的根节点,根据实际数据集中612摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷异常数据的出现机率实现数据过滤。2摇 风力发电机温度时序预测所述优化方法的完整流程如图 1 所示。本节选用风电集控系统中某风场某风机 2021 年 10 月的 125 个遥测量每 10 分钟采样的共计 4 464 条记录为样本数据集,以未来 30
18、 分钟的最高发电机温度最大值为预测目标进行建模。图 1摇 风力发电机温度时序预测方法优化流程2.1摇 原始样本数据集变换先从业务角度出发,选择 2021 年 10 月 1 日到10 日之间的“最高发电机温度最大值冶以及与此紧密相关的“平均风速冶“平均有功功率冶“平均发电机转速冶4 个数据每个整 30 分钟 1 条记录,共计 480 条记录进行数据透视(见图 2,横轴为测点记录序号)和ADF 检验(见表 1)21-22,可知除发电机转速外,其他数据本身非平稳序列,即:本数据集中选取 k 大于 1 的连续多步自变量数据,对因变量的预测精度提升并没有帮助,该文选取 k=1。表 1摇 样本集关键数据
19、ADF 检验时序向量ADF检验值非平稳概率Pvalue 值拒绝原假设ADF 参考值最高发电机温度最大值-2.484 40.119 31%:-3.4465%:-2.86810%:-2.57平均风速-2.6050.091 971%:-3.445 65%:-2.868 310%:-2.570 4平均有功功率-2.055 70.262 71%:-3.445 65%:-2.868 310%:-2.57平均发电机转速-3.2180.019 01%:-3.445 65%:-2.86810%:-2.5702?0001?5001?0005000图 2摇 关键量测值曲线摇 摇 首先,从 125 个遥测特征向量中基
20、于业务背景去除明显与目标无关的特征,比如风向角度、故障累积时长初值等;然后做数据重采样,基于 10 分钟数据集构建 30 分钟数据集,再按照 1.1 节所述的数据集变换方法以 k=1 把 2021 年 10 月 1 日 0 点 0 分 2021 年 10月 31 日 23 点 0 分时间序列样本数据集转换为包含1 487条记录的有监督学习样本数据集。2.2摇 特征优选把数据变换得到的有监督学习样本数据集经spearman 相关系数算法15-17得到特征向量与目标向量之间的相关性见表 2,经随机森林算法得到的特征权重见表 3。712摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 王言国
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 风力发电机 温度 时序 预测 方法 优化
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。