基于EEMD的固定分段数分段线性表示方法.pdf
《基于EEMD的固定分段数分段线性表示方法.pdf》由会员分享,可在线阅读,更多相关《基于EEMD的固定分段数分段线性表示方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、收稿日期:2023-01-08摇 摇 摇 摇 摇 摇 修回日期:2023-05-10基金项目:山东省自然科学基金资助项目(ZR2019PEE013)作者简介:刘学彬(1997-),男,硕士研究生,CCF 会员(O1349G),研究方向为时间序列数据挖掘;通讯作者:祝摇凯(1988-),男,博士,副教授,研究方向为信号处理、机器学习、多模态数据融合。基于 EEMD 的固定分段数分段线性表示方法刘学彬1,梁智飞2,朱卫平2,祝摇 凯1*(1.青岛理工大学 信息与控制工程学院,山东 青岛 266000;2.中石油煤层气有限责任公司,北京 102200)摘摇 要:针对采用单一启发式规则的分段线性表示方
2、法存在局部最优化和无法准确预计分段数目的问题,提出了基于集合经验模态分解(EEMD)的固定分段数分段线性表示方法。该方法通过将集合经验模态分解和重构思想引入分段线性表示方法研究中,同时将自底向上算法的拟合误差阈值改进为分段数阈值来解决上述两个问题。首先,通过模态重构思想过滤掉细节信息,提取到全局性分段点;然后,根据各初始分段子序列的波动程度,确定子序列段内分段点数量分布;最后,采用基于分段数阈值的自底向上方法将子序列合并到要求的分段数。该方法不仅继承了自底向上方法拟合误差小的优点,同时克服了局部最优化以及不能预计分段数的缺点。通过仿真实验证明了该方法克服了局部性的缺点,并有效减弱了噪声的干扰。
3、相比现有方法,在压缩率相同的情况下,该方法的拟合误差更小。最终,在压裂施工时序数据趋势提取的应用中也验证了其有效性。关键词:时间序列;分段线性表示;集合经验模态分解;模态重构;符号化;自底向上中图分类号:TP391摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)11-0202-07doi:10.3969/j.issn.1673-629X.2023.11.030Piecewise Linear Representation Algorithm of Fixed SectionNumber Based on EEMDLIU Xue-bin1
4、,LIANG Zhi-fei2,ZHU Wei-ping2,ZHU Kai1*(1.School of Information and Control Engineering,Qingdao University of Technology,Qingdao 266000,China;2.Petrochina Coalbed Methane Company Limited,Beijing 102200,China)Abstract:Aiming at the problems of local optimization and inability to accurately predict th
5、e number of segments in the piecewise linearrepresentation method using a single heuristic rule,a piecewise linear representation method with a fixed number of segments based on En鄄semble Empirical Mode Decomposition(EEMD)was proposed.This method introduces the idea of ensemble empirical modedecompo
6、sition and reconstruction into the research of piecewise linear representation method,and at the same time improves the fittingerror threshold of the bottom-up algorithm to the threshold of piecewise number to solve the above two problems.Firstly,the detail infor鄄mation is filtered out by the idea o
7、f modal reconstruction,and the global segmentation point is extracted.Then,the distribution of thenumber of segmentation points in the subsequence is determined according to the fluctuation degree of each initial segmentationsubsequence.Finally,a bottom-up method based on the number of segments thre
8、shold is used to merge the subsequences into therequired number of segments.This method not only inherits the advantages of small fitting error of the bottom-up method,but alsoovercomes the shortcomings of local optimization and unpredictable number of segments.The simulation experiment proves that
9、theproposed method overcomes the shortcoming of locality and effectively weakens the interference of noise.Compared with existingmethods,the fitting error of the proposed method is smaller when the compression rate is the same.Finally,its effectiveness is alsoverified in the application of time seri
10、es data trend extraction of fracturing construction.Key words:time series;piecewise linear representation;ensemble empirical mode decomposition;mode reconstruction;symbolization;bottom-up第 33 卷摇 第 11 期2023 年 11 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇
11、Vol.33摇 No.11Nov.摇 20230摇 引摇 言由于时间序列是高维且存在大量噪音的,直接在原始序列上进行预测、模式发现和分类等挖掘任务的效率较低,同时也会影响挖掘结果的精度和可信度。因此,使用特征表示方法将时间序列从高维度转换到低维度,这种方法可以在降低时间序列复杂度的同时,保留时间序列的主要信息,为进一步深入研究时间序列奠定基础1。目前国内外有不少学者致力于时间序列特征表示方法的研究,时间序列特征表示方法的主要代表有:基于域变换的表示方法(离散傅里叶变换2和离散小波变换3;符号化表示方法,其中应用最广泛的是符号聚合近似方法4-5;分段累计近似方法6和分段线性表示(Piecewis
12、e Linear Representation,PLR)7。其 中PLR 具有简单、直观的特点,能够有效保留原序列的形态信息以减少拟合误差,是一种应用广泛的时间序列特征表示方法。因此,该文着眼于分段线性表示方法的研究和改进。目前,PLR 的研究主要集中于解决分段数和分段点的选择问题上。为了解决这些问题,时序的分段表示方法可以分为以下几种:(1)限制分段数:主要代表是分段累计近似方法,但该方法没有考虑实际序列形态,不能很好地保留原始序列特征;(2)限制分段误差:主要代表性算法有自顶向下8、自底向上9、滑动窗口10。限制分段误差方法对一些状态变化的拐点不敏感,不能保证每一分段只具有一种基本趋势。针
13、对上述问题,近年来不少学者提出了一些改进方法。例如,尚福华11和廖俊12提出基于趋势转折点的分段线性表示方法;陈帅飞13提出基于关键点的分段线性表示方法;刘意杨14提出基于转折点和趋势段的分段线性表示方法等。但是,这些方法使用单一的启发式规则,难以适用于数据分布复杂的时间序列,进而导致算法出现局部最优化问题,而且不能灵活控制压缩率,不能适应后期要求分段数一定的应用15。针对上述方法存在局部最优化和不能预计分段数的问题,提出了基于 EEMD 的固定分段数分段线性表示方法。首先,通过模态重构思想过滤掉细节信息,提取到全局性分段点;然后,根据各初始分段子序列的波动程度,确定子序列段内分段点数量分布;
14、最后,采用基于分段数阈值的自底向上方法将子序列合并到要求的分段数。1摇 分段线性表示相关概念及问题描述1.1摇 分段线性表示相关概念定义 1(拟合误差):时间序列 X=x1,x2,xn经过分段线性表示方法得到时间序列的分段线性表示为 XPLR。XPLR经过线性插值得到的时间序列记为 XC=xc1,xc2,xcn,分段线性表示与原始时间序列之间的拟合误差为:E=移ni=1(xi-xci)2(1)定义 2(压缩率):原始时间序列 X=x1,x2,xn,给定其分段线性表示 XPLR=xp1,xp2,xpd,其中x1=xp1,xn=xpd。则时间序列分段线性表示后的压缩率Cr 可以表示为:Cr=(1-
15、dn)伊 100%(2)定义3(重要点序列):给定时间序列 X,定义 X 的第 q 个重要点为 xZq=xpq,其中 pq沂 1,2,n 表示第 q 个重要点在时间序列 X 中的位置,xpq满足以下关系16:xpq-1臆 xpq 疑 xpq+1 xpq 胰 xpq-1 xpq 胰 xpq-1 xpq 疑xpq+1逸 xpq(3)此外,规定一个有限长度的时间序列起点和终点为重要点。由式(3)得到 m 个重要点,则重要点序列表示为:XZ=xzqmq=1(4)1.2摇 问题描述传统的算法采用单一的启发式规则提取局部特征点,当原始时间序列波动频率较为剧烈且集中时,容易出现多个点的斜率变化近似。时间序列
16、如图 1 所示。图 1摇 斜率波动频繁剧烈的情况图 1 中序列点 a,b,c,d,e,f 点斜率变化近似,当通过调节斜率变化阈值 d 使得达到要求的压缩率时,会出现临界阈值,如下:tanaL-tanaR d,tanbL-tanbR dtancL-tancR d,tandL-tandR dtaneL-taneR d其中,下标 L 表示左,R 表示右。由上述公式和图 1知,c,d 两点作为反映序列整体趋势的特征点因斜率302摇 第 11 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 刘学彬等:基于 EEMD 的固定分段数分段线性表示方法变化小而“漏提取冶,即分段方法的结果遗漏掉能够反映整体特征的数
17、据点;由此可认为,b,e 两点为“过提取冶,即分段方法的结果提取到不能反映整体特征的数据点,导致算法陷入局部最优化。2摇集合经验模态分解和改进的自底向上分段2.1摇 集合经验模态分解Huang17提出了经验模态分解(Empirical ModeDecomposition,EMD)。该方法的核心思想是将复杂的信号分解为有限个频率从高到低的本征模态函数(Intrinsic Mode Functions,IMF),对 于 某 时 间 序 列x(t)经验模态分解的具体步骤如下:(1)求出 x(t)中所有的极值。(2)采用 3 次样条函数进行插值拟合上包络线bmax(t)和下包络线 bmin(t)。(3
18、)计算上下包络线平均值 m(t):m(t)=bmax(t)+bmin(t)(5)(4)从时间序列中提取均值并将 x(t)和 m(t)的差定义为:d(t)=x(t)-m(t)(6)(5)检查 d(t)的属性:如果满足 IMF 分量条件,则将 d(t)表示为第 k 个 IMF,并将 x(t)替换为残差r1(t)=x(t)-d(t)。第 k 个 IMF 分量通常表示为ck(t);如果不满足,则将 x(t)替换为 d(t)。(6)重复步骤(1)(5)直到残差为单调函数为止。原始时间序列可以表示为若干个 IMF 和一个残差的线性组合:x(t)=移Nk=1ck(t)+r(t)(7)其中,x(t)表示 1
19、维信号;ck(t)表示第 k 个 IMF 分量;r(t)表示残余。当时间序列的时间尺度呈现跳跃性时,采用 EMD对其进行分解,将会产生一个 IMF 分量包含不同时间尺度特征成分的情况,这种现象被称为模态混叠18,它使得 EMD 得到的分解结果的可靠性和可解性受到影响。Wu18提出了集合经验模态分解(EnsembleEmpirical Mode Decomposition,EEMD)解决这一问题。基本思想是将不同白噪声多次加入原始时间序列以消除模态混叠现象。如图 2(a)所示,对 1 组示例时间序列进行 EEMD分解,得到了 6 个 IMF 分量和 1 个 RES 残余,如图 2(b)所示。2.
20、2摇 IMF 重构Zhang 等人19采用 EEMD 技术来分析石油价格(a)示例时间序列(b)EEMD 分解结果图 2摇 示例时间序列集合经验模态分解变化。他们发现,经本征模态函数重构后的序列可以很好地反映序列的关键转折点和整体趋势变化。基于这项研究,该文使用 EEMD 技术对时间序列进行分解,并将分解得到的 IMF 分为高频部分、低频部分和残余。前两个成分能够揭示时间序列所蕴含的物理意义,并发现时序的一些新特征。对 EEMD 分解得到的N 个 IMF,求出每个 IMF 的平均值,得到用于分解高频和低频分量的 K 函数。以图2(a)的时间序列为例,构建的 K 函数及高、低频和残余分量如图 3
21、 所示。(a)分解高频和低频分量的 K 函数(b)原始时序和 3 个分量图 3摇 K 函数及对应的 3 个分量402摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷由图 3(a)知,在 IMF5 处,平均值开始偏离零点,因此使用 IMF1 IMF4 的部分重构表示高频分量,使用 IMF5 和 IMF6 的部分重构表示低频分量,残余单独处理。图 3(b)显示了原始时间序列和 3 个分量。残余反映时间序列长期缓慢变化;低频分量的每次急剧上升或下降可能对应 1 个物
22、理事件或是某种程度上的噪声表征;而高频分量通过去除大量的小幅波动使得可以反映时间序列的整体变化趋势。下面给出模态重构序列的定义。定义 4(模态重构序列):对于某时间序列 X,对 X进行 EEMD 分解得到 N 个 IMF,定义参与重构的起始IMF 索引为 s,终止索引为 e,重构序列 XR表示为:XR=xrini=1=移ek=sIMFk(8)在高频分量基础上,提取全局特征点,实现时间序列的初始分段。定义 5(全局特征点序列):对于某时间序列 X,得到重构序列 XR=xRini=1,对 XR使用式(3)得到 M 个全局特征点,则全局特征点序列可以表示为:XRZ=xrzwMw=1(9)根据上式,对
23、图 3(b)中的高频分量提取全局特征点,实现时间序列的初始分段。由图 4 知,原始时间序列被全局特征点分割为 12段子序列,每段子序列都保持整体上升、下降、保持三种基本趋势,有效去除大量小幅波动,反映时间序列整体变化趋势。图 4摇 全局特征点初始分段2.3摇 时间序列符号化假设在序列中需要查找 N 个分段点,上节已提取了 M 个全局特征点,并将原时间序列分成了 M+1 个初始段。接下来,采用廖俊12提到的时间序列点间的模式变化提取剩下的 N-M 个分段点,如图 5 所示。为了反映时间序列内的模式变化,将所有时间序列数据点符号化20。在时间序列 X 中,给定某一序列点 xj,然后分别用前一点 x
24、i和后一点 xk与该点做差分,即 xk-xj=Q 和 xj-xi=P。具体步骤如下1:(1)当符合模式 7 和 8(P*Q 啄 或Qk-j 啄,用“1冶表示该序列点。(2)当符合模式 1 到模式 6(P*Q 逸 0)时,相邻的 左 右 点 位 于 xj不 同 端,如 果 符 合 条 件:Qk-j-Pj-i 啄,用“1冶表示该数据点。(3)将不符合上述条件的点用“0冶表示。(4)遍历整个序列,得到符号化序列。图 5摇 时间序列 3 点之间的模式变化其中 啄 为自定义阈值,将所有符号化的子序列分别求和,存入 Hi中,得到长度为 M+1 的序列:H=H1,H2,HM+1,通过以下公式:Ni=(N-M
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 EEMD 固定 分段 线性 表示 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。