基于无监督学习的抽油机井示功图自动聚类与批量标注方法.pdf
《基于无监督学习的抽油机井示功图自动聚类与批量标注方法.pdf》由会员分享,可在线阅读,更多相关《基于无监督学习的抽油机井示功图自动聚类与批量标注方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 19 卷 第 1 期2024 年 1 月Vol.19 No.1Jan.2024中 国 科 技 论 文CHINA SCIENCEPAPER基于无监督学习的抽油机井示功图自动聚类与批量标注方法王相1,邵志伟1,张雷2,张中慧2,肖姝2(1.常州大学石油与天然气工程学院,江苏常州 213000;2.中国石化胜利油田分公司石油工程技术研究院,山东东营 257015)摘 要:为充分利用大量未标注样本、节约人力与时间,提出了基于无监督学习的抽油机井示功图自动聚类与批量标注方法。首先,将抽油机驴头往复运动产生的位移、载荷数据转化为示功图图片样本,其中,示功图的横坐标为位移,纵坐标为载荷;其次,加载在Im
2、ageNet上训练过的带有一系列权重参数、具有强特征提取能力的卷积神经网络模型;然后,去除该网络模型的全连接层,利用该网络模型提取示功图图片样本的特征;最后,利用k-means聚类算法对提取到的特征进行聚类分析,将具有相似特征的示功图聚到同一文件夹中。批量的对示功图聚类结果进行快速标注,从而形成抽油机井故障诊断的示功图样本集。实验随机搜集了100口抽油机井的20 000条示功图数据,结果表明,基于无监督学习的抽油机井示功图自动聚类与批量标注方法耗时短、准确率高,为示功图样本集标注提供了一种高效方法,对于充分挖掘油田大数据的应用价值具有示范意义。关键词:抽油机;示功图;故障诊断;k-means聚
3、类;样本标注中图分类号:TE355 文献标志码:A文章编号:2095-2783(2024)01-0063-07开放科学(资源服务)标识码(OSID):Automatic clustering and batch marking method for indicator diagram of pumping well based on unsupervised learningWANG Xiang1,SHAO Zhiwei1,ZHANG Lei2,ZHANG Zhonghui2,XIAO Shu2(1.School of Petroleum and Natural Gas Engineering
4、,Changzhou University,Changzhou,Jiangsu 213000,China;2.Sinopec Shengli Oilfield Branch Petroleum Engineering Technology Research Institute,Dongying,Shandong 257015,China)Abstract:In order to make full use of a large number of unmarked samples and save manpower and time,an automatic clustering and ba
5、tch marking method for indicator diagram of pumping well based on unsupervised learning was proposed.First,the displacement and load data generated by the reciprocating motion of the pumping unit horsehead were converted into the sample of the indicator diagram,where the abscissa of the indicator di
6、agram was the displacement and the ordinate is the load.Secondly,the convolution neural network model with a series of weight parameters and strong feature extraction ability that had been trained on ImageNet was loaded.Then,the full connection layer of the network model was removed,and the network
7、model to extract the characteristics of indicator diagram image samples was used.Finally,k-means clustering algorithm was used to cluster the extracted features and cluster the indicator diagrams with similar features into the same folder.Batch of indicator diagram clustering results were quickly ma
8、rked to form a sample set of indicator diagrams for fault diagnosis of pumping wells.Twenty thousand indicator diagram data from 100 pumping wells were randomly collected.The results show that the automatic clustering and batch marking method for indicator diagram of pumping well based on unsupervis
9、ed learning is time-efficient and highly accurate.This method provides an efficient method for indicator sample set marking,which has exemplary significance for fully mining the application value of oilfield big data.Keywords:pumping well;indicator diagram;fault diagnosis;k-means clustering;sample m
10、arking抽油机是石油开采的主要工具1,抽油机井的故障诊断是石油勘探开发领域的关键问题之一,示功图2由抽油机工作时的一系列位移和载荷样本点组成,是抽油机井故障诊断的关键依据。近年来,由于机器学习技术的飞速发展,深度学习逐渐被广泛应用于抽油机井的故障诊断,卷积神经网络、BP神经网络、支持向量机等监督学习方法都被用于油井故障诊断方法的研究。传统的基于监督方式的抽油机井故障诊断技术,是对收集到的示功图样本一一进行人工标注,然后将标注好的数据收稿日期:2023-05-04基金项目:国家自然科学基金资助项目(52204027);江苏省研究生科研与实践创新计划项目(KYCX23_3146)第一作者:王相
11、(1989),男,副教授,主要研究方向为石油工程大数据及人工智能,第 19 卷 中 国 科 技 论 文集送入模型训练,再利用训练好的模型进行工况诊断。监督方式的工况诊断方法涵盖的故障类型大多在几种至十几种,示功图样本集大多在上千张至1万多张3-6。各种监督学习算法都被尝试用于示功图故障诊断并不断得到优化。这类方法依赖于样本数量,样本量越大、覆盖的故障类型越多,诊断越准确、效果越好。然而人工标注样本需要耗费大量人力与时间,因此普遍存在示功图样本数量少、故障诊断类别少的问题,导致模型泛化能力差。在油田的实际应用场景中,未标注样本远远多于已人工标注的样本。以胜利油田数据中心7为例,该油田共有2万多口
12、抽油机井,每口井每30 min采集1次位移载荷数据,每天有百万余条这类数据传入油田数据中心,而监督学习只对其中很少一部分数据进行标注、训练,从而造成了数据资源的巨大浪费。无监督学习中的聚类分析方法8能够利用计算机实现大量无标注数据资源的自动划分,聚类分析充分利用了大量无标注样本,被逐渐应用到各领域中,同时节约了大量人力与时间,如大学生体质数据聚类9、葡萄霜霉病检测分级10、火山地震的波形分类11。针对抽油机井故障诊断中大量无标注样本未被充分利用且样本标注耗费了大量人力与时间的问题,本文提出基于无监督学习的抽油机井示功图自动聚类与批量标注方法。研究结果也证明了该方法对于示功图快速标注的有效性、高
13、效性,为示功图标注节约了大量人力与时间。1示功图图像特征提取1.1标准化示功图绘制绘制示功图是提取图像特征的前提。基于油田信息化建设成果,井下传感器不断采集的抽油机位移载荷实时数据不断传入油田数据中心,形成了抽油机井故障诊断的大数据12体系。根据示功图判断某抽油机井的故障类别,首先需要从油田数据库抓取出某一时间段内该油井的抽油机位移载荷数据,见表1,为某油田2021年7月10日某1口井的部分位移载荷数据。然后,对抓取的数据集作预处理操作。因为组成示功图的位移和载荷缺一不可,所以如有位移(W)或载荷(Z)缺失的,则删除整行数据。通常,位移和载荷中的异常数据反映出示功仪监测到不同类型的故障。例如,
14、在图 1 中,异常现象表明示功仪监测到了载荷突变。由于在实际应用中需要监测这些情况,因此选择不对数据中的异常值进行处理。借助 Python 作为绘图工具,以位移为横坐标,载荷为纵坐标,为避免引起工况类别的误判,需绘制大小统一且标准化的示功图。示功图大小为100像素50像素,宽高比为2 1,纵轴取值范围限制在 0,max Z+(max Z-min Z)0.1,横轴取值范围限制在 minW,maxW13,示功图的标准化可避免因最大载荷和最小载荷差距小、示功图却饱满地占据整个工况卡片而导致的工况类别误判情况。1.2基于卷积神经网络的特征提取方法不同于传统的基于示功图图像像素矩阵或以传感器采集原始数据
15、作为示功图特征的方法,本文提出一种基于卷积神经网络的示功图特征提取方法,模拟视觉神经过程从示功图图像中自动提取特征。卷积神经网络14是在近些年兴盛起来、受到了各界普遍关注和探讨的一种高效识别方法。卷积层是卷积神经网络的核心15,由每一个卷积的运算核所构成,也可以叫作特征提取层,主要用来学习获取表1位移载荷数据Table 1Displacement load data采集时间2021-07-10 00:00:332021-07-10 00:30:332021-07-10 01:00:33位移/m 0,0.006,0.018,0.036,0.062,0.095,0.131,0.174,0.220,
16、0.266,0.304,0.250,0.207,0.161,0.118,0.085,0.057,0.026,0.013,0.0120,0.006,0.018,0.036,0.062,0.095,0.131,0.174,0.220,0.266,0.304,0.250,0.207,0.161,0.118,0.085,0.057,0.026,0.013,0.0120,0.006,0.018,0.036,0.062,0.095,0.131,0.174,0.220,0.266,0.304,0.250,0.207,0.161,0.118,0.085,0.057,0.026,0.013,0.012载荷/kN
17、 41.320,43.110,45.350,47.830,50.720,52.760,53.860,54.030,54.030,54.140,38.670,38.670,38.730,38.730,38.900,39.680,40.140,40.140,40.510,40.510 41.120,42.790,44.980,47.430,50.460,52.620,53.860,53.970,54.060,54.200,38.810,38.810,38.610,38.610,38.670,39.440,39.990,40.050,40.450,40.510 41.260,42.990,45.07
18、0,47.520,50.460,52.680,53.800,53.950,53.970,54.030,38.930,38.930,38.700,38.550,38.550,39.300,39.990,40.140,40.630,40.680图1载荷突变异常Fig.1Load transient64王相,等:基于无监督学习的抽油机井示功图自动聚类与批量标注方法第 1 期图像中的特征,并且卷积运算核中的特征权重值也可以自动进行学习和更新。近年来,卷积神经网络被广泛运用于攻击检测16-17、易发性评估18、流体识别19等。ImageNet数据集是深度学习领域中图像分类、检测、定位的最常用数据集之一。
19、ImageNet数据集中的图像类别有几万种,如animal、flower、fruit、person 等。20102017 年,ILSVRC(imagenet large scale visual recognition challenge)大赛从ImageNet数据集中抽取样本。该比赛诞生了 AlexNet(2012)、VGG(2014)、ResNet(2015)等深度学习网络模型。卷积神经网络在ImageNet数据集上学习过上千种物体的基本特征后,形成了带权重参数的预训练卷积神经网络模型20,具有强大的特征提取能力。MobileNetV221模型是由Google于2018年提出的,相对于Mo
20、bileNetV1,精确度更高,模型更小。利用MobileNetV2预训练卷积神经网络模型提取示功图的特征,示功图的局部特征被映射到不同的神经元,再综合形成全局的信息,最终转化为一系列能够区分示功图类别的数字指标特征向量。本文所提方法充分利用了卷积神经网络的特征提取能力,为了专注于特征提取而非分类能力,移除了 MobileNetV2 预训练卷积神经网络模型的分类层,并利用该模型提取示功图的特征。该方法能自动学习提取示功图特征,无需手动设计特征提取算法。预训练的神经网络模型可直接应用于新的图像分类、目标检测等任务,无需重新训练特征提取器。此外,该方法可学习到高维的示功图特征表示,以更全面地描述示
21、功图的特征。在特征提取之前,必须先对读取的示功图进行归一化处理。归一化是一种数据处理方式,能将数据经过处理后限制在 0,1 范围内。数据归一化后,最优解寻优时的波动会明显减小,收敛速度会更快,方法如下所示(假设是第i列)。x=xi-min()ximax()xi-min()xi。(1)式中:x为归一化后的特征参数;xi为原始特征参数;max(xi)为最大值;min(xi)为最小值。图像输入是转为向量(矩阵)输入的,而三通道图像则是指 RGB图像,比如蓝色为(0,0,255)。四通道图像则是在三通道图像上增加了 Alpha通道,Alpha代表了该像素的透明度,当Alpha为0时代表该像素完全透明,
22、当Alpha为255时代表该像素完全不透明。一张三通道图像代表了一个三维数组,每个像素点的值都在 0,255 之间,归一化后每个像素点在0,1。如一张图像展平后为 255,255,255,255,255,255,归一化后为 1,1,1,1,1,1。对示功图(100503)进行预处理,使图片大小一致,读入图片数据集,展平、归一化使运算收敛速度更快。输入图像进入卷积层,MobileNetV2会将示功图的特征维度变换为421 280,最后再经过一次维度变换得到110 240的特征。该特征提取过程如图2所示。2基于k-means的示功图标注方法采用k-means聚类22算法对预训练卷积神经网络模型提取
23、的特征向量进行聚类,具有相似特征的示功图被自动聚到同一类中,然后对示功图样本集的工况类别进行批量标注。2.1k-means基本原理聚类23主要是指通过从数据中找到可以描述其相互关联或区分的信息,从而对数据进行分类。类内相似性越大,表明类间差异越大,聚类效果就越好。也就是说,聚类的主要任务是达到类内的高相似度和类间的低相似度,使得类间的距离尽可能大,类内样本和类中心之间的距离尽可能小。基于划分的方法是一种最常用的聚类方法24,将所有对象分为互斥的集群进行聚类,每个对象属于一个集群,其目的是为了降低集群之间的相似度,使得集群内的相似程度更高,基于划分的常用算法有 k-means、k-medoids
24、、k-prototype等。k-means聚类统计数据对象图2基于MobileNetV2的示功图特征提取过程Fig.2Feature extraction process of indicator diagram based on MobileNetV265第 19 卷 中 国 科 技 论 文与集群质心的距离,与质心相近的数据对象划分到同一集群中。k-means算法的具体步骤:1)指定k个初始质心,每个质心为一类。2)对于剩余的每个样本,统计它们与所有质心的距离,然后将它们归入最近的集群中。3)划分结束后,重新计算各个类的质心,再统计各个样本到各类质心的距离,对每个样本重新分类。4)重复步骤2
25、)和步骤3),直到质心不再改变。k-means聚类的计算原理简单、容易实现,且运算效率高,另外,因为聚类结果易解释,所以可用于多维数据的聚类。但是不同的聚类中心可能会产生不同的聚类结果,必须克服初始聚类中心的选择对聚类结果产生的负面影响,使初始聚类中心之间的相互距离尽可能远,采用 k-means+算法进行优化。k-means+算法的具体步骤:1)在样本集X中随机选定1个样本为第一初始聚类中心a1。2)计 算 其 他 样 本x到 最 近 聚 类 中 心 的 距离D(x)。3)计算所有样本成为下一个聚类中心的概率P(x),计算公式为:P(x)=D()x 2xX D()x 2。(2)4)选择最大概率
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 监督 学习 抽油机 示功图 自动 批量 标注 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。