可解释机器学习在油气产量预测中的研究进展.pdf
《可解释机器学习在油气产量预测中的研究进展.pdf》由会员分享,可在线阅读,更多相关《可解释机器学习在油气产量预测中的研究进展.pdf(5页珍藏版)》请在咨信网上搜索。
1、Vol.42 No.10Oct.2023石油化工应用PETROCHEMICAL INDUSTRY APPLICATION第42 卷第10 期2023年10 月可解释机器学习在油气产量预测中的研究进展侯梦瑶,潘晓甜,张春晓,马含含(西安石油大学石油工程学院,陕西西安7 10 0 6 5)【摘要合理进行油气产量预测对实际油气田的开发和生产具有重要的指导作用。近年来,随着人工智能的兴起,机器学习等技术的提出为油气产量的预测提供了新思路。机器学习方法利用收集到的地质、钻完井、生产等多种类型的数据来充分挖掘数据内部的规律,从而进行合理的油气产量预测。虽然机器学习模型因其高精度的结果被应用于许多领域,但复
2、杂的机器学习模型缺乏可解释性和透明度,在一定程度上阻碍了其应用。本文综述了基于机器学习进行油气产量预测的国内外研究现状,并概括了几种常用的可解释方法,详细指出了机器学习方法进行油气产量预测的不足之处,并展望了可解释机器学习模型在该领域的研究趋势与发展方向。【关键词 可解释;机器学习;产量预测中图分类号 TE328D01:10.3969/j.issn.1673-5285.2023.10.002【文献标识码 A文章编号 16 7 3-52 8 5(2 0 2 3)10-0 0 0 5-0 5Research progress of interpretable machine learning in
3、oil and gas production forecastingHOU Mengyao,PA N Xiaotian,ZHANG Chunxiao,MA Hanhan(College of Petroleum Engineering,Xian Shiyou University,Xian Shaanxi 710065,China)Abstract JRational oil and gas production forecasting is an important guide to the develop-ment and production of actual oil and gas
4、fields.In recent years,with the rise of artificial in-telligence,techniques such as machine learning have been proposed to provide new ideas foroil and gas production forecasting.Machine learning methods use a variety of types of datacollected,such as geology,drilling and completion,and production,t
5、o fully explore the in-ternal patterns of the data to make reasonable oil and gas production forecasts.However,while machine learning models are used in many fields for their high accuracy results,thelack of interpretability and transparency of complex machine learning models hinders theirapplicatio
6、n to some extent.This paper reviews the current status of domestic and internation-al research on oil and gas production forecasting based on machine learning,and outlinesseveral commonly used explainable methods,points out in detail the shortcomings of ma-chine learning methods for oil and gas prod
7、uction forecasting,and looks forward to the re-search trends and development directions of explainable machine learning models in this field.Key words Jinterpretable;machine learning;production forecasting*收稿日期:2 0 2 3-0 4-2 8作者简介:侯梦瑶(19 9 9),女,西安石油大学在读研究生。E-mail:6在油田开发过程中,油气产量预测是一项非常重要的工作,合理进行石油产量预
8、测可以有效评估油田的开发潜力,有助于全面认识油藏以及改善油井的工作制度,进而提出相应的发展策略。产量预测方法可以分为基于物理机理的预测方法和基于数据驱动的预测方法。基于物理机理进行建模时,建模方法主要包括解析、半解析及数值模拟方法等。但是,基于物理机理的预测方法在实际应用时存在许多端,比如它对数据的要求很高,但实际所获取的多为一些杂乱数据,若数据处理不完善会对模型预测的准确度影响较大。基于物理机理的传统产量预测方法建模周期长,工作量大,尤其在复杂的地质及工程条件下,预测效果通常会不理想。另外,一些理想化假设的引人与求解方法的复杂程度都限制了物理机理预测方法在现场的应用。为解决上述基于物理机理的
9、传统油气产量预测中存在的问题,研究人员开始利用机器学习等数据驱动方法建立油气产量与储层、压裂等参数之间的模型,从而对油气产量进行合理预测!。虽然机器学习进行油气产量预测的优势很大,但是目前的研究仍存在一定问题。比如模型在训练时需要进行超参数的优化,但是这方面的研究有限。另一方面,由于算法的最小可解释性和黑箱性质,这些先前建立的模型很难被大多数人所理解2。打开黑厘子至关重要 3-4,它可以让工作人员轻松理解机器学习的内部逻辑 5-,进一步从各个方面来分析影响因素的作用规律。本文就以上问题调研了基于机器学习建立产量预测模型的方法,并详细介绍了几种可解释分析方法。1基于机器学习的油气产量预测研究现状
10、WANG等 7 在2 0 19 年开发了一种综合数据挖掘方行油气产量预测之后,可以利用XAI工具提高机器学作者时间随机森林、支持SCHUETTER J 等(9)2018LUO Cuofan 等(i0l2019谷建伟等川2020马先林等 122022石油化工应用用2 0 2 3 年法来评价加拿大西部沉积盆地Montney组的油井生产动态,定性和定量的评价了增产参数与第一年产油量之间的关系。此外,比较了四种常用的监督学习方法,包括随机森林(RF)自适应增强(AdaBoost)支持向量机(SVM)和神经网络(NN),以估计第一年的井产量。并且采用递归特征消去交叉验证(RFECV)确定了影响非常规油藏
11、第一年采油的最重要因素。研究发现,最终确定用来建立准确预测模型的重要变量为:井纬度、经度、井垂深、单井泵人支撑剂、井横向长度和单井注人流体,与其他机器学习方法相比,RF的预测性能最好。LI等18 在2 0 2 0 年对陵页岩气田主区块地质和裂缝工程数据采用了一种新的分段产量预测方法。对三种机器学习方法,包括支持向量回归(SVR)核脊回归(KRR)和随机森林(RF)进行了训练和测试。在进行模型训练前,先使用偏相关分析和递归特征消除方法,对自变量进行处理以选出最佳参数,即层数、40/7 0 目低密度陶粒、支撑剂总体积、砂比、簇数和簇间距。结果表明,RF的均方根误差最小,即预测精度最高。另外,该研究
12、在进行水力压裂处理前,利用局部依赖图成功地优化了地质和裂缝工程参数,这在一定程度上也提高了预测精度。近几年来学者们基于机器学习建立油气产量预测的一些研究见表1。然而,尽管一系列研究表明基于机器学习的数据驱动方法可以很好的进行油气产量预测 3-15,但其所建立的大多数预测模型都是黑盒子模型,这就意味着人们很难理解模型的行为和思维过程。在进行油气产量预测时,通过可解释分析有助于理解模型内部的预测机制,由此来给开发者一些意见。实际上,可解释人工智能(Explainable Artificial Intelligence,XAI)已成为智能油田一个新兴研究领域,在使用机器学习方法进表1基于机器学习的油
13、气产量预测技术研究方法研究内容建立生产指标的向量回归、梯度对比训练集数据、单个验证数据集和k倍交叉验证的结果,得出k倍预测模型增强机器等随机森林、深度神经网络Lasso算法梯度提升树、随机森林等第42 卷研究成果进行变量重要性分析以获得对系统性能关键驱动因素的可靠评估。交叉验证的效果最佳预测6 个月的所建立的非线性模型在预测能力方面表现较好,另外,地质和完井参累计石油产量数在预测中都是至关重要的利用Lasso算法选出解释能力强的主成分,理解影响参数与油田产量预测油田产量之间的关系,提高模型的可解释性,而且整体预测效果良好,精度较高预测水平井产量梯度提升树模型预测精度最高,使用SHAP方法进行可
14、解释分析得出与可解释分析储层段长和排量是影响产量的最关键因素第10 期习的可解释性、公平性和透明度。2可解释方法概述2.1建建模前的可解释建立模型之前的可解释性主要包括数据分析和特征工程。数据分析是开展可解释性分析的第一步,可以通过变量相关性分析、数据可视化等工作对数据进行详细的了解,这是开展后续工作的基础。特征工程包括数据预处理、特征构造和特征选择。特征工程是从数据中提取有效的特征,作为模型的输人,从而提高模型的预测精度。数据预处理包括数据清洗和不平衡数据处理等工作。特征构造是通过对原始特征进行加工、组合来生成新的特征。特征选择是因为当特征维度很大时不但会使得模型难以训练,又容易导致过拟合。
15、2.2建模中的可解释建模时所用到的模型中有一类其本身是可解释的,称为自解释模型。这类模型通常结构简单,容易理解,传统的自解释模型包括线性模型、逻辑回归、朴素贝叶斯等。但在实际应用时,为了提高预测精度,通常会使用黑盒子模型进行预测。针对黑盒子模型,可以使用代理模型的方法进行解释,即使用可解释的模型来模仿黑盒子的行为,尽量做到在保证预测精度的基础上降低模型复杂度。2.3建模后的可解释大多数候选模型不被认为是内在可解释的,此类模型通常被称为黑盒子模型。各个领域的研究人员开发了多种XAI工具,以帮助理解基于人工智能(AI)的黑盒子模型。对于已经建立好的黑盒子模型进行解释,也就是理论界常说的建模后的可解
16、释,主要用来理解这些特征是如何影响预测结果的。建模后的可解释可以分为全局与局部解释性两大类型7。借助全局可解释性能够清晰的了解模型的内在逻辑和运行机制,同时还可以将参数和学习形式以最简单的方式进行展示。借助这种解释方法可以很好的认识模型学习的具方法全局/局部部分依赖图(PDP)18)全局个体条件期望(ICE)1g)局部累计局部效应(ALE)20)全局特征重要性全局侯梦瑶等可解释机器学习在油气产量预测中的研究进展体过程。根据数据样本学习到的具体内容制定具体形式的对策等。对于局部可解释性来说,可以据此了解模型对于特定的输入而做出决策的细节过程,也可以从中知道具体特征对于预测结果具有何种贡献。这部分
17、主要运用模型无关的解释方法,接下来详细介绍一下SHAP和LIME两种方法,其余几种常用的方法见表2。2.3.1SHAPSHAP是一种基于博奔论的方法,是一类加性解释模型,用于描述机器学习模型的性能。为了产生一个可解释的模型,SHAP使用了一种加性特征属性方法,即输出模型被定义为输人变量的线性相加,所有特征的贡献值的和即为模型的最终预测。SHAP用以下公式定义:e(2)=4o+Z/l9,)式中:。-预测模型在数据集上的平均预测值,即SHAP值;,-特征j对样本z的贡献值;z-联合向量,即特征存在(z=1)或不存在(z=0);M-输入特征数量。三特征的示意流程图见图1,红色表示特征是正贡献作用,蓝
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 可解释 机器 学习 油气 产量 预测 中的 研究进展
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。