基于随机森林算法的油气层敏感性损害预测.pdf
《基于随机森林算法的油气层敏感性损害预测.pdf》由会员分享,可在线阅读,更多相关《基于随机森林算法的油气层敏感性损害预测.pdf(8页珍藏版)》请在咨信网上搜索。
1、DOI:10.12358/j.issn.1001-5620.2023.04.002基于随机森林算法的油气层敏感性损害预测盛科鸣1,蒋官澄2(1.中国石油大学(北京)人工智能学院,北京102249;2.中国石油大学(北京)油气资源与探测国家重点实验室中国石油大学(北京)石油工程教育部重点实验室中国石油大学(北京),北京102249)盛科鸣,蒋官澄.基于随机森林算法的油气层敏感性损害预测 J.钻井液与完井液,2023,40(4):423-430.SHENGKeming,JIANGGuancheng.Predictionoffourkindsofsensibilitydamagestohydroca
2、rbonreservoirsbasedonrandomforestalgorithmJ.Drilling Fluid&Completion Fluid,2023,40(4):423-430.摘要储层损害贯穿在油气田勘探开发的各个时期,其种类繁多、损害机理十分复杂。传统岩心流动实验评价储层敏感性的结果可靠,但岩心获取成本高、投入时间和成本大。调研和实践表明,利用神经网络、随机森林等算法基于小规模样本建立的模型可以实现对样本的预测,节约时间和经济成本。基于 X 区块敏感性室内评价小规模样本资料,选择训练集及测试集,深入对比了 BP 神经网络算法、径向基函数神经网络算法、随机森林算法,优选出随机森林
3、算法作为储层敏感性损害定量诊断的主要方法,采用网格搜索等算法进行了超参数优化、根据因素权重对数据进行降维,以此提高预测精度,搭建了完整的模型。4 种损害模型的 R2平均值为 0.852,预测精度在 90.00%95.68%。关键词储层敏感性预测;油气人工智能;随机森林;神经网络;相关性分析中图分类号:TE258文献标识码:A文章编号:1001-5620(2023)04-0423-08PredictionofFourKindsofSensibilityDamagestoHydrocarbonReservoirsBasedonRandomForestAlgorithmSHENGKeming1,JI
4、ANGGuancheng2(1.College of Artificial Intelligence,China University of Petroleum(Beijing),Beijing 102249;2.State Key Laboratory of Petroleum Resources and ProspectingMOE Key Laboratory of Petroleum EngineeringChina University of Petroleum(Beijing),Beijing 102249)AbstractManykindsofhydrocarbonreservo
5、irdamageswithcomplexmechanismshavebeenencounteredineveryphaseofoilandgasfieldexplorationanddevelopment.Conventionalcoreflowtestusedinevaluatingthesensibilitydamageofareservoircangivereliabletestresults,however,thistestisbothexpensive(coring,forinstance)andtimeconsuming.Researcheshaveshownthatamodele
6、stablishedwithneuralnetworkandrandomforestalgorithmonsmall-scalesamplescanbeusedtosavetimeandmoneyinpredictingthepropertiesofsamples.Inthisstudy,thedataofasetofsmall-scalesamplestestedinlaboratoryisobtainedfromtheblockX.Thetraining-setsandtesting-setsarethenselectedonthesamples.Byextensivelycomparin
7、gtheresultsofthreealgorithms,whicharetheBPneuralnetworkalgorithm,theradialbasisfunctionneuralnetworkalgorithmandtherandomforestalgorithm,therandomforestalgorithmisfinallyselectedasthemainmethodofquantitativelydiagnosingthesensitivitydamageofhydrocarbonreservoirs.Toimprovethepredictionaccuracy,algori
8、thmssuchasgridsearchareusedinhyperparameteroptimization,anddatadimensionality reduction is performed based on factor weight.A complete model is finally established based on the studiesconducted.TheaverageR2valueofthefourkindsofreservoirdamagemodelis0.852,withapredictionaccuracybetween90.00%基金项目:国家自然
9、科学基金青年科学基金项目“智能钻井液聚合物处理剂刺激响应机理与分子结构设计方法研究”(52004297);中国博士后创新人才支持计划“大温差智能响应机理及智能恒流变无土相生物油基钻井液研究”(BX20200384)。第一作者简介:盛科鸣,在读博士研究生,1997 年生,研究方向为油气工程信息化与智能化技术。E-mail:。通讯作者:蒋官澄,博士,二级教授,1966 年生,研究领域为油田化学、储层保护等。E-mail:。第40卷第4期钻井液与完井液Vol.40No.42023年7月DRILLINGFLUID&COMPLETIONFLUIDJuly2023and95.68%.KeywordsRes
10、ervoirsensibilityprediction;OilandgasAI;Radomforest;Neuralnetwork;Correlationanalysis0引言在油气层开发的注水过程中,地层流体和外来工作液(外来入井流体)接触之后,原本的地层稳定环境被改变,地层矿物会发生物理性质和化学性质的改变,影响油气层孔隙度和渗透率,这样的一种现象被称作油气层敏感性损害1。目前研究储层敏感性损害的方式一共有 3 种,一是通过室内实验测定进行统计分析25,二是对储层敏感性损害及其影响因素的关系建立数学模型610,三是利用人工智能方法进行预测8,1120。传统的油气层敏感性评价常参考行业标准通
11、过岩心流动实验来进行,基于岩心分析资料并在大量实验结果的基础上得出结论,评价结果可靠,但是实验周期长、需消耗大量人力物力,不适应油田快速发展的需要。常用的预测方式有数学模型预测和人工智能方法预测。数学模型预测是对储层敏感性损害及其影响因素的关系进行数学推导,从而建立模型有其局限性,且预测模型的精度不能保证,而人工智能方法基于以往的历史数据,属于“黑盒”模型,相比于数学模型可解释性差,但更容易建立出更加精确的模型预测储层敏感性损害,即可以克服数学模型复杂的推导和简化参数带来的误差。随机森林算法作为分类决策树算法衍生出的一种,相比于 BP 神经网络和 RBF 神经网络而言,具有良好的抗噪性,对异常
12、值有一定的容忍度。因此将这 3 种算法分别对储层速敏、水敏、酸敏和碱敏 4 种损害分别建模。1油气层敏感性损害机理1.1速敏性损害速敏性损害是当地下流体流动速度发生变化时,引起油气层中的各种微粒发生运移,使得油气层孔隙被这些微粒堵塞,造成油气层渗透率下降的现象。速敏性损害往往以 3 种形式存在:微粒于孔隙中缓慢堆积;体积较大的微粒嵌入或卡入孔隙中;微粒达到一定的数量级后在孔隙中形成“桥塞”。DKDK速敏性强弱由产生的损害率()来衡量。的定义式如下。DK=KiKminKi(1)KiKmin式中,为临界流速之前岩石样本渗透率的均值,是临界流速后岩石样本渗透率的最小值,mD。1.2水敏性损害水敏性损
13、害是当与油气层不配伍的外来入井流体进入到油气层以后,导致黏土物质膨胀、运移,从而使得油气层渗透率下降的一种现象,水敏性损害常见于碎屑岩油气储集层。Iw水敏性的评价指标为水敏指数(),水敏指数的定义如下。Iw=KfKwKf(2)KfKw式中,是标准盐水测出的岩石样本渗透率,是用蒸馏水测出的岩石样本渗透率,mD。1.3酸敏性和碱敏性损害酸敏和碱敏损害是酸液或碱液注入油气层以后,酸液或者碱液与油气层矿物之间发生的不良物理和化学反应产生胶状物、沉淀等,使得油气层渗透率下降的一种现象。2随机森林算法原理随机森林(RandomForest)是一种统计学理论,最早由 Breiman21提出,是由 baggi
14、ng 算法结合决策树算法为框架的集成算法,类似的还有XGBoost 等算法。如图 1 所示,随机森林算法利用 bootstrap 重抽样的方法,将具有 M 个特征的N 个样本的数据进行随机有放回的抽样,即从所有的特征中随机选择一个包含 k(kn)个特征的子集。未被抽取的数据可以评估随机森林模型的好坏,防止过拟合问题的产生。将这 M 个特征向量不进行剪枝任其生长,分裂结点依据不纯度作为最佳分割标准,在回归树中以方差表示:err=1NNi=1(xi x)2(3)424钻井液与完井液2023年7月重复 k 次上述过程生成 k 棵决策树,k 棵决策树构成随机森林。最终预测结果为所有决策树预测结果的均值
15、。当 k 趋近于无穷时满足:P(X,Y)Ph(X,)=Ymaxj,YPh(X,)=j 0(4)E(X,Y)(Y avkh(X,k)2 E(X,Y)(Y Eh(X,k)2(5)k式中,为与第 k 个决策树相对应的随机变量,当各决策树的相关性越低,整个随机森林的泛化误差越小;当 k 趋于无穷时,整个随机森林算法的泛化误差趋于稳定。使用随机森林预测出的结果,为所有决策树预测结果的均值。X=1kki=1Xi(6)大量研究证明,随机森立算法具有极高的准确率,并且不容易出现过拟合的问题。数据集随机森林-1结果-1随机森林-2结果-2多数结果/平均结果最终结果随机森林-N结果-N图1随机森林网络结构3数据处
16、理1)对胶结类型的处理。按岩矿鉴定标准,通过采用非等差式赋值方法并进行归一化变换。2)对岩石颗粒分选的处理。表示岩石颗粒分选程度时,最常采用的是福克-沃德(FolkandWard)分选标准差,其归一化方程见式(7)。Xi=0.0690,i 4.0(7)Xii式中,是相对应的归一化值,是福克-沃德分选标准差。3)泥质、石英、胶结物、黏土矿物含量、孔隙度等取实际值,以小数表示。4)渗透率、地层水矿化度等指标按照最大最小值归一化方法进行处理,其公式见式(8)。Xij=xijxjminxjmaxxjmini=1,2,.,m;j=1,2,n(8)4Pearson 相关系数Pearson 相关系数(Pea
17、rsonCorrelationCoeffi-cient)是一种线性相关系数。进行 Pearson 相关系数分析法是衡量变量相似度的有效方法22。Pearson相关系数是最常用的相关系数,它常用来表示二元正太分布和线性回归的相关性2324。其表达式见公式(9)。r=Ni=1(xi x)(yi y)vtNi=1(xi x)2Ni=1(yi y)2(9)rxixyiy xx yyN式中,为 Pearson 相关系数;为变量 对应的不同样本的值;为变量 对应的不同样本的值;为变量 的平均数;为变量 的平均数;为变量的个数。根据 Pearson 相关系数理论分别对速敏、水敏、酸敏和碱敏 4 组数据进行
18、Pearson 相关系数分析,以速敏损害为例,其结果如图 2 所示。Kruskal23曾经给出 Spearman 相关系数的直观定义:在 3 个二元分布的随机向量之中,其中至少有 1 个二元分布与其他二元分布协同出现的概率减去其中至少有一个分布与其他分布不协同出现的概率,即为 Spearman 相关系数。Spearman 相关系数是一种秩相关系数,也是一种非参数相关的系数。Spearman 相关系数不要求严格的参数假设,因此它具有更广泛的适用环境;它使用各个变量的秩来计算各个变量之间的相关性,因此对变量进行单调变换不会影响 Spearman 相关系数的值。此外,Spearman 相关系数不受量
19、纲的影响,它也可以较好地刻画变量之间的非线性关系。在我们实际应用中时,变量间的连结无关紧第40卷第4期盛科鸣等:基于随机森林算法的油气层敏感性损害预测425要,因此可以以一种简化的方式去计算 Spearman相关系数。rs=16N(N21)Ni=1(xiyi)2(10)rsxixyiyN式中,为 Spearman 相关系数;为变量 对应的不同样本的值;为变量 对应的不同样本的值;为变量的个数。根据 Spearman 相关系数理论分别对速敏、水敏、酸敏和碱敏 4 组数据进行 Spearman 相关系数分析,以速敏损害为例,其结果如图 3 所示。由上述图表可见,速敏、酸敏、水敏和碱敏损害因素之间的
20、 Pearson 相关系数和 Spearman 相关系数均在 0.85,0.85 的范围以内,没有 2 个或多个因素相关系数同时大于 0.85 或小于0.85 的情况,因此可以认为参与相关性分析的因素之间相对独立,不包括重复信息。5模型建立5.1BP 神经网络将学习率设置为 0.001,学习率更新策略为Adam,训练集测试集划分比为 91,其他条件均相同的情况下,以到达指定误差 0.01 的迭代次数最少作为选优依据,对这 4 种方法进行对比,结果如图 4 所示。根据张立明法和高大启法选取神经元数目建立的 4 种敏感性模型的迭代次数是最少的。对比了上述方法以后,在各类敏感性损害预测采用的 BP
21、神经网络中,输入层、隐藏层及输出层的神经元个数如表 1 所示。表14 类 BP 神经网络的神经元个数神经网络层速敏水敏酸敏碱敏输入层14141412隐藏层24242323输出层22125.2RBF 神经网络采用梯度下降法去训练径向基函数神经网络,先随机初始化每个隐藏层神经元的权值矩阵和偏置矩阵,之后通过模型对样本的误差通过梯度下降的办法来指导权值的更新。根据图 5 结果显示,RBF 神经网络的收敛速度是 BP 神经网络的 100010000 倍。5.3随机森林网络随机森林算法需要确定的超参数有:要生成的决策树个数、决策树的深度、内部节点再划分所需最小样本数、叶子的最小拆分样本量等。对于这些超参
22、数的确定,使用网格搜索的办法去进行超参数的寻优。使用决策树个数和分裂特征数进行网格搜索寻优结果如图 6 所示,当分裂特征数为 1,决策树个数为 342 时,得到最优解。速敏指数埋藏深度孔隙度渗透率胶结类型蒙脱石含量伊利石含量绿泥石含量高岭石含量伊蒙混层含量绿蒙混层含量黏土矿物含量石英含量长石含量地层水矿化度临界流速1.0000.1820.1240.2040.3460.3490.0180.0370.1880.3370.0940.2750.2990.2560.2840.3630.1821.0000.3820.0470.1820.3910.4360.3870.2820.6380.2460.0090.
23、4420.4190.0300.5030.1240.3821.0000.5890.0700.2320.4130.4560.4020.1950.4310.3750.0090.1070.3590.0830.2040.0470.5891.0000.0300.3400.2680.2990.1500.1650.0860.2430.3840.4430.2380.1510.3460.1820.0700.0301.0000.3570.0030.0200.0520.3020.2460.1150.2210.2230.3330.3330.3490.3910.2320.3400.35710000.0930.3750.2
24、100.7210.2610.2910.6350.7020.5370.5820.0180.4360.4130.2680.0030.0831.0000.6630.5250.3390.3780.1950.2010.1110.2970.1710.0370.3870.4560.2990.0200.3750.6631.0000.3670.2000.5570.3660.0740.1790.5570.1680.1880.2820.4020.1500.0520.2100.5250.3671.0000.2810.2620.0760.3570.2190.2250.0500.3370.6380.1950.1650.3
25、020.7210.3390.2000.2811.0000.1970.0710.6860.6350.1200.7230.0940.2460.4310.0960.2460.2610.3780.5570.2620.1971.0000.1600.0450.0300.5310.1620.2750.0090.3750.2430.1150.2910.1950.3660.0760.0710.1601.0000.1370.3170.4330.1430.2990.4420.0080.3840.2210.6350.2010.0740.3570.6860.0450.1371.0000.9540.2760.5240.2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 随机 森林 算法 油气 敏感性 损害 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。