基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型.pdf
《基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型.pdf》由会员分享,可在线阅读,更多相关《基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型.pdf(12页珍藏版)》请在咨信网上搜索。
1、生态毒理学报Asian Journal of Ecotoxicology第 18 卷 第 4 期 2023 年 8 月Vol.18,No.4 Aug.2023 基金项目:国家重点研发计划项目(2019YFC1803803)第一作者:王如冰(1993),女,博士研究生,研究方向为化学品计算毒理学与生态风险评估,E-mail: *通信作者(Corresponding author),E-mail:DOI:10.7524/AJE.1673-5897.20230215001王如冰,蔡喜运.基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型J.生态毒理学报,2023,18(4):22-33Wan
2、g R B,Cai X Y.Biota-sediment accumulation factor models of organic chemicals in benthic invertebrates with gradient boosting regression tree J.Asian Journal of Ecotoxicology,2023,18(4):22-33(in Chinese)基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型王如冰,蔡喜运*工业生态与环境工程教育部重点实验室,大连理工大学环境学院,大连 116024收稿日期:2023-02-15 录用日期:20
3、23-04-22摘要:生物-沉积物积累因子(BSAF)是评价底栖无脊椎生物对有机污染物生物积累能力的重要参数,是由化合物、底栖环境与无脊椎生物之间的三相作用决定的。现有模型通常采用线性算法研究化合物 BSAF 与化合物理化性质的关系,忽略了由于环境-生物-化合物相互作用引发的非线性影响,导致线性模型拟合和预测能力有限。本研究基于理化性质(PCP)和分子指纹(ECFP)描述化合物特征,结合环境样点和生物特征,采用梯度提升回归树(GBRT)的非线性算法,分别构建了底栖生物体内积累因子的 GBRT-PCP 和 GBRT-ECFP 预测模型,并与利用岭回归算法构建的线性模型进行比较。结果表明,GBRT
4、 模型训练集决定系数(R2)均为 0.97,验证集R2为 0.82 0.83,表明 GBRT 模型的拟合优度和预测能力显著优于岭回归模型(训练集和验证?集R2分别为 0.38 0.56 和 0.38 0.52)。沉积物有机碳含量对生物-沉积物积累因子的影响呈波动下降趋势,脂质含量呈先波?动上升而后下降趋势。GBRT-PCP 模型结果表明,化合物疏水性(logKOW)对生物积累影响呈先平稳后上升而后下降趋势,吸?附性(logKOC)对生物积累呈波动下降趋势。总体上,具有中等 logKOW(6.8 8.2)和中等 logKOC(4.4 5.2)的化合物易于积累在生?物组织。GBRT-ECFP 模型
5、阐明了稠环、芳香环、醚键、CBr 键、联苯键等结构是影响生物积累的关键子结构,该模型基于分子指纹结构可实现对化学品生物积累的高通量预测。本研究建立的模型为化学品生态风险评价和管理决策制定提供理论依据和方法参考。关键词:有机污染物;底栖无脊椎生物;生物-沉积物积累因子;梯度提升回归树文章编号:1673-5897(2023)4-022-12 中图分类号:X171.5 文献标识码:ABiota-sediment Accumulation Factor Models of Organic Chemicals in Ben-thic Invertebrates with Gradient Boostin
6、g Regression TreeWang Rubing,Cai Xiyun*Key Laboratory of Industrial Ecology and Environmental Engineering(Ministry of Education),School of Environmental Science andTechnology,Dalian University of Technology,Dalian 116024,ChinaReceived 15 February 2023 accepted 22 April 2023Abstract:Biota-sediment ac
7、cumulation factor(BSAF)is an essential parameter to assess the bioaccumulation po-tential of benthic invertebrates for organic chemicals.The bioaccumulation process involves complicated interac-tions between compounds and environmental sites,and benthic invertebrates.Existing models mostly construct
8、 line-ar models for the relationship between bioaccumulation and physicochemical properties of compounds,neglecting第 4 期王如冰等:基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型23 interactions between the three factors mentioned above,resulting with poor goodness-of-fit and predictive ability.Here we developed logBSAF mod
9、el based on gradient boosting regression tree algorithm(GBRT)with independentvariables containing environmental site factors,biological factors,and two distinct compound variable regimes,i.e.,physicochemical properties(PCP)and extended connectivity fingerprints(ECFP).In this study,the GBRT-PCP andGB
10、RT-ECFP models of BSAF in benthic invertebrates were constructed,followed by comparisons of nonlinearmodels based on GBRT algorithm with linear models based on ridge algorithm.The determination coefficients(R2)of GBRT-PCP and GBRT-ECFP models for the training set were 0.97 and 0.82 0.83 for the vali
11、dation set.BothGBRT models outperformed ridge models in terms of goodness-of-fit and predictive performance,withR2of 0.380.56 for training and 0.38 0.52 for validation set,respectively.The organic carbon of sediments had the effectof fluctuating decline on BSAF.The lipid content of invertebrates sho
12、wed a tendency for fluctuating increases andsubsequent decreases on BSAF.GBRT-PCP model was conducted to identify the interactions between compoundhydrophobicity(logKOW)and adsorption potential(logKOC)on BSAF.Results revealed that the logKOWvalues of?compounds showed smooth increases followed by dec
13、reases on BSAF.The logKOCvalues of compounds exhibitedfluctuating decreases.The interaction between logKOWand logKOCdemonstrated that compounds with intermediate-?logKOW(6.8 8.2)and logKOC(4.4 5.2)exhibit enhanced bioavailability.The developed GBRT-PCP model,invol-?ving the physicochemical character
14、istics of compounds as independent variables,could provide quantitative predic-tions for bioaccumulation of chemicals.Furthermore,substructure analysis of compounds based on GBRT-ECFPmodel identified the key substructures(e.g.,annelated rings,aromatic rings,O,CBr bonds,and biphenylbonds)related to B
15、SAF.The GBRT-ECFP model could support high-throughput prediction performance of chemi-cal bioaccumulation.Based on the GBRT-PCP model and GBRT-ECFP model,it provides benchmarks for the eco-logical risk assessment and management policy of chemicals.Keywords:organic contaminant;benthic invertebrate;bi
16、ota-sediment accumulation factor(BSAF);gradient boos-ting regression tree(GBRT)水体环境中的许多有机污染物,由于具有强疏水性和难降解性1-2,易于吸附结合在富含有机质的颗粒物,通过沉降并长期残留于沉积物中。沉积物环境中广泛分布着种类多、数量大的无脊椎生物3-6,它们多以沉积物颗粒为食并从中获取碳源,是水生生态系统底层的生物。沉积物中有机污染物可通过呼吸、表皮接触或吞食等途径被生物吸收积累,并沿食物链传递7-9,对生态安全和人类健康造成直接或间接危害。有机污染物在底栖生物体内积累能力常采用生物-沉积物积累因子(BSAF
17、)衡量10-13。生物-沉积物积累因子是化合物在生物体内浓度(cI,mgkg-1)与?沉积物环境浓度(cS,mg kg-1)的比值14-16,反映了底栖生物通过呼吸、表皮、吞食途径从沉积物中蓄积有机污染物的现象。有机污染物的 BSAF 值可通过实验测试获取14,17-18。然而近年来,化学品生产和使用量迅速增加,截至 2022 年 12 月,化学文摘社数据库收录化学物质已达 2.74 亿种19,仅依赖实验方法难以满足数量庞大的有机污染物监测需求,因此有必要发展有机污染物生物-沉积物积累因子的预测模型。目前文献报道的底栖无脊椎生物积累模型,多基于平衡分配理论20。该理论认为不同暴露途径的底栖生物
18、和水生生物具有相似敏感性,生物积累受环境样点和生物物种的影响可忽略,仅针对生物积累与化合物理化性质(例如正辛醇-水分配系数logKOW)开 展 相 关 性 研 究 或 构 建 线 性 关 系 模?型10,14,21。有研究表明,多环芳烃、烷基酚、短链氯化石蜡等中等疏水性化合物(logKOW为 2 8)可在夹?杂带丝蚓(Lumbriculus variegatus)、河虾(oriental river?prawn)、中华绒螯蟹(Chinese mitten crab)、贻贝、蜉蝣、片脚类动物等底栖无脊椎生物体内积累,其生物积累能力随 logKOW值增加呈 下 降 趋 势10,22-24。?Arn
19、ot 和 Gobas25研究了多氯联苯(PCBs)在贻贝、蜉蝣、钩虾等无脊椎生物的积累能力,发现生物积累随化合物 logKOW值先增加后降低。其他针对氯丹、滴滴涕(DDTs)、多溴联苯醚(PBDEs)、六溴环十二烷(HBCDs)等化合物在贻贝(Mytilus galloprovincialis)、24 生态毒理学报第 18 卷?河蚬(Corbicula fluminea)等底栖生物体内的研究也?发现了相似的趋势26-27。生物积累涉及污染物的环境吸附/解吸、生物体外暴露和生物体内分布等过程。这些过程由污染物理化性质和环境行为参数所描述。污染物分子结构则是决定其理化性质差异的内因。因此,生物积累
20、是受到多种环境-生物-化合物因素交织影响的复杂系统过程。对此,假设各变量间相互独立的线性模型,对生物积累的预测能力非常有限(R2=0.20?0.68)14,22,27。目前尚未有将非线性算法应用于无脊椎生物积累参数预测方面的研究。本研究围绕生物积累过程中环境-生物-化合物相互作用,开展有机污染物在底栖无脊椎生物体内积累的模型构建及影响因素研究。使用 2 套化合物特征体系(理化性质 PCP 和分子指纹 ECFP),结合环境样点和生物特征,利用非线性的梯度提升回归树(GBRT)算法,构建生物-沉积物积累因子预测模型,并与线性算法建立的模型进行比较。GBRT 已被成功应用于有机物、药物等化学品的环境
21、行为参数28和植物根系积累预测29-31。基于特征重要性和部分依赖分析方法,解释生物-沉积物积累因子随环境、生物和化合物因素的非线性变化趋势。利用分子指纹识别导致生物积累的关键子结构。1 材料与方法(Materials and methods)1.1 数据搜集使用 Web of Science(https:/)和中国知网(https:/)检索,关键字为“benthic invertebrate*”AND“sediment*”AND“bioaccumulation”AND“(PAH*or polycyclic aro-matic hydrocarbon)or(pesticide*)or(poly
22、chlorinat-ed biphenyl or PCB*)or(polybrominated diphenyl e-thers or PBDE*)or(dioxin)or(antibiotic*)or(phthalate ester or PAE*)”,检索内容为有机化合物在底栖无脊椎生物体内 BSAF 实测值。按照以下规则对原始数据进行处理:(1)去除混合物数据;(2)去除未报道环境有机碳含量或生物脂质含量的数据;(3)当文献未报道 BSAF,或无法经公式(1)反推得到BSAF 时,则剔除该组数据。BSAF=cIcS(1)其中,cI和cS分别为化合物在生物体内浓度(mg?kg-1)与沉积物
23、环境浓度(mg kg-1)。经过整理,最终获得 6 229 组 BSAF 实测值,每组数据均涵盖化合物、生物及其栖息环境信息。数据集包括多环芳烃、PCBs、PBDEs 和有机氯、有机磷农药等 261 种化合物,沙蚕、贻贝和虾等 105 种底栖无脊椎生物。为便于模型构建,将 BSAF 转换为以10 为底对数形式 logBSAF 作为预测终点。数据集按照 41 的比例随机划分为训练集和验证集。1.2 特征变量选取本研究从环境、生物、化合物 3 个方面考察对生物积累的影响。先前的研究表明20,32,沉积物环境中的有机污染物主要吸附于有机碳部分,进入生物体后则主要富集在脂质中。因此,本研究选取沉积物有
24、机碳含量(fOC)作为环境特征,选取生物脂质含?量(flipid)作为生物特征。化合物特征分别选取理化性质(PCP)和拓展连接性分子指纹(ECFP)2 个维度进行描述。基于污染物在环境中的吸附行为和生物体内疏水分配,选取有机 碳 吸 附 系 数(logKOC)和 辛 醇-水 分 配 系 数?(logKOW)作为化合物理化性质变量,分别反映沉积?物对化合物的吸附性能和化合物的疏水性。通过EPI-SUITETM软件33获得化合物的理化性质信息(logKOW和 logKOC)和 SMILES 码。ECFP(1 024 位)又称圆形指纹,根据每个原子不同半径(即相隔化学键的数目),计算化合物分子中每个
25、原子的标识符,并映射为一个无符号整数,对应于 Boolean 向量中内容为 1 的位34。ECFP 可分辨分子中特定子结构和成键类型,包括单键、双键、三键和芳香键等。圆形半径越大,子结构能包含化学键的数量越多。本研究基于化合物 SMILES 码,利用 Python 包中的 RDKit 程序计算压缩至 1 024 位、采用半径为 2(即直径为 4)的 ECFP,亦作 ECFP4。1.3 模型算法GBRT 是基于 Boosting 算法的集成学习模型,其本质是以决策树为基本学习器的加法模型。通过集成弱学习器的形式生成一个强学习器(即预测模型)35。GBRT 算法以最小化均方误差为目标。以特征变量x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 梯度 提升 回归 有机 污染物 生物 沉积物 积累 因子 预测 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。