基于集成算法的信用债违约预测模型及其影响因素研究.pdf
《基于集成算法的信用债违约预测模型及其影响因素研究.pdf》由会员分享,可在线阅读,更多相关《基于集成算法的信用债违约预测模型及其影响因素研究.pdf(10页珍藏版)》请在咨信网上搜索。
1、学术探讨18金融经济2023 年第 10 期(总第 568 期)一、引言信用债作为企业直接融资的重要工具,在保障实体经济健康发展,解决融资难、融资贵问题上发挥着重要作用。随着时间的推移,债券融资的发展空间逐渐扩大。然而通过分析 20152021年信用债违约情况可以发现,随着市场规模的扩大,信用风险问题日益凸显。2015 年受产能过剩的影响,上游周期行业的违约事件频繁发生,使得违约主体数量大幅上升。2018 年随着去杠杆政策的出台,民营企业违约现象频发,引发了第二波违约潮,2019 年违约主体数量达到峰值。从违约金额来看,第二波违约潮在 2018 年后对市场的冲击和影响远超过 2015 年开始的
2、第一波违约潮。随着信用债市场的快速整顿,从 2020 年开始,违约主体数量有所下降,2021 年的首次违约主体数量为 16 家,较上年减少 14 家,20202021 年间违约金额也开始回落(杜渐和周冠男,2022)。2021 年的信用债市场处于经历“永煤事件”后的修复期,整体上信用债违约事件有所减少,但在违约主体的评级、性质、行业和地区分布等方面也出现了一些新变化。首先,各行业中的违约主体呈现出不同的特点。例如,受到宏观经济形势影响较大的传统制造业企业,面临着生产成本上升、市场竞争加剧等压力,违约风险相对较高。与此同时,新兴科技和绿色能源等领域的企业由于创新性强、市场需求大,违约风险相对较低
3、。其次,地区间的经济发展不平衡也在一定程度上影响着信用债市场的稳定性。发达地区的企业普遍具有较强的抗风险能力,而欠发达地区的企业则更容易受到地区性经济波动的影响,违约风险较高。基于集成算法的信用债违约预测模型及其影响因素研究 郑怡昕 王重仁摘要:本文选取 20142021 年的信用债作为研究对象,以单一算法(逻辑回归、高斯朴素贝叶斯、支持向量机和伯努利朴素贝叶斯)分别构建 Bagging 和 Stacking 集成学习模型,并将其与单一算法以及传统方法(KMV 模型)进行对比,探讨如何提高信用债违约预测精度,证明Bagging 集成算法的可靠性,还通过 SHAP 可解释算法研究信用债违约中的重
4、要指标。实证结果显示,四种单一机器学习模型在预测准确率上优于传统 KMV 模型;进一步对机器学习模型进行集成,发现同质集成算法在提高预测性能方面不如异质集成算法,且 Bagging 异质集成算法的预测准确率优于 Stacking 异质集成算法。将性能最好的 Bagging 异质集成算法与 SHAP 可解释算法结合,得到对识别信用债违约具有重要价值的 9 个指标,分别是违约前债项评级、违约前主体评级、交易所、净资产收益率、债券类型、企业性质、财务费用、总资产增长率以及第一大股东持股比例,关键指标的识别对信用债违约预测具有指导意义。关键词:信用债违约;风险预警;Bagging 集成算法;Stack
5、ing 集成算法;SHAP 可解释算法中图分类号:F832.5 文献标识码:A 文章编号:1007-0753(2023)10-0018-10收稿日期:2023-06-27作者简介:郑怡昕,硕士研究生,山东财经大学,研究方向为信用债、机器学习。王重仁,博士,副教授,山东财经大学,研究方向为机器学习。基金项目:山东省软科学项目“山东省互联网生态体系构建与发展对策研究”(2021RKY02023)。学术探讨19金融经济2023 年第 10 期(总第 568 期)此外,信用债市场的政策环境也发生了一些变化。监管机构加大了对信用风险的监管力度,提高了信用债的发行门槛,加强了信息披露要求,这在一定程度上提
6、高了市场的透明度,但也使得部分中小企业融资难度增加,这可能增加他们的违约风险。同时,货币政策的变化也直接影响了市场流动性,对信用债违约形成了一定的影响。综上所述,了解当前信用债市场的变化,对于预测潜在的违约风险、制定相应的风险管理策略以及维护市场的稳定性具有重要意义。二、文献综述随着信用债规模逐步扩大,信用债违约成为关注的焦点,越来越多的学者从各种角度研究信用债违约。传统 KMV 模型常用于信用债违约预测。潜力和冯雯静(2020)基于 20152019 年的面板数据,采用 KMV 模型预测了 20202023 年地方政府专项债券的预期违约概率。Ephraim 等(2022)对 KMV 原始模型
7、做了改进,使其不仅可以估计信用违约概率,还能估计以交易成本为代表的市场摩擦和基于模糊性建模的不确定性;他们选择南部非洲银行进行验证,结果表明银行的负债、股权或资本成本以及不确定性与其违约风险呈正相关关系。在影响因素方面,国内外学者从不同角度对债券违约特征进行研究。Nguyen(2021)研究了 19952012 年间国际货币基金组织(IMF)的援助计划对 20 个国家企业违约风险的影响,发现 IMF 的援助与企业违约风险异常增加有关。在针对我国情况的研究中,Xu 等(2020)发现不同省份的信用债违约概率在地域分布上存在明显差异。张春强等(2019)发现公司从业性质与债券违约具有明显的相关关系
8、。还有研究表明财务指标(潘泽清,2018)、企业杠杆率变化(孙立行等,2021)、企业特征和发行结构(王雪标等,2018)、企业生命周期(高咏玲等,2017)和民企互保(钟金龙等,2021)与信用债违约具有明显相关性。随着机器学习在金融领域的广泛应用,一些学者已将组合预测与集成预测的方法相结合,构建了以机器学习算法为基础的集成预测模型。Karol(2019)在预测波兰的通货膨胀数据时,发现和单个模型相比,将 Bagging 算法与单个隐含层的前馈神经网络结合的模型展现出更好的预测性能。Abelln 和 Mantas(2014)以澳大利亚、德国和日本的信用数据为研究对象,证明 Bagging 集
9、成算法具有明显优势。Yin(2020)在股票溢价预测方面采用了 Bagging 集成算法,并与 LASSO 方法进行了比较,结果表明无论是经济繁荣时期还是经济衰退时期,Bagging 算法均超过 LASSO 方法获得了更为显著的经济收益。王康等(2021)在预测电力系统短期负荷时,运用 Bagging 集成算法对原始模型进行集成处理,提高了预测精确度。Jiang等(2020)从多模型集成的角度,通过 Stacking 集成算法提高预测性能。丁岚和骆品亮(2017)采用 Logistic 回归、决策树和支持向量机作为基分类器,并以支持向量机作为次级学习器构建了一个Stacking 集成框架,用于
10、评估违约风险;通过与单一学习器进行比较,Stacking 集成框架展现出了更好的预测性能。由此,本文做出如下创新:一是在已有研究中,Bagging 集成算法一般应用于同质模型的集成,而本文试将 Bagging 集成算法应用于异质模型的集成,同时通过与 Stacking 集成算法进行比较,全面评估不同集成策略在信用债违约预测方面的预测效果。二是在相关文献中,虽然集成算法被广泛应用于预测问题,但很少深入分析模型预测的因果关系。本文针对这一问题,引入 SHAP 可解释算法(Lundberg 和 Lee,2017)解释模型预测背后的决策逻辑。与传统的只关注预测结果不同,本文着重分析每个特征对预测结果的
11、贡献,深入挖掘模型的因果关系,从而提高模型的可信度和实用性,也强调了对模型决策过程的解释和理解的重要性。三、研究设计本文旨在构建一种集成学习方法,通过集成多种算法实现对信用债违约概率的预测。在对上述多种研究成果进行分析和总结的基础上,选择预测性能较佳的单一算法(支持向量机、逻辑回归、高斯朴素贝叶斯和伯努利朴素贝叶斯),提出基于 Bagging 集成算法的框架来预测信用债违约情况,并将其与 Stacking 集成学习方法进行比较,验学术探讨20金融经济2023 年第 10 期(总第 568 期)证 Bagging 集成算法的预测性能;然后通过 SHAP可解释算法,深入分析模型的预测结果,并揭示指
12、标特征值对于结果的影响程度和方向。(一)Bagging 集成算法Bagging集成算法能够将多个预测模型相结合,每个模型都使用从原始训练集中采样得到的子训练集来构建(Breiman,1996)。在进行预测时,通过对训练集进行随机化抽样处理,减小了预测结果的方差,避免了过拟合问题,使得预测结果更加稳定(王康等,2021)。Bagging 集成算法的步骤如下:(1)在原始数据集 D 中,利用有放回的随机抽样方式多次抽取 m 个样本,形成 n 个数据集 d1,d2,dn。假设每个样本被选中的概率相等。(2)使用 n 个基模型对对应的 n 个数据集 d1,d2,dn进行训练学习,在理想情况下,最终得到
13、n 个不同的模型 e1,e2,en。(3)将 n 个不同的模型 e1,e2,en的预测结果取平均值作为最终的集成预测结果(谭文侃等,2022)。(二)Stacking 集成学习算法Stacking 集成学习算法将多个分类或回归模型进行聚合,使模型的边界更加稳定,降低了过拟合的风险(Guo 等,2020)。具体过程如下:假设有 n 个基础学习器,训练集包含 m 个样本,每个基础学习器对每个样本都进行预测,这些预测输出组成一个元特征矩阵 X:X=x11 x12 x1nx21 x22 x2n xm1 xm2 xmn (1)其中,xij表示第 i 个样本由第 j 个基础学习器预测的输出。元学习器使用元
14、特征矩阵 X 作为输入值,对应的真实标签 y 作为输出值进行训练,得到元模型。在测试时,先使用基础学习器进行预测,得到元特征矩阵,然后用元模型对元特征矩阵进行预测,得到最终的集成预测。(三)SHAP 可解释算法SHAP(Shapley Additive exPlanations)可 解 释算法是一种用于解释机器学习模型预测结果的方法。它基于博弈论中的 SHAP 值,为每个特征提供了一个重要性分数,以说明其对于模型预测的贡献。在现有的机器学习模型中,通常很难直接理解模型的预测结果,而 SHAP 可解释算法有助于理解模型中每个特征对预测结果的影响程度,为模型的可解释性提供了有力支持(Lundber
15、g 和Lee,2017)。SHAP 值在机器学习中的应用基于以下公式进行计算:SHAPi(f)=i,f(x)=SJi(n-|S|-1)!|S|!n!fx(Si)-fx(S)(2)其中,SHAPi(f)是特征 i 在预测函数 f 中的SHAP 值,n 是输入特征的数量,J 是输入特征的索引集,xX 是输入样本。fx(S)表示将输入 S与 i 的组合送入模型中,并预测出输出结果,即S 对预测 f 的共同影响。而 fx(Si)则表示在保持其他特征不变的情况下,将输入 i 与 S 的组合送入模型中所预测的输出结果,即 Si 对预测 f 的影响。|S|表示集合 S 的大小,S J i 表示从特征集中选择
16、一个不包含 i 的子集 S。公式中的系数(n-|S|-1)!|S|!n!是 SHAP 值公式的系数,用于计算每个特征的平均边际贡献(林娜等,2023)。四、数据选择与处理(一)数据说明本文数据来源于 WIND 数据库,选择从 2014年 1 月 1 日2021 年 12 月 31 日的违约信用债作为违约样本,对于同一主体发行的不同信用债认定为不同样本,共计 1 067 只信用债。其中,60.12%的信用债主体评级在 B 级及以下,62.71%的信用债的债项评级在 B 级及以下。69.61%的违约信用债由民营企业发行,44.75%的违约信用债在银行间债券交易市场进行交易,34.05%的违约信用债
17、在上海交易所进行交易,18.86%的违约信用债在深圳交易所进行交易。违约信用债的种类主要是私募债(255 只)、一般公司债(249 只)和一般中期学术探讨21金融经济2023 年第 10 期(总第 568 期)票据(246 只)。为了确保所选信用债在观察周期(2014 年 1 月 1 日2021 年 12 月 31 日)内不会发生违约,本文在 2021 年 12 月 31 日之前到期的信用债中进行选择,并依据所属行业和资产规模按照 1 2 的配对比例为违约信用债选择匹配样本作为对照组。部分信用债主体信息不完整,需要从样本中剔除,最终确定违约信用债 769 只,对照组 987 只信用债,用于本研
18、究。(二)风险预警指标选择及数据预处理在构建信用债违约风险预警指标体系时,本文选择宏观指标、债项指标和财务指标作为主要考虑因素。宏观指标的选取和处理参考 Cakmakli 和Van dijk(2016)的研究;债项指标和财务指标除了考虑现金流质量、短期偿债能力、长期偿债能力、营运能力、盈利能力和发展分析 6 个方面外,还参考了蒋敏等(2021)的指标体系,并将筛选出的所有变量根据指标的属性分为定量指标和类别指标。对于类别指标,按照标签编码方案,将每个类别映射到数值。为了消除不同单位和方差对结果的影响,依据公式(3)对数据进行归一化处理,并进行上下 1%的缩尾处理剔除异常值,通过显著性、相关性和
19、多重共线性检验,最终筛选出 33 个指标,其中定量指标 27 个、定性指标 6 个(见表 1)。x=xi-xminxmax-xmin (3)式中 xi表示各个样本,xmax表示样本最大值,xmin表示样本最小值。五、实验及结果分析(一)违约预测模型的构建本文选择上述 33 个指标建立新的信用债评级系统,并以此为基础构建信用债违约预测模型;选择支持向量机、逻辑回归、高斯朴素贝叶斯和伯努利朴素贝叶斯作为基分类器,采用 Bagging 集成算法和 Stacking 集成算法构建集成模型。同时,将这些集成算法与传统 KMV 模型进行对比,旨在确定最佳预测模型。为了降低模型的过拟合程度,并且尽可能地从数
20、据中获取信息,同时让模型的预测性能不会因为数据集的划分而过于敏感,本次实验将样本进行划分,60%作为训练集,40%作为测试集,进行十折交叉验证,重复三次,并将每次重复的结果求平均值以获得最终结果。在进行违约预测时,KMV 模型和机器学习算法得到的预测结果存在差异。KMV 模型预测的是违约概率,而机器学习算法常用于预测信用债的类别(即是否会违约)。为了进行统一的评估和比较,参考 Zhao 和 Chen(2022)的研究,通过大多数样本的平均违约距离来判断企业违约的标准。研究发现大多数企业的违约距离在-57 之间,平均值为 2,因此,若违约距离小于 2,该企业发行的信用债将被判定为违约;若违约距离
21、大于或等于 2,该企业发行的信用债将被判定为非违约。由于本文违约样本和非违约样本在数量上存在不平衡,模型的预测分类评价指标选择准确率(accuracy)、精确率(precision)、召回率(recall)表 1 信用债违约风险预警指标体系指标类型指标内容债项指标交易所、债券类型、违约前债项评级宏观指标 宏观经济景气指数一致指数、宏观经济景气指数先行指数、短期国债利率、各省 GDP、各省 PPI主体指标现金流质量经营活动现金流量占营业收入的比重、净利润现金含量、货币资金、财务费用、交易性金融资产短期偿债能力流动比率、速动比率长期偿债能力资产负债率、EBITDA 利息保障倍数营运分析总资产周转率
22、、应收账款周转率盈利分析总资产收益率、营业净利率、利润总额、营业外支出、总资产报酬率、净资产收益率发展分析利润总额增速、总资产增长率、净资产增长率其他企业性质、注册地、违约前主体评级、第一大股东持股比例、企业总资产学术探讨22金融经济2023 年第 10 期(总第 568 期)和 F1,这样不会受到数据分布不均的影响,还能更有效地反映模型预测性能。其中准确率(accuracy)是指分类器正确预测的样本数与总样本数之比。精确率(precision)是指在分类为正类的样本中,分类器正确预测为正类的样本数与所有预测为正类的样本数之比。召回率(recall)是指,在所有真正为正类的样本中,分类器正确预
23、测为正类的样本数与所有真正为正类的样本数之比。F1值是精确率和召回率的调和平均数,它综合考虑了分类器的精确率和召回率。各指标表达式见公式(4)(7)。accuracy=TP+TNTP+FP+TN+FN (4)precision=TPTP+FP (5)recall=TPTP+FN (6)F1=TPTP+FN+FP2 (7)其中 TP、FP、FN 和 TN 来自分别以真实值(T)和预测值(F)的 positive(P)和 negative(N)组成的混淆矩阵 TP FPFN TN。(二)基于不同模型的测算结果分析表 2表 4 展示了各个模型的预测性能比较结果,表 2 是单一模型和传统 KMV 模型
24、的预测性能比较,表 3 是分别以不同模型为基分类器的同质 Bagging 集成算法和异质 Bagging 集成算法的预测性能比较,表 4 是分别以不同模型为基分类器的同质 Stacking 集成算法和异质 Stacking 集成算法的预测性能比较。和其他算法相比,KMV 模型在 accuracy、precision、recall 和 F1上的综合性能弱于其他算法(除了 F1略高于高斯朴素贝叶斯),而集成算法相对于单一算法在预测性能上有一定程度的提高,并且异质集成算法优于同质集成算法。这是因为集成算法可以弥补单一模型的缺点,从而获得更稳定、更准确的预测结果,并且异质集成算法使用不同类型或不同参数
25、设置的基础模型,更有可能产生不同的预测错误。这种差异性有助于减少集成模型的偏差,提高整体性能。在异质集成算法中,Bagging 集成优于 Stacking 集成,原因是在 Bagging 集成中,每个基分类器都通过自主随机采样训练,加强了模型的泛化能力,并在它们之间引入了一些随机性,减少了过拟合产生的可能,在处理一定的噪声和不平衡的数据时,可通过随机抽样和多模型平均减少噪声的影响,并且在处理不平衡数据时能够更好地平衡各类别的预测结果。Stacking 集成算法则需要对多个基分类器的输出进行组合,很容易受到性能不好的模型影响,且数据的噪声和不平衡性还会影响其模型组合和元分类器的选择;此外,额外引
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 集成 算法 信用 违约 预测 模型 及其 影响 因素 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。