基于机器学习的保险业风险监测预警模型研究.pdf
《基于机器学习的保险业风险监测预警模型研究.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的保险业风险监测预警模型研究.pdf(14页珍藏版)》请在咨信网上搜索。
1、1012023 年第 5 期基于机器学习的保险业风险监测预警模型研究基于机器学习的保险业风险监测预警模型研究谢荻帆1摘要:建立保险行业的风险监测预警体系是维护国家金融安全、经济稳定发展的重要任务之一。本文针对保险业风险监测数据不平衡的特性,基于随机森林算法,利用重复合成采样技术,构建了保险业风险预警模型新思路。实证结果表明,模型具有一定预测能力,且随着合成采样重复次数的增加,预测效果进一步提升,在应用中具备合理性、有效性和可操作性。基于此,本文提出如下政策建议:协同推进机构与监管数字化转型、持续创新技术手段、扩充数据源以及引入多元化特征变量等。关键词:保险行业;风险预警;随机森林;风险监测;监
2、管科技中图分类号:F84 文献标识码:A一、引言2019年习近平总书记指出,要增强忧患意识,提高风险防范能力,做到居安思危。准确识别风险点、开展风险防范预演、加强预期管理、改进预警管理、健全风险应对组织,打好防范经济风险攻坚战。党的二十大报告指出,要健全国家安全体系,其中包括国家风险监测预警体系。金融安全事关社会稳定,是国家安全的重要组成部分,维护金融安全是关系我国经济社会发展全局的战略性、根本性大事。鉴此,应在金融业内建立风险监测预警体系,守住金融安全底线,维护我国经济平稳健康发展。2000年我国银行业已开始尝试建立风险预警体系,这是我国银行监管的一项开创性工作,也是一项复杂系统工程,需要长
3、期不断地探索、总结和完善2。为提前防范风险,保险业不断强化监管措施前瞻性,包括推动非现场检查,构建指标体系,对保险公司经营发展情况进行日常动态监测;提出偿付能力风险管理要求并对落实情况进行评估,加强功能监管和穿透式监管,持续推动保险业风险管理能力提升。在此背景下建立保险业风险监测预警体系,其主要功效1 谢荻帆,经济学博士,中国保险保障基金有限责任公司,联系方式:。作者感谢匿名审稿人的意见,文责自负。2 参考原中国银保监会 2005 年 4 月 21 日发布的 改善风险监管技术 银监会建立商业银行风险预警体系。DOI:10.13490/ki.frr.2023.05.006102基于机器学习的保险
4、业风险监测预警模型研究总第 137 期为:一方面,可提前找出问题公司并进行风险提示,及时采取有效风险防御措施,减少风险积聚对保险业的系统性伤害,起到行业风险“减震器”“缓冲带”作用;另一方面,将事后监管提到事前,做到早发现、早识别,有效定位重点问题保险公司,进一步节省监管资源,提高监管效能。习近平总书记在主持十九届中央政治局第三十四次集体学习时强调,发展数字经济意义重大,是把握新一轮科技革命和产业变革新机遇的战略选择。当前,面对金融数字化转型从“夯基垒台”到“积厚成势”,以及金融科技审慎监管的不断强化,提升风险监测预警的前瞻性、全面性和数字化水平,成为推动保险业高质量发展的迫切需要,也是必然选
5、择。据此,保险业借助数据驱动和科技赋能,应建立和完善早发现、早介入、早处置的风险预警体系,进一步有效防范化解各种潜在金融风险。二、相关理论研究宏观金融风险实质上是微观层面风险不断积聚并最终爆发的结果,因此要从根本上防范和控制金融风险,必须重视微观风险的预警与防范。潘功胜(2019)指出1,要适应科技多变、快变特点,提升监管快速反应能力,推进常态化金融风险预警监测机制。霍学文(2021)认为2,智能监管是未来趋势,需要有强大的金融风险监测预警系统支持。面对当前复杂多变的风险形势,既要防范“灰犀牛”,也要防范“黑天鹅”,还要防范两者之间的连锁反应,因此利用新方法、新模型、新技术,探索建立金融业风险
6、监测预警系统已成必然选择。针对保险公司风险预警的理论研究,国外起步较早且普遍采取了量化分析方法,包括单变量分析、多变量判别分析、Logistic回归模型、人工神经网络等。Evans(1968)最早将单变量分析引入保险公司风险预警研究。Trieschmann和Pinches(1973)最早利用多变量判别分析法基于财务数据建立保险业偿付能力预警模型。此后,Steven(1998)利用Logistic回归模型验证了贝氏评级及等级变化识别寿险公司偿付能力的有效性。Patrick等(2006)利用神经网络对保险公司偿付能力进行预测,并得出神经网络优于传统统计方法预测效果的结论。在早期研究的基础上,越来越
7、多的学者开始尝试利用机器学习模型解决公司风险预警问题。Geng等(2015)、Wu等(2022)和Gao等(2023)先后利用神经网络或其优化算法预测公司财务风险;Tuong等(2018)利用基于聚类的提升算法针对高度不平衡数据集建立公司破产预警模型;Qian等(2022)利用梯度增强决策树算法对公司财务进行预警。国内监管部门和研究机构从2000年后才开始探索保险业风险监测预警体系。侯旭华等1 参见中国人民银行党委书记、国家外汇管理局局长潘功胜 2019 年 12 月 17 日在第三届中国互联网金融论坛上发表的书面致辞。2 参见北京银行党委书记、董事长,清华大学五道口金融学院战略咨询委员会委员
8、霍学文在以“新格局 新发展 新金融”为主题的 2021 清华五道口全球金融论坛上就科技助力金融创新高质量发展发表的看法。1032023 年第 5 期(2019a,、2019b)、丁少群等(2019)和郑莉佳等(2020)基于保险公司财务指标,利用传统统计模型方法,建立了风险预警系统以及经营评价体系;侯旭华等(2021)和李思思(2021)则从财务角度,评估保险公司风险。有些学者将非财务指标引入了风险预警模型。其中,夏秀芳等(2018)研究表明,将非财务指标引入财务预警系统可以改善预警效果、提高预测准确率;石阳(2015)指出,非财务指标一般是财务指标的先行指标。综合来看,我国目前运用预警模型量
9、化分析保险公司风险的研究还相对较少。从大数据、人工智能等创新技术手段应用于金融监管领域方面来看,朱太辉等(2016)指出,金融科技创新能增强风险管理能力、降低风险集中度,有助于提高金融稳定性,但现有风险监测缺乏充分数据支撑和量化分析;张家林(2018)指出,监管科技是防范和应对金融风险的主要手段,运用大数据技术建立风险预测模型,可及时准确地识别风险,降低监管成本;张丽颖等(2022)则尝试利用机器学习模型预测个人贷款的违约风险。从现有文献看,虽然已开始将金融科技运用于行业风险监测中,但从量化角度建立保险业风险预警系统仍存在以下难点:一是数据不平衡的处理。目前,保险业关注类公司在全部观测公司中的
10、比重较低、基数较小,阳性案例1的代表性不突出,容易被忽视,因此,如何在大规模数据中准确有效地捕捉风险点,成为事前监管的核心难点之一。二是特征变量的筛选。风险预警研究普遍凭借经验或定性分析来筛选具有预警效果的财务指标,这一方面可能因遗漏重要变量而降低模型预测精度;另一方面,则可能因纳入过多冗余变量而降低建模效率,影响模型稳健性,使模型缺乏解释力。三是风险预警信号无法进行差异化比较。一般而言,预警模型的因变量是0-1变量,输出的预测信号为0(无风险)或1(有风险)。这意味着,同一期预测结果均为1的两家公司,无法比较风险大小;同一家公司前后两期预测结果均为1时,则无法比较其风险水平是否发生了改变。针
11、对以上问题,本文引入了随机森林模型,此模型具有处理高维变量并对变量重要性进行排序的高准确度分类器特性,利用合成采样技术,其在一定程度上解决了预警系统数据不平衡的难点;通过引入基于大数据的机器学习方法,减少了对特征变量的依赖性;通过构建风险预警得分系统,实现了风险水平的差异化比较,摆脱了人为筛选指标、设定阈值后,更直观地输出风险信号。此外,本文还通过实证分析,验证了模型的合理性和有效性,并在此基础上探讨了预警机制、技术手段、参数改进和变量筛选等问题。三、风险预警模型的构建及操作步骤(一)风险特征筛选及数据预处理特征变量方面,由于财务指标相对容易获取且现有研究中有相关经验总结,因此本文风险1 阳性
12、案例指已暴露风险的关注类保险公司。104基于机器学习的保险业风险监测预警模型研究总第 137 期预警模型选取了财务指标作为风险特征变量1。由于研究中获取的财务信息主要是已完成结构化的二手数据资料,存在数据未披露、数据缺失和数据空值等问题,因此本文数据处理如下:对当期未披露信息的已处置类公司做行删失处理,在不影响数据整体结构的情况下对缺失数据进行均值插补,将数据空值记为0。(二)处理不平衡数据集风险预警研究的数据具有明显的不平衡特征。“不平衡”指样本中取值为1的阳性案例与取值为0的阴性案例的比例存在显著不同。针对这一问题,早期研究多基于抽样原理,采用固定阳性案例后按一定比例(1:2或1:1)随机
13、抽取阴性案例匹配建模的欠采样方式。这虽然避免了因样本数据不平衡所导致的模型预测功能下降,但由于样本对总体代表性有限,影响了预测模型的泛化能力。也有学者选取过采样方法进行研究(即从小类中进行重复抽样),但存在过拟合风险(李扬等,2016)。鉴此,本文采用了Lunardon等(2014)提出的ROSE(Random Over Sampling Examples)算法。该方法基于平滑自助法(smoothed bootstrap)的人工合成采样技术,利用条件核密度估计,扩大少数类和多数类的特征空间,生成新的人工数据集,可降低过采样带来的过拟合风险,避免欠采样带来的大量信息丢失问题,提高泛化能力。其具体
14、操作步骤如下:假设样本量n的训练集为nT,其中,第i个样本点可以表示为(),1,2,iiyin=Lx;|0,1ijyYj=;ix是定义在dR空间上的特征向量,且具有未知概率密度函数()fx。第一步,以j的概率选取*jyY=;第二步,以1jn的概率选取(),iinyxT,其中*iyy=;第三步,确定以ix为中心、jH为协方差矩阵的概率分布函数jKH,再从(),jiKHx中随机抽样*x作为新合成样本点。这个过程是在训练集中提取一个样本点,再在其邻域产生一个新样本点()*,y*x。该邻域的范围是根据核函数K的轮廓集确定,其宽度由jH控制。这相当于从(|)jfYx的核密度估计中产生新样本数据集。其中,
15、()11111(|)(|)(|)jjjjnnnjiiiiiiijjiifYp PrPrKnn=Hxx xx xxx。重复以上步骤m次得到样本量为m的新合成数据集*mT,其中数据的平衡度由j决定,即当0.5j=时,阳性案例和阴性案例的数量相等。(三)随机森林算法随机森林(Random Forest)是一种基于决策树的机器学习算法。有研究将随机森林算法中的每棵决策树比喻为一个精通于单一领域的专家,而随机森林则是将大量精通不同领域的专家集中在一起,由各个专家投票得出结果,从而可从多角度全方位地解决目标问题。其本质为经济学所关注的“群体智慧(Swarm Intelligence)”或称“看不见的手”。
16、随机森林算法具备处理高维变量并实现变量筛选、评估变量重要性等优势。1 在实践中,引入非财务指标可提升模型预警效果。1052023 年第 5 期随机森林的建模流程如图1所示。一是采用自展法(Bootstrap),随机有放回地从总量为N的原始训练集中抽取n个样本,并重复m次操作,生成m个子训练集;二是针对每个子训练集,在全部特征变量中随机抽取部分特征变量,训练生成对应的决策树,根据基尼指数或袋外误差选择最优特征,并决定该特征的最优二值切分点,再集成所有决策树以构成随机森林模型;三是向随机森林模型输入测试集数据,通过多数投票机制,基于所有决策树的预测结果生成随机森林预测结果。图 1:随机森林建模流程
17、图 2:利用模型进行评估预测的流程关于随机森林的参数设置,应重点关注ntree(森林中基分类器的数量)和mtry(基分类器预选的特征变量个数)两个参数。其中,参数ntree影响模型的泛化能力:ntree值设置过低会导致错误率偏高,ntree值过高则会增加模型复杂度,降低运算效率。参数mtry一般通过逐一尝试的方法来选择理想值。(四)利用模型进行评估与预测利用模型进行评估与预测的流程如图2所示。第一步,基于前一历史观测期(默认预警周期t1=)的数据,利用ROSE算法重复构造M个合成数据集,每个合成数据集均为保留了原始数据集空间特征且具有随机性的相对平衡的数据集。第二步,以单个合成数据集为基础,利
18、用K折交叉验证,分别建立随机森林模型,确定混淆矩阵并计算准确率(ACC,在所有样本中预测正确的样本占比)和召回率(Recall,预测正确且为阳性案例的样本占所有实际为阳性案例的比例)作为评估标准。第三步,基于评估结果调整模型参数,确定M个最优模型。第四步,以当期原始数据作为预测集,分别带入M个模型得到预测结果,即ijy0,1;i1,2,.,N;j1,2,.,M=。第五步,集成M个预测向量,计算单个个体的风险预警得分:106基于机器学习的保险业风险监测预警模型研究总第 137 期1,1,1 2,.,Miijjscorey iNM=(1)本文主要以统计学大数定律为研究基础,即随着样本容量的不断增加
19、,样本均值越来越趋近于总体均值。重复人工合成数据集的主要作用为:一是将问题公司的风险特征进一步放大,从而便于事前监管捕捉风险信号;二是预测结果由0,1离散型数值转变为0,1连续型数值。此外,风险预警得分的实践意义为:根据行业历史风险特征,公司在未来成为关注类公司(或风险暴露)的可能性。四、实证研究(一)样本选择及变量说明表 1:保险业风险预警模型变量说明编号分类变量指标名称公式1风险指标Y是否为关注类公司综合偿付能力充足率低于 150%或风险综合评级为 C、D 类的公司记为 1,其他记为 02资本结构X1负债经营率总负债/所有者权益3X2资产负债率总负债/总资产4X3杠杆倍数总资产/净资产5X
20、4所有者权益与保费收入之比所有者权益/原保费收入6X5长期股权投资占比长期股权投资/总资产7X6投资性房地产占比投资性房地产/总资产8经营能力X7成本率营业支出/营业收入9X8费用率成本率赔付率10X9赔付率赔付支出/已赚保费11X10原保费收入增长率(本年原保费收入上年原保费收入)/上年原保费收入12X11寿险责任准备金增加额占比寿险责任准备金增加额/原保费收入13盈利能力X12利润率净利润/营业收入14X13净资产收益率净利润/净资产15X14营业利润率营业利润/已赚保费16X15资产利润率净利润/平均总资产17X16净资产利润率净利润/平均净资产18获现能力X17已赚保费现金回报率经营活
21、动现金净流量/已赚保费19X18资产现金回报率经营活动现金净流量/平均总资产20X19净资产现金回报率经营活动现金净流量/平均净资产21发展能力X20资产增长率(年末资产年初资产)/年初资产22X21股东权益增长率(年末股东权益年初股东权益)/年初股东权益本文选取20162021年公开披露年报的90家人身险公司为研究样本1,利用历史数据预测1 无特殊说明外,本文问题分析部分均基于 2018 年数据建模结果。1072023 年第 5 期当期数据,建立随机森林模型。使用软件R 4.1.2进行操作,加载ROSE和Random Forest程序包。为方便数据收集,本文选取保险公司披露年报中的21个财务
22、指标作为特征变量(X),通过风险水平划分目标变量(Y),依据监管部门对关注类公司的划分标准,将综合偿付能力充足率低于150%或风险综合评级为C、D类的公司记为1,其他公司记为0。具体变量设置如表1所示。(二)描述性统计除未披露年报的保险公司外,本文关注类公司样本量占比约为15%,缺失值占全部数据量的2%。各观测期指标变化如表2所示:指标分布相对稳定,不存在异常波动情况。表 2:数据基本情况描述变量均值中位数极差缺失值均值中位数极差缺失值均值中位数极差缺失值X111.82 6.73 392.1809.086.78 119.608.877.77 36.500X20.750.871.2100.810
23、.871.3100.830.890.960X312.82 7.73 392.18010.08 7.78 119.609.878.77 36.500X4-7.32 0.55 1795.94-50.70.4842384477.80.50 372184X50.040.000.6900.040.000.6900.040.000.630X60.000.000.0700.000.000.0500.000.000.050X71.210.997.5501.370.99 30.8501.300.99 29.350X80.100.8579.9800.480.86 29.400-0.18 0.84 78.200X9
24、1.060.1172.1140.820.11 54.5441.260.12 117.14X100.460.208.45102.000.27 82.6140.380.183.774X11-1.03 0.33 106.624-0.80 0.51 104.64-1.00 0.58 121.94X12-0.22 0.017.490-0.37 0.01 31.020-0.30 0.01 29.200X13-0.39 0.0133.160-0.02 0.044.7800.010.041.990X14-9.20 0.01 538.154-14.10.0111564-10.10.02 782.44X15-0.
25、01 0.000.267-0.01 0.000.4200.000.000.340X16-0.03 0.023.6070.030.041.8600.030.041.330X17-9.70 0.19 580.244-13.10.5411154-14.50.57 663.54X180.050.070.8570.160.130.9200.170.140.840X190.330.4211.9171.331.01 16.4801.581.18 20.750X200.220.144.3670.350.232.2500.410.284.360X210.150.017.1370.480.16 28.820-0.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 保险业 风险 监测 预警 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。