分销赏收藏举报申诉 / 7

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于XGBoost机器学习模型的信用评分卡与基于逻辑回归模型的对比.pdf

基于XGBoost机器学习模型的信用评分卡与基于逻辑回归模型的对比.pdf

上传人：自信****多点

文档编号：2112702

上传时间：2024-05-16

格式：PDF

页数：7

大小：1,004.09KB

《基于XGBoost机器学习模型的信用评分卡与基于逻辑回归模型的对比.pdf》由会员分享，可在线阅读，更多相关《基于XGBoost机器学习模型的信用评分卡与基于逻辑回归模型的对比.pdf（7页珍藏版）》请在咨信网上搜索。

1、第 42 卷第 6 期2023年 11 月Vol.42 No.6Nov.2023中南民族大学学报（自然科学版）Journal of South-Central Minzu University（Natural Science Edition）基于XGBoost机器学习模型的信用评分卡与基于逻辑回归模型的对比张利斌，吴宗文（中南民族大学经济学院，武汉 430074）摘要分别基于逻辑回归模型和XGBoost机器学习模型构建了信用评分卡，比较了两种模型在个人信用评分上的表现，指出XGBoost机器学习模型在“AUC、KS、F1和Accuracy值”上表现更加优秀.首先，从数据的包容性、可解释性以

2、及模型的准确性方面对两个模型进行了对比；其次，使用住房贷款违约风险预测的竞赛数据，分别构建了基于逻辑回归模型和XGBoost机器学习模型的信用评分卡，并使用了AUC、KS、F1和Accuracy来评估这两个模型的分类效果和预测准确程度；最后，通过对比两个模型的评估结果，分析了XGBoost机器学习模型相较于逻辑回归模型更加优秀的原因.结论指出：XGBoost机器学习模型在测试集上的AUC、KS、F1和Accuracy值比逻辑回归模型分别提升了19.9%、17.5%、15.4%和11.9%，其原因在于XGBoost机器学习模型纳入了更多的维度信息、更加科学的缺失值处理方式以及考虑了正则化项的算法

3、原理.关键词逻辑回归模型；XGBoost机器学习模型；信用评分卡中图分类号 TP181；F832.51 文献标志码 A 文章编号 1672-4321（2023）06-0846-07 doi：10.20056/ki.ZNMDZK.20230616Credit scoring card based on XGBoost machine learning model Compared with logistic regression modelZHANG Libin，WU Zongwen（School of Economics，South-Central Minzu University，Wuha

4、n 430074，China）Abstract A credit scoring card based on logistic regression model and XGBoost machine learning model are constructed respectively.The performance of the two models are compared in personal credit scoring，and it is pointed out that XGBoost machine learning model performs better in“AUC，

5、KS，F1 and Accuracy values”.Firstly，a comparative analysis of the two models is made from the aspects of data inclusiveness，interpretability and model accuracy.Secondly，using the competition data of housing loan default risk prediction，credit scoring cards based on logistic regression model and XGBoo

6、st machine learning model are constructed respectively，and AUC，KS，F1 and Accuracy are used to evaluate the classification effect and prediction accuracy of the two models.Finally，by comparing the evaluation results of the two models，the reason why XGBoost machine learning model is better than logist

7、ic regression model is analyzed.The conclusion points out that the values of AUC，KS，F1 and Accuracy of XGBoost machine learning model in the test set are increased by 19.9%，17.5%，15.4%and 11.9%respectively compared with logistic regression model.The reason is that XGBoost machine learning model incl

8、udes more dimensional information，more scientific missing value processing method and better algorithm principle considering regularization term.Keywords logistic regression model；XGBoost machine learning model；credit score card在金融风控领域，如何根据贷款客户的基本信息和行为数据等，利用一定的分类模型，将贷款客户区分为违约客户和非违约客户，从而减少贷款机构的信用风险，是

9、金融贷款机构孜孜不倦的追求.收稿日期 2022-03-15作者简介张利斌（1973-），男，教授，博士，研究方向：产业经济学，E-mail：基金项目中南民族大学研究生创新基金项目资助项目（3212021sycxjj195）第 6 期张利斌，等：基于XGBoost机器学习模型的信用评分卡与基于逻辑回归模型的对比当前有两种主流分类模型统计学模型和机器学习模型.逻辑回归模型是最常用的统计学模型，其优点主要体现在：第一，理论基础成熟，适合二分类问题1；第二，可解释性较强，易于理解2；第三，模型训练时间短3.缺点主要体现在：第一，容易产生过拟合，泛化能力弱4；第二，特征空间很大时，分类性能不好5.近

10、年来，XGBoost机器学习模型在分类问题中表现优秀，受到越来越多风控人员的青睐，其优点主要体现在：第一，计算复杂度低，运行速度快，准确度高6；第二，可处理数据量大7.缺点主要体现在：第一，建模过程不透明，模型较难解释8；第二，理论基础不够成熟，布置上线较困难9.在分类模型的评价方面，当前学者主要使用AUC、KS、F1和Accuracy值等来评价逻辑回归模型和 XGBoost 机器学习模型的效果，并指出 XGBoost机器学习模型比逻辑回归模型在 AUC、KS、F1 和Accuracy值上表现更加优秀，但是并未解释更加优秀的原因.本文拟从维度信息的损失程度、缺失值的处理方式以及模型的算法原理三

11、方面来解释其中的原因.1模型对比1.1逻辑回归模型逻辑回归模型10是线性回归模型的改进，是一种“广义的线性回归模型”，该模型是分类问题中最常用的统计学模型.逻辑回归模型的一般形式见式（1）所示，如下：f(x)=11+e-()0+1x1+2x2+nxn，（1）其中，0n为模型的估计参数，x1xn为模型的变量.在金融风控领域，以贷款客户的违约与否作为逻辑回归模型的因变量，一般称为“非违约客户”和“违约客户”，用 0 或 1 来表示，即f(x)0.5为1.1.2XGBoost机器学习模型XGBoost 机器学习模型11比传统的 GBDT（Gradient Boosting Decis

12、ion Tree，以下简称GBDT）更加进步的原因在于：传统的GBDT只利用了一阶的导数信息，而XGBoost机器学习模型对损失函数进行了二阶的泰勒展开，求得模型最优解的效率更高.具体如下：将XGBoost机器学习模型进行t次迭代之后，此时的目标函数为：L()t=i=1nl()yiyit-1+ft(xi)+(ft)，（2）将目标函数进行泰勒二阶展开可得：Lti=1n l()yi，yi(t-1)+gift(xi)+12hif2t()xi+(ft)，（3）gi=y(t-1)l(yt，y(t-1)为每个样本的一阶导数，12hi=122y(t-1)l(yi，y(t-1)为每个样本的二

13、阶导数.1.3模型优缺点逻辑回归模型和XGBoost机器学习模型的优缺点如表1所示.相较于XGBoost机器学习模型，逻辑回归模型更加方便实现，并且可解释强；XGBoost 机器学习模型在处理大数据时精度更高，并且可以有效防止过拟合.2实证分析本文的实证分析思路如下：首先，分别运用逻辑回归模型和XGBoost机器学习模型来构建信用评分卡，并运用AUC、KS、F1和Accuracy这四个指标评估模型的效果.其次，从维度信息的损失程度、缺失值的处理方式以及模型的算法原理三个方面对比两个模型，分析XGBoost机器学习模型比逻辑回归表1逻辑回归模型和XGBoost机器学习模型的优缺点Tab.1Adv

14、antages and disadvantages of logistic regression model and XGboost machine learning model模型逻辑回归模型XGBoost机器学习模型优点适用于二分类问题简单易理解，可解释性强训练速度快精度高能有效处理缺失值能有效防止过拟合缺点对自变量的多重共线性表现敏感特征空间很大时，分类性能不好容易产生过拟合，分类精度不高建模不透明，不易理解处理低偏差、高方差的数据效果不好847第 42 卷中南民族大学学报（自然科学版）模型更加优秀的原因.2.1逻辑回归模型2.1.1数据介绍实验数据来自于 kaggle 官

15、网（https：/ 住房贷款违约风险预测的竞赛数据.本文的实验数据集包括20000个训练数据和5000个测试数据，其中实验数据集共有121列，包括个人基本信息、所在地区情况、借贷信息状况以及公司相关状况等.本文为更好地解释实证部分，将实验数据集的英文变量翻译为中文变量，如表2所示.2.1.2数据预处理（1）无效值处理原始数据表中的 SK_ID_CURR 变量在实际建模中的用处不大，且包含用户的隐私信息，故需直接删除.（2）缺失值处理根据jupyter分析软件可得，121个变量中共有65个有缺失值.其中，共有57个变量的缺失比例大于 10%，将其直接删除，对剩余的缺失变量做相应的填充处理，具体处

16、理方式如表3所示.2.1.3入模变量筛选对逻辑回归模型来说，入模变量的选择至关重要.本文选择WOE分箱、IV值筛选法以及相关性检测相结合的方法筛选入模变量，具体思路如下：首先，根据变量的阈值以及业务趋势进行WOE分箱；其次，根据WOE分箱计算变量的IV值，筛选IV值大于0.3的变量（IV值大于0.3有较高的预测能力）；最后，对IV值大于0.3变量进行相关性检测，剔除相关性大于0.5中IV值较小的那个变量.一般来说，建立逻辑回归模型只需选择1012个变量12.本文选择IV值排名靠前且通过相关性检测的11个变量作为入模变量，具体如表4所示.2.1.4逻辑回归模型的建立根据 SPSS 软件，确定x1

17、x11各变量的估计参数，从而建立逻辑回归模型，具体表达式如（4）式所示：f(x)=11+e-()-1.132+0.535x1+0.462x2+0.769x3+0.713x4+0.976x5+0.875x6+0.568x7+0.760 x8+0.375x9+0.179x10+0.268x11，（4）表2变量解释表Tab.2Variable interpretation英文变量名称TARGETNAME_EDUCATION_TYPEAMT_INCOME_TOTALDAYS_EMPLOYEDDAYS_BIRTHFLAG_OWN_REALTYREGION_RATING_CLIENTREG_CITY_NO

18、T_WORK_CITYFLAG_OWN_CARFLAG_MOBILNAME_INCOME_TYPENAME_FAMILY_STATUSREGION_RATING_CLIENT_W_CITYCODE_GENDERAMT_CREDITNAME_HOUSING_TYPEDEF_30_CNT_SOCIAL_CIRCLEDEF_60_CNT_SOCIAL_CIRCLEREG_CITY_NOT_LIVE_CITYBASEMENTAREA_AVGORGANIZATION_TYPE中文变量名称违约情况教育程度收入就业年数年龄不动产拥有情况所在地区评级常驻地址和工作地址匹配情况车辆情况家庭电话提供情况收入类型家

19、庭状况所在城市的评级性别贷款金额住房情况违约60天的天数违约30天的天数常驻地址和联系地址匹配情况房屋的面积大小公司的组织情况解释0：正常还款；1：违约客户受教育程度客户的年总收入申请人就业年数客户申请贷款时的年龄Y：有；N：没有1：最高；2：中等；3：较差1：相同；0：不相同（城市级别匹配）Y：有；N：没有1：有；0：没有客户的收入类型客户的家庭状况1：最高；2：中等；3：较差F：女；M：男客户的贷款金额客户的住房情况（租房or与父母同住）客户违约30天的次数客户违约60天的次数1：相同；0：不相同（城市级别匹配）客户居住房屋的面积大小客户工作的组织类型848第 6 期张利斌，等：基于XGB

20、oost机器学习模型的信用评分卡与基于逻辑回归模型的对比其中xi(i=111)为 11 个入模变量；f(x)为预测结果.2.1.5信用评分卡的建立根据传统的信用评分机制，可以制作信用评分卡，标准的信用评分卡如表5所示.表中，A、B为假设的基础分值，本文设为500和50，0n为x1xn的估计参数，11nkn为x1xn各分量的WOE值.根据评分转换原理，计算出11个入模变量的各分量得分值，具体结果如表6所示.利用表 6的信用评分卡对 5000个测试集样本进行评分转换，得测试集样本的最终得分情况见表7.从表7的得分情况可以看出，随着用户得分的上升，高分段的坏样本占比呈现出不断下降的趋势，这也说明了信

21、用评分卡可以较好地识别信用风险.2.1.6模型的效果评价对于分类模型而言，可以从分类能力和预测的准确程度来评价模型的效果.一般来说，使用AUC和KS来评估模型的分类能力以及F1和Accuracy来评估模型的预测准确程度13.通过对训练集和测试集的样本测试，得到相关的评价指标如表8所示.从表8可以看出该模型在测试集上拥有0.7294的 AUC 和 0.5378的 KS，这表示模型具有较好的分类能力.同时该模型在测试集上拥有0.8218的F1和0.8325的Accuracy，这表示模型具有较高的预测准确程度.2.2XGBoost机器学习模型2.2.1朴素的XGBoost机器学习模型首先，用训

22、练数据来建立默认参数下的XGBoost机器学习模型；其次，对所构建的XGBoost机器学习模型进行效果评价.具体结果如表9所示.由表 9 可知，在没有超参数约束的情况下，XGBoost机器学习模型在训练集上完全拟合，而在测试集上的表现相对一般，这表明该模型的泛化能力较弱.造成这种现象的原因是XGBoost机器学习模型是基于决策树的集成模型，如果不限制其增表3缺失变量处理表Tab.3Missing variable processing table变量名称COMMONAREA_AVGCOMMONAREA_MODECOMMONAREA_MEDINONLIVINGAPARTME

23、NTS_AVGNONLIVINGAPARTMENTS_MODEAMT_REQ_CREDIT_BUREAU_HOURAMT_REQ_CREDIT_BUREAU_DAYAMT_REQ_CREDIT_BUREAU_WEEKNAME_TYPE_SUITEOBS_30_CNT_SOCIAL_CIRCLEDEF_30_CNT_SOCIAL_CIRCLEOBS_60_CNT_SOCIAL_CIRCLEDEF_60_CNT_SOCIAL_CIRCLEEXT_SOURCE_2AMT_GOODS_PRICEDAYS_LAST_PHONE_CHANGE缺失比例0.699250.699250.699250.69355

24、0.693550.134700.134700.134700.004150.003600.003600.003600.003600.002500.000750.00005处理方式删除变量删除变量删除变量删除变量删除变量删除变量删除变量删除变量众数填充中位数填充中位数填充中位数填充中位数填充中位数填充中位数填充中位数填充表5标准评分卡Table.5Standard score card变量基准点x1x2xnWOE分箱12k112k212kn分值(A-B0)-(B111)-(B112)-(B11 k1)-(B221)-(B222)-(B22k2)-(Bnn1)-(Bnn2)-(Bnnkn)表4入模变

25、量表Table.4Molding variables变量教育程度（x1）收入（x2）就业年数（x3）年龄（x4）不动产拥有情况（x5）所在地区评级（x6）常驻地址和工作地址匹配情况（x7）车辆情况（x8）家庭电话提供情况（x9）收入类型（x10）家庭状况（x11）IV0.96300.92130.89760.84320.81340.75030.74180.72120.70190.68180.6745相关性检测全部变量均通过相关性检测849第 42 卷中南民族大学学报（自然科学版）长，它可以学习到适应所有训练样本的规则.但是如何提高该模型在测试集上的表现，才是我们真正所关心的，因此需要对模型进行调

26、参优化.2.2.2调优的XGBoost机器学习模型XGBoost的超参数可以归为三个核心部分：通用参数，Booster 参数和任务参数14.本文在通用参数、Booster参数以及学习目标参数这三类参数的具体选择如表10所示.本文使用网格搜索交叉验证得到的最优超参数为：eta为0.02，min_child_weight为2，gamma=0.2，max_depth为5，num_boost_round为110.使用该参数组合的XGBoost机器学习模型对训练数据和测试数据进行效果评价，具体结果如表11所示.从表 11 可以看出，该模型在测试集上拥有0.8746的AUC和0.6318的KS，这表示模型

27、具有很好的分类能力.同时该模型在测试集上拥有0.9487的F1和0.9318的Accuracy，这表示模型具有很高的预测准确程度.将该模型与朴素的XGBoost机器学习模型在测试集上的表现进行对比，得到的结果如表12所示.从表12可知，调优的XGBoost机器学习模型相表8模型结果评估Tab.8Evaluation of model results数据集训练集测试集分类能力评价AUC0.76820.7294KS0.55360.5378预测准确程度评价F10.83790.8218Accuracy0.84190.8325表9朴素的XGBoost机器学习模型结果Tab.9Results of sim

28、ple XGBoost machine learning model数据集训练集测试集分类能力评价AUC0.99620.8362KS0.99740.5546预测准确程度评价F10.99540.8871Accuracy0.99130.8916表6基于逻辑回归模型的信用评分卡Tab.6Credit scoring card based on logistic regression model变量名称基础分值教育程度年龄常驻地址和工作地址收入类型WOE分箱Lower secondarySecondary/secondary specialIncomplete higherHigher educati

29、on204040606080不相同相同WorkingCommercial associatePensionerState servantElse分值5576111419510133935321变量名称基础分值收入不动产拥有情况车辆情况家庭状况WOE分箱300000有无无有MarriedSingle/not marriedCivil marriageSeparatedWidow分值55771013154112842431变量名称基础分值就业年数所在地区评级家庭电话提供情况WOE分箱010102020303050123否是分值5576101214491037表7测试集样本得分情况统计Tab.7St

30、atistics of sample scores of test set得分区间599，609）609，619）619，629）629，639）639，649）649，659）659，669）669，672好样本132140645712865778712678坏样本3525535663473524总计167165698768928825747702好样本占比79%84.8%92.4%92.7%93.2%94.3%95.3%96.6%坏样本占比21%15.2%7.6%7.3%6.8%5.7%4.7%3.4%总体占比3.34%3.3%13.96%15.36%18.56%16.5%14.94%14

31、.04%信用等级DCBA说明信用风险很高，不建议贷款有一定的信用风险，需要对资产和信誉做进一步评估后考虑是否贷款信用风险较低，需要对贷款的流向关注后考虑贷款信用风险极低，建议贷款850第 6 期张利斌，等：基于XGBoost机器学习模型的信用评分卡与基于逻辑回归模型的对比比于朴素的XGBoost机器学习模型，AUC、KS、F1和Accuracy 都有所提升，这说明调优后的 XGBoost机器学习模型更加优秀.2.2.3信用评分卡的构建为了更加具体地观察调优的XGBoost机器学习模型输出结果，本文考虑引入传统的信用评分机制，进而将机器学习模型输出的概率值转换为常见的信用评分值.通过对测试集样本

32、的信用评分统计，具体的信用评分卡如表13所示.从表13可以看出，XGBoost机器学习模型输出的概率值可以通过信用评分机制转换为信用评分值.随着得分的提高，好样本的占比逐渐提升，坏样本的占比逐渐降低，这说明所建立的信用评分卡能够较好地识别信用风险.2.3模型对比分析根据上文的实验结果，将逻辑回归模型和调优的 XGBoost 机器学习模型在测试集上的 AUC、KS、F1和Accuracy进行比较，如表14所示.从表14可以看出，XGBoost机器学习模型在测试集上的AUC、KS、F1和Accuracy均高于逻辑回归模型.通过对两种建模方式的比较，XGBoost机器学习模型更加优秀的原因主要有以下

33、三点：（1）维度信息损失程度更低在建立逻辑回归模型，运用WOE分箱、IV值筛选法以及相关性检测相结合的方法从121个原始变量中挑选出11个变量来建立逻辑回归模型，该方法损失了较多的维度信息，仅列出最高的11个变量.然而，在建立XGBoost机器学习模型时，将121个变量经过数据处理后全部输入到模型中，几乎没有原始数据的信息损失.单从数据维度来看，XGBoost机器学习模型纳入更多的维度信息是机器学习模型相对于逻辑回归模型更加优秀的原因之一.（2）缺失值的处理方式更加科学在建立逻辑回归模型时，一般删除缺失比例超表10XGBoost的调参参数Tab.10Adjusted parameters of

34、 XGBoost超参数通用参数Booster参数学习目标参数参数标签booster=treeetamin_child_weightgammamax_depthnum_boost_roundobject=binary：logisticeval_metric：auc，ks，f1，accuracy参数含义决策树学习率最小叶节点样本权值gamma值基决策树最大深度迭代轮数逻辑回归算法误差评判标准参数作用使用决策树作为基学习器控制基学习器的特征权重更新大小控制基学习器的叶子节点分裂情况控制基学习器的叶子节点总数控制基学习器的最大深度控制算法的迭代次数控制每次迭代的目标损失函数评估模型的分类性能表12朴素

35、的XGBoost与调优的XGBoost机器学习模型对比结果Tab.12Comparison results of simple XGboost and optimized XGboost machine learning models模型朴素的XGBoost机器学习模型调优的XGBoost机器学习模型AUC0.83620.8746KS0.55460.6318F10.88710.9487Accuracy0.89160.9318表11调优的XGBoost机器学习模型结果Tab.11Results of optimized XGboost machine learning model数据集训练集测试

36、集分类能力评价AUC0.88690.8746KS0.65280.6318预测准确程度评价F10.95380.9487Accuracy0.94190.9318表13基于XGBoost机器学习模型的信用评分卡Tab.13Credit scoring card based on XGBoost machine learning model输出概率（0.0，0.5（0.5，0.6（0.6，0.7（0.7，0.8（0.8，0.9（0.9，1.0得分区间（-，500（500，509（509，528（528，558（558，606（606，+）好样本528755876985728660坏样本12510397

37、814715总体6538589731066775675好样本占比/%80.8688.0090.0392.4093.9497.78坏样本占比/%19.1412.009.977.606.042.22总体占比/%13.0617.1619.4621.3215.5013.50信用等级DCBA说明信用风险很高，不建议贷款有一定的信用风险，需要对资产和信誉做进一步评估后考虑是否贷款信用风险较低，需要对贷款的流向关注后考虑贷款信用风险极低，建议贷款表14逻辑回归模型与调优的XGBoost机器学习模型对比结果Tab.14Comparison results between logistic regression

38、 model and optimized XGboost machine learning model模型逻辑回归模型调优的XGBoost机器学习模型AUC0.72940.8746KS0.53780.6318F10.82180.9487Accuracy0.83250.9318851第 42 卷中南民族大学学报（自然科学版）过10%的缺失值，同时用众数填充类别型缺失变量和中位数填充连续型缺失变量，该方法有一定的人工干预，处理缺失值方式不够严谨.然而，XGBoost机器学习模型采用内置算法处理数据的缺失值，该方法处理缺失值更加科学.单从缺失值的处理方式来看，XGBoost机器学习模型科学地处理缺失

39、值是该模型相对于逻辑回归模型更加优秀的原因之一.（3）模型的算法原理考虑了正则化项在建立逻辑回归模型时，没有考虑正则化项，导致该模型复杂度较高，有过拟合的风险，评估效果一般.然而，在建立XGBoost机器学习模型时，考虑了正则化项，降低了过拟合风险，评估效果得到了有效提升.单从模型的算法原理来看，XGBoost机器学习模型考虑了正则化项是该模型相对于逻辑回归模型更加优秀的原因之一.3结论与思考本文比较了逻辑回归模型和XGBoost机器学习模型在信用评分卡构建中的具体表现，通过对比两个模型的 AUC、KS、F1 和 Accuracy 值，得出了以下结论：（1）逻辑回归模型在测试集上的分类效果以及

40、预测准确程度不如XGBoost机器学习模型.逻辑回归模型的 AUC、KS、F1 和 Accuracy 均低于 XGBoost机器学习模型，这表明XGBoost机器学习模型在分类效果以及预测准确程度上均表现更优.（2）逻辑回归模型建模过程较XGBoost机器学习模型更易于理解.在建立逻辑回归模型时，通过特征筛选从121个变量中筛选出11个变量建立逻辑回归模型，该方法建模过程透明，易于理解.然而，XGBoost机器学习模型以编程和调整参数的形式来建立模型，具有一定的不透明性，不易于理解.（3）维度信息损失程度更低、缺失值的处理方式更加科学以及模型的算法原理更加科学（考虑了正则化项）是XGBoost

41、机器学习模型相较于逻辑回归模型在分类效果以及预测准确程度上更加优秀的原因.如何融合逻辑回归模型和XGBoost机器学习模型，使其两者在风控领域可以优势互补，在提高模型效果的同时又增强解释能力？是值得我们下一步深入研究的问题.参考文献1 WIGINTON，J C.A note on the comparison of logit and discriminant models of consumer credit behavior J.The Journal of Financial and Quantitative Analysis，1980，15（3）：757-770.2 涂艳，王翔宇.基于

42、机器学习的P2P网络借贷违约风险预警研究来自“拍拍贷”的借贷交易证据 J.统计与信息论坛，2018，33（6）：69-76.3 毛毅，陈稳霖，郭宝龙，等.基于密度估计的逻辑回归模型 J.自动化学报，2014，40（1）：62-72.4 COSTA S E，LOPES I C，CORREIA A，et al.A logistic regression model for consumer default risk J.Journal of Applied Statistics，2020，47（13-15）：2879-2894.5 周毓萍，陈官羽.基于机器学习方法的个人信用评价研究 J.金融理论与

43、实践，2019（12）：1-8.6 CHEN T，GUESTRIN C.XGBoost：A scalable tree boosting system J.IEICE Transactions on Fundamentals of Electronics，Communications and Computer Sciences，2016：785-794.7 严武，冯凌秉，蒋志慧，等.基于机器学习模型的P2P网贷平台风险预警研究 J.金融与经济，2019（9）：18-25.8 黄卿，谢合亮.机器学习方法在股指期货预测中的应用研究基于BP神经网络、SVM和XGBoost的比较分析 J.数学的实践与

44、认识，2018，48（8）：297-307.9 WANG Kui，LI Meixuan，CHENG Jingyi；et al.Research on personal credit risk evaluation based on XGBoost J.Procedia Computer Science Volume，2022，199：1128-1135.10 洪文洲，王旭霞，冯海旗.基于Logistic回归模型的上市公司财务报告舞弊识别研究 J.中国管理科学，2014，22（S1）：351-356.11 王重仁，韩冬梅.基于超参数优化和集成学习的互联网信贷个人信用评估 J.统计与决策，2019，35（1）：87-91.12 刘志惠，黄志刚，谢合亮.大数据风控有效吗基于统计评分卡与机器学习模型的对比分析 J.统计与信息论坛，2019，34（9）：18-26.13 张佳倩，李伟阮，素梅.基于机器学习的贷款违约风险预测 J.长春理工大学学报（社会科学版）.2021，34（4）：105-111.14 周庆岸.基于遗传XGBoost模型的个人网贷信用评估研究 D.南昌：江西财经大学，2019.（责编&校对雷建云）852

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 XGBoost 机器学习模型信用评分逻辑回归对比

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。