系统管理学报 ›› 2022, Vol. 31 ›› Issue (2): 255-269.DOI: 10.3969/j.issn.1005-2542.2022.02.005
杨莲1,2,石宝峰1,2,董轶哲3
YANG Lia1,2,SHI Baofeng1,2, DONG Yizhe3
摘要: 针对传统信用风险预测模型存在对非违约样本识别过度、对违约样本识别不足的问题,将平衡损失CassBaanced Loss函数引入信用风险评价,构建CassBaancedLoss修正交叉熵的非均衡样本信用风险评价模型。利用所建模型与交叉熵神经网络、支持向量机、决策树、随机森林和K最近邻5种分类模型进行对比,验证BPNN-CBCE对中国某金融机构1 534笔农户贷款数据信用风险预测的有效性;在此基础上,利用UCI公开的德国信贷数据验证BPNN-CBCE模型的稳健性。研究表明,对于农户数据, BPNN-CBCE模型在AUC违约召回率Default recall方面普遍优干BPNN-CE、SVM、DT、RF和KNN模型。其中,BPNN-CBCE的Default recall相比5种对比模型提升了41.3个百分点,AUC相比5种对比模型提升了15.6个百分点: 对于德国数据集,BPNN-CBCE评级模型在AUC违约召回率Default recall方面也均优于5种对比模型。因此,BPNN-CBCE信用评价模型对农户不均衡信贷数据中的违约样本具有较好的识别能力,可有效降低金融机构客户误判带来的损失。创新与特色:(1)利用CassBalanced Loss中的平衡因子w,增大违约样本在目标损失中的权重,降低非违约样本在目标损失中的权重,客观调节正负样本损失在目标损失中权重,弥补交叉熵承数无法调节两类样本损失权重的缺陷,克服由样本不均衡带来的评价模刑对非讳约样本识别讨度、对讳约样木识别不足。(2)通讨考虑数据重叠,利用随机覆盖方法,分别对贷款数据中讳约,非违约样本进行不放回采样,以对全样本空间X违约、X非违约进行不重叠覆盖,计算两类贷款客户的有效样本数量。既反映由于真实数据之间的内在相似性,随着样本数量的增加,新添加样本很可能是现有样本近似重复的客观事实,也保证基于有效样本对两类样本损失进行重新加权的客观性。将图像识别领域中的Class Balanced Loss函数引入信用评价领域,既拓展了ClassBalanced Loss的使用边界,也为解决不均衡样本的信用风险评价提供了新的研究思路。
中图分类号: