基于非平衡数据分类的贷款违约预测研究
如何在发放贷款前有效的评价和识别借款人潜在违约风险,计算借款人的违约概率,是现代金融机构信用风险管理的基础和重要环节,也是数量经济学、金融学等领域中的研究热点问题。 现有的贷款违约数据大部分都是非平衡的,以往的研究并未足够注意这一特征也就重视这一问题的深入研究,本文主要研究如何借助非平衡数据分类的思想对银行等金融机构的历史贷款数据进行分析,预测贷款违约的可能性。对于非平衡数据问题,采用基于数据平衡的方法构造随机森林;针对数据较大的问题,采用具有并行特性的随机森林算法。基于上述研究,本文提出了一种改进的带权重的并行平衡随机森林算法(WPBRF)。WPBRF算法在构造随机森林的每个决策树的同时利用OOB数据估计该决策树的预测性能,并据此赋予每个决策树不同的权重;此外,WPBRF算法利用了随机森林算法的可并行计算的特点,减少了单个决策树的训练时间。 实验结果表明,WPBRF在准确率和平衡准确率等方面超过了SVM、KNN、C4.5等常见分类算法和随机森林算法。此外,利用随机森林的并行性的WPBRF算法大幅降低了算法的学习时间,提高了算法的执行效率。
贷款违约预测;非平衡数据;随机森林;并行计算
中南大学
硕士
应用经济学
邹捷中
2013
中文
F224;F832.4
52
2014-02-25(万方平台首次上网日期,不代表论文的发表时间)