[摘 要] 随着网络在人们生活中的普及使用,传统的借贷模式也跟着发生了改变,传统借贷模式逐渐被网络借贷模式所替代。如今,网络借贷违约现象极大地制约了网络借贷的健康发展。为减少网络借贷平台违约率,现对某一P2P网贷平台的贷款数据进行分析,结合网贷借款人的基础信息和借款信息的18个特征变量,建立逻辑回归违约风险评估模型,并通过混淆矩阵以及ROC曲线检验结果表明,模型具有较高的精度,可以有效预测借款人的违约风险。
[关键词] 网络借贷;Logistic模型;违约风险
0 引 言
随着我国经济快速发展,越来越多的人接触到网络借贷,而如何从广大用户中有效识别出优质客户,降低客户的违约率对网络借贷平台来说,对其稳健发展至关重要。据网贷之家数据显示近三年来网络借贷平台正常运营平台数量持续降低,究其原因,借款人的违约不乏为其中一个重要影响因素。因此,能够精准甄别网贷风险、降低借款人违约率显得十分必要。
苏亚,成春林(2017)认为在对网贷借款人违约行为的影响分析中应多维综合考虑借款人的“软信息”和“硬信息”。[1]丁岚,骆品亮(2017)提出Stacking集成策略来降低预测模型中的一、二类错误从而达到提升借款人违约风险预测的准确度。[2]熊正德,刘臻煊,熊一鹏(2017)通过将“违约”与“不违约”两类细分为“提前结清”“当前正常”“可疑”“损失”四类,构造有序多分类logistic模型,得出“当前正常”和“可疑”两类客户的预测效果相对准确率更高。[3]沈玉溪,徐浩(2018)运用Lending Club2017年第一季度的交易数据通过决策树模型对借款人的违约风险特征的重要性进行分析。[4]谭中明,谢坤,彭耀鹏(2018)利用Logistic回归方程式的方法筛选变量建立梯度提升决策树模型来对借款人的信用风险进行评测,检验的结果表明GBDT模型的预测效果更好,但在特征变量的筛选中借款人收入多少与有无房贷等重要特征并不显著。[5]舒方媛,赵公民,武勇杰(2019)建立Logistic二分类模型分析了网贷借款人的违约因素,得出信用评级、逾期次数等因素更为显著。[6]黄建琼郭文龙陈晓峰(2020)的研究结果表明,相对于决策树和随机森林模型,采用五只交叉验证的支持向量机模型具有更好的稳定性与泛化能力。[7]以上学者对网络贷款风险研究多基于单向影响因素探究,往往易忽略现实中多方面因素的影响,因此本文综合借款人的基础信息与借款信息的18个特征变量,运用统计分析结合实证分析方法将借款人是否违约作为目标变量,建立Logistic二分类模型,并通过混淆矩阵和ROC检验来检验模型的精度,得出模型具有较高的精度能够有效预测借款人违约风险,对网络借款人的风险评估具有参考作用。
1 Logistic模型
(2)混淆矩阵,它的本质可以理解为就是一张表格,以真阳性(TP)、真阴性(TN)和假阳性(FP)、假阴性(FN)四个基础指标组成的表格。如在分类模型中我们需要预测是否违约具有“不违约”(negative)和“违约”(positive)两类结果,而这四个基本指标分别表示:
①真阳性:样本类别为positive,模型预测的结果是positive;
②真阴性:样本类别为negative,模型预测的结果是negative;
③假阳性:样本类别为negative,而模型预测的结果是positive;
④假阴性:样本类别为positive,而模型预测的结果是negative。
四个基础指标所组成的混淆矩阵如表1所示。
对于分类模型的评价,在混淆矩阵中,TP与TN的观测值越大越好,而FP与FN的观测值越小越好,这样就表示模型预测的越准确。
在混淆矩阵的基础上延伸出精确率(Precision)和召回率(Recall)和F1分数,其对应意义如表2所示。
2 实证分析
2.1 特征变量的选取
数据来源为某P2P借贷平台历史借款数据,样本量为5 000,文中数据处理与分析皆使用Python来实现。主要使用了Python中的Numpy、Pandas、Matplotlib、Seaborn处理数据、作图以及机器学习库。
通过Python的Describe函数以及Info函数显示,样本包含了3列时间类型(datetime)数据、12列浮点型(float)数据、15列数值型(int)数据以及23列文本类型(object)数据。首先依据直观判断去除与本文研究无关的数据和无效的数据,选取需要的特征变量;其次对数据进行初步预处理。缺失值与异常值处理中Isnull函数能够查找到数据中的缺失值,对于缺失值,一般根据变量特征类型需要采取中位数、众数或者平均数等来替代。变量特征数据缺失严重的则选择直接删除这一样本。数据中的有些特征变量为文本型类型如性别,为了更好地识别与建模,需要对它们做One-Hot编码处理。对于具有连续性的特征变量,需要做标签编码处理。
数据预处理效果如表3所示分别为性别、年龄、受教育程度、婚姻状态、月收入、工作年限、所在单位规模、有无房产、有无房贷、有无车产、有无车贷等11个贷款人基础信息特征变量和借款利率、借款期限、信用分数、信用等级、逾期次数、申请贷款笔数7个贷款人的借款信息特征变量,以及是否违约作为目标变量。
2.2 描述性分析
样本中借款人年龄分布主要集中在30岁到40多岁之间,其中借款人年龄最小的为22岁,最大的为64岁,借款人年龄分布线圖如图1。 樣本数据中借款人借款违约率跟年龄与性别分布如图2所示,从其柱形图和折线图可以看出,借款人贷款违约样本主要集中在30岁到40岁之间,其次是20岁至30岁的年龄段,违约率将近于48%,50岁到60岁之间年龄段中的贷款违约率相对最少,只占其中的25%;而相对于女性来说男性贷款的违约率则远远高于女性借款人。这一结果表明位于30到40岁之间的借款人的贷款需求高于其他年龄段的借款人,同样,处于这一年龄段的借款人的违约率也高于其他年龄段的借款人,借款平台在放款时需加强对这一年龄段的借款人的资格审查,严格管控这一年龄段的借款人的违约行为。
网络借贷违约风险与借款人所受教育程度的关系如图3所示,随着学历的升高,借款人的违约概率逐渐降低。根据样本数据显示,借款人所受教育程度在高中或高中以下学历,其违约的概率明显高于学历更高的借款人,说明学历越高其还款意识或者还款能力越强,能够及时履行作为借款人的义务如期还款,而学历低的借款人更容易违约。
2.3 实证结果及分析
将预处理好的样本数据进行切分,随机种子train_size设为0.8,即样本数据的80%作为训练集,20%作为测试集,其中特征变量为处理后的借款人基本信息和借款信息,目标变量y为借款人的违约状态。将数据输入得到违约风险预测的准确率为98.68%,说明所建立的违约风险模型效果较好。将模型特征变量按重要性排序,如图4所示,显然,在所有特征变量中属于借款人基础信息特征的贡献度小于借款人的借款信息即信用信息特征。贡献度最大的特征变量是违约次数,违约次数这一特征属于连续性变量,随着次数的增大其借款人的违约风险越大,说明借款人因某一原因在规定的时间内未能如期还款或者没有能力偿还借款而违约,那么其后续产生违约的可能性更大,而违约次数为零的借款人其产生违约的可能性很小;其次,违约风险模型中贡献度影响仅次于违约次数这一特征变量的是借款人的借款利率,借款人的借款利率越高,其违约风险越大。在基础信息特征中对违约风险模型影响最大的特征为收入,借款人是否违约受借款收入的影响,显然收入越高越具有还款能力。
违约风险预测模型的混淆矩阵和ROC曲线分别如图5、图6所示,通过计算得出模型的精确率、召回率和F1分数分别为98.32%、97.86%和98.09%,模型具有较高的准确性,训练集、测试集中AUC值分别为0.998 5、0.998 0,AUC值越接近1,说明模型的精度越高。
3 结 论
本文运用统计性分析方法分析了网络借贷平台网贷借款人的违约特征,结合借款人的基础信息与借款信息的18个特征变量,将是否违约作为目标变量,建立Logistic二分类模型,通过混淆矩阵、F1得分以及ROC曲线检验,所建立的违约风险预测模型能够有效预测网贷借款人的违约风险,有助于网络借贷平台对网贷借款人进行贷前的风险评估,从而促进网络借贷的绿色健康发展。
主要参考文献
[1]苏亚,成春林.P2P网贷借款人违约行为影响因素的实证研究[J].金融发展研究, 2017(1):70-76.
[2]丁岚,骆品亮.基于Stacking集成策略的P2P网贷违约风险预警研究[J].投资研究, 2017,36(4):41-54.
[3]熊正德,刘臻煊,熊一鹏.基于有序logistic模型的互联网金融客户违约风险研究[J].系统工程, 2017,35(8):29-38.
[4]沈玉溪,徐浩.P2P网贷借款人违约风险评估——基于决策树的研究[J].经营与管理, 2018(9):13-15.
[5]谭中明,谢坤,彭耀鹏.基于梯度提升决策树模型的P2P网贷借款人信用风险评测研究[J].软科学, 2018,32(12):136-140.
[6]舒方媛,赵公民,武勇杰.P2P网贷借款人违约风险影响因素研究——基于Logistic模型的实证分析[J].湖北农业科学,2019,58(4):103-107,119.
[7]黄建琼,郭文龙,陈晓峰.基于支持向量机的网贷借款人违约风险评估[J].科技和产业, 2020,20(4):40-44.