北方工业大学 姜晨 刘喜波
P2P网络借贷是一种由借款人、网贷平台、资金出借人三方共同组成的一种互联网金融模式,借贷双方根据网贷平台制定的借贷规则,签订包括借款金额、借款利率、借款期限等条款的合约,通过互联网完成投资和借款。P2P网贷发展初期疏于监管,从业者大多缺乏金融操控经验,不善于控制风险,单纯根据借款人提供的个人资料主观地给予授信额度,无法对借款人的信用风险进行高质量识别,造成大量借款人违约,投资人血本无归,网贷平台出现大量坏账,不断出现停业、提现难、跑路、经侦介入等问题,正常运营网贷平台数量不断减少,小规模平台难以为继,大规模平台不得不进行转型,寻找新的出路。现在P2P网贷公司的转型方向大多为网络助贷或网络小贷,但网络小贷牌照要求高,需要网贷平台拥有一定的技术和资金实力,成功转型的难度较大。为此网贷平台纷纷效仿国外老牌P2P网贷平台,转为网络助贷公司,只是单纯的信息中介,不承担贷款风险,类似于我国现有的无担保线上交易模式,这对P2P网贷公司提出了更高的要求,网贷平台应采用更加科学有效的方式对借款人进行审核,识别出违约风险较高的借款人,为此研究如何通过借款人的个人信息对借款人的违约风险进行正确识别,对网贷平台有效筛选优质借款人、制定借贷规则、降低投资人风险,维护互联网金融市场秩序等方面均有重要意义。
国内外学者在对信用风险的研究中,发现运用机器学习方法在预测借款人违约风险时,准确率往往高于传统的统计方法,例如层次分析法、因子分析法等,此类方法以统计学理论为基础,无法完全摆脱主观性以及理论假设对其造成的影响。在对文献进行研读时,发现以往学者往往采用单一模型进行风险识别。本文在考虑利用机器学习算法的基础上,使用遗传算法对BP神经网络进行优化,得到优化后的GA-BP神经网络模型对我国某P2P网贷平台数据进行分析。
BP神经网络是一种利用反向传播回传误差对参数进行修正的多层前馈神经网络,在利用BP神经网络解决实际问题时,需要对大量的参数进行调节修正,可能会出现陷入局部最小值、影响预测精度或者收敛速度慢、训练时间过长等问题。遗传算法是模拟自然界的生物进化过程,通过选择、交叉与变异等遗传操作寻找最优解的全局搜索方法,具有较高的全局搜索能力跟全局收敛能力,为此利用遗传算法对BP神经网络模型进行优化,寻找BP神经网络最优的初始权值与阈值,可以防止其陷入局部最小值,提高预测精度,增加模型收敛速度,提高模型的精确性。GA-BP神经网络算法流程如下所示:
(1)确定神经网络的拓扑结构。给定神经网络的输入层、隐藏层与输出层各层节点数、最大训练次数、学习率,激活函数以及模型训练函数。
(2)定义遗传算法的参数。设定代沟、交叉概率、变异概率、目标函数等。
(4)解码,训练BP神经网络。将数据划分为训练集与测试集,利用测试集对神经网络进行训练,测试集对神经网络进行测试。
(5)设计适应度函数。基于遗传算法优胜劣汰的本质,我们需要一个指标去评价一个个体的好坏,来决定个体被选择的概率大小。
(6)得到新种群。对原始种群中的个体进行选择,交叉、变异得到子代,计算子代的目标函数值,子代代替父代中适应度最小的个体组成新种群。
(7)确定是否达到最大遗传代数。当达到最大遗传代数时,对种群进行解码,得到最优的初始权值与阈值,带入模型进行预测。若没有达到最大遗传代数则返回到解码得到权值与阈值,继续进行循环,直到达到最大遗传代数。
我国网贷平台的转型方向为网络助贷公司,类似于无担保线上交易,只担任信息中介的角色,对借款人的违约风险不进行担保,我国某P2P网贷平台就是类似的无担保线上交易平台,为此利用该平台在2015—2017年328850条样本,变量包括成交时借款人的信息与标的特征,其中7个定量变量、11个定性变量。
在利用数据进行分析之前,应对数据进行处理,首先通过相关性检验,检测各个变量与借款人是否违约、是否存在相关关系。利用斯皮尔曼非参数相关性进行检验,发现各变量的P值均小于0.05,通过相关性检验,借款人的信用风险与自身的各类信息之间存在相关关系,不同的借款利率存在不同的信用风险,借款人的交易历史表现同样会影响其违约概率。接下来利用随机森林算法对指标的重要性进行评估,找到指标重要性排名前十的指标进行下一步分析,由于是否违约属于不平衡数据,没有违约的样本数目远远大于违约的样本数目,分类器将分类的准确率作为学习目标,若一类的样本数目远远大于另一类,分类器可能为了提高分类精度而将少数类别预测错误,为此进行不平衡数据处理,利用欠采样的方法,随机在没有违约的样本中抽取样本,使得两类样本的比例接近于1:1,对数据进行标准化处理,选择数据的80%为训练集,20%为测试集,且设定训练集和测试集中各类样本比例也近似于1:1,得到最终的分析数据。利用随机森林算法得到变量重要性,其中重要程度最高的重要性记为100%。历史成功借款金额的重要程度最高,其次是总待还本金,借款金额与历史正常还款期数、借款次数,各变量之间的重要性差距较大,借款利率的重要性不到历史成功借款金额的重要性的八分之一,其中学历认证、性别、征信认证、借款期限等7个变量的重要性较小,均小于10%,选择重要性大于10%的10个变量用于最终模型构建。
根据GA-BP神经网络模型的算法流程,设定相应参数、各项算子以及各类函数。首先确定神经网络的拓扑结构,神经网络包括三层:输入层、隐藏层和输出层,输入层神经元数为变量的个数,也就是10,输出层神经元数为2,输出数据为标签为1的概率。若大于0.5,则说明违约;若小于0.5,则没有违约。隐藏层神经元数设为15,最大训练次数为100,学习率为0.001,接下来设置遗传算法的参数,个体数目为50、最大遗传代数为100、代沟为0.95、交叉概率为0.7、变异概率为0.01、目标函数为预测误差,待优化参数有197个,适应度函数设为排序的适应度分配函数,选择方法为随机遍历抽样,交叉算子为单点交叉,变异算子为基本位变异。
利用Matlab2017进行模型构建,遗传算法部分使用谢菲尔德遗传算法工具箱,BP神经网络利用神经网络工具箱,首先构建BP神经网络,作为对照组,衡量GA—BP神经网络模型优化能力,因为BP神经网络的初始权重与阈值是随机的,但不同的初始权值与阈值会影响BP神经网络的模型效果,为此我们用同一数据分别训练5次,得到5个BP神经网络模型,以预测误差平均值评价BP神经网络的准确率。模型的预测误差分别为0.3022、0.2462、0.2202、0.2209、0.2152,五次预测误差的平均值为0.2409。
图1 遗传算法优化过程
利用遗传算法对BP神经网络进行优化,得到GA-BP神经网络预测模型。优化过程如图1所示,预测误差由0.2142下降到0.2088,相比BP神经网络模型的结果,预测误差较小,预测精度较高。
难以准确识别出借款人的信用风险是造成P2P网贷平台难以继续经营或成功转型的重要原因之一,研究如何准确识别出借款人的信用风险是研究P2P网贷领域的热点问题。本文利用遗传算法对BP神经网络的初始权值与阈值进行优化,得到GA-BP神经网络借款人信用识别模型,用于对借款人违约风险的预测,实证结果表明:GA-BP神经网络借款人信用风险识别模型相比BP神经网络借款人信用风险识别模型具有更高的预测精度。在模型构建的过程中,发现借款人的历史交易信息会对借款人是否违约产生显著的影响,在贷款前对借款人的信用进行评估是非常有必要的。但本文仅利用了10个变量对模型进行构建,借款人信息较少,在一定程度上限制了模型的预测精度,后期尝试加入更多的变量,提高模型预测精度。另外,GA-BP神经网络模型是将优化算法与机器学习方法相结合用于P2P网贷借款人信用风险预测的一种尝试,下一步,将考虑改变优化算法,增加神经网络模型的复杂程度,寻找最优的P2P网贷借款人信用风险识别模型。