基于k-DT-LR融合模型的农村商业医疗保险潜在客户识别分析

2022-02-10 13:31:12周可心袁永生林春进
湖北农业科学 2022年24期
关键词:类别分类器医疗保险

周可心,袁永生,林春进

(河海大学理学院,南京 211100)

2020年3月发布的《中共中央国务院关于深化医疗保障制度改革的意见》中指出,到2030年,全面建成以基本医疗保险为主体,医疗救助为托底,补充医疗保险、商业健康保险、慈善捐赠、医疗互助共同发展的医疗保障制度体系[1]。目前,中国商业医疗保险参保的城乡差距较大,2008年城乡居民商业医疗保险参保率均为6.9%,到2013年城镇居民商业医疗保险参保率上升至7.7%,而农村居民商业医疗保险参保率则下降到6.1%[2],因此大力促进农村商业医疗保险的发展,缩短城乡差距具有重要的实际意义。从供给侧来说,对于保险企业能够准确识别农村潜在客户,对于中国多层次医疗保险的建设以及促进自身业务发展都具有重要的作用。

针对商业保险领域,潜在用户识别方法主要有:影响因素分析及使用单个基础分类算法。胡铭珉[3]提出使用数据挖掘技术,挖掘有价值的信息,提高信息的利用率,以拉动保险行业的发展,但未进行具体实践仅介绍了数据挖掘技术在保险业中应用。陆草[2]提出使用二元逻辑回归对商业医疗保险的参保情况进行影响因素分析,但并不能帮助企业有效地识别潜在参保用户。王姗姗[4]提出通过训练单个决策树方法对居民商业医疗保险进行分析,以帮助企业有效识别潜在用户。为进一步提高识别准确率,孙成伟等[5]提出使用集成学习中同质模型融合方法随机森林法预测农村居民是否会购买商业养老保险,准确率达到77.9%,以准确率为模型评价的惟一指标,不能全方位检验模型的性能。

本研究从基础的统计学习方法出发,提出了一个基于k-近邻算法、决策树算法和逻辑回归算法的k-DT-LR融合模型,根据数据环境动态地为个体学习器分配不同的权重,经多组数据集测试表明该方法具有良好的性能,为保险公司识别农村潜在用户提供更加有效科学的方法。该方法将分类正确率提高到90.024%,且在阈值设定为0.6时,第一类别即农村居民购买商业医疗保险的召回率提高到91.402%,解决了模型泛化能力弱、容易遗漏潜在用户的问题。

1 基础算法简介

1.1 k近邻算法

k近邻算法(k-nearest neighbor algorithm,k-NN)是通过测试样本的k个最近邻的标签来计算测试样本的类标签。假设已经定义了它的距离度量。对于任何一个测试样本x,都可以找到它的k个最近邻,用来表示它们[6]。x的类标签由中的训练样本的标签决定,输入训练样本T={(x1,y1),(x2,y2),…,(xN,yN)}其中,xi∈χ为实例的特征向量,其中实例的类别 为yi∈Y={c1,c2,…,cK},i=1,2,…,N。可描 述为:

式中,I为指示函数;i=1,2,…,N;j=1,2,…,K。

对于每个类,它都有一个指示功能。以第i个类为例,其指标功能为:

1.2 决策树算法

决策树算法(Decision tree algorithm,DT)是一个基本的分类和回归算法,模型呈树形结构。决策树主要由结点和有向边组成,从根结点出发,对实例的某个特征进行测试,根据结果将实例分配到其子结点;每一个子结点对映该特征的一个取值,如此递归地对每个实例进行测试并分配,直至达到叶结点,最终将实例分到叶结点的类中[7]。

1.3 逻辑回归算法

逻辑回归算法(Logistic regression algorithm,LR)是统计学习方法中的一种经典分类方法,属于线性模型。给定数据集T={(x1,y1),(x2,y2),…,(xN,yN)},离散随机变量的Y取值集合为{1 ,2,…,K},多项逻辑回归模型公式为:

式中,k=1,2,…,K-1;x∈Rn+1,wk∈Rn+1。

2 k-DT-LR融合模型

单一模型的泛化能力是比较薄弱的,集成学习算法可以聚集多个基础模型的优点,在精度参数上的表现优于单个基础学习器,获得一个鲁棒性更强的分类器。本研究所提的新异质模型融合方法,融合过程可简述为:首先,单独训练上述3个基础分类模型得到3个概率矩阵;然后计算权重,得到融合基础模型;最后,根据数据环境设定阈值,得到最终分类结果。

使用Python软件构造上述3种基础模型,并计算得到每个样本被分到每一个类别的概率值,生成3个概率矩阵。假设k近邻算法、决策树算法和逻辑回归算法输出结果用f(x),g(x),h(x)表示:

其中,yi∈Y={c1,c2,…,cK}为实例的类别,x为样本,p(x|y=ci)代表样本x被分到第i类的概率。

通常在集成学习中,所有的个体学习器性能都被考虑在相同的水平上。然而,无论集成是由同质个体学习器组成,还是由异构个体学习器组成,基础学习器的弱点和优势都会被忽略。为了解决该问题,本研究所提的融合模型给不同性能的个体学习器分配不同的影响能力,即较强的影响能力应该分配给性能较强的基础学习器,较低的影响能力应该分配给性能较弱的基础学习器。

因此,本研究所提出的k-DT-LR融合算法不是通过取个体分类器的平均值进行组合,而是使用线性加权组合,其中每个算法的不同权重是基于性能计算得到,将不同影响系数分配给集成学习方法中使用的基础学习器。

该方法融合算法为:

个体学习器被选择的概率被认为是不相等的,个体学习器在异构集成学习中的功能是不相同的。在集成中个体分类器被选择的概率是每个个体分类器的性能与总性能之比。根据权重计算式(8)和式(9)得到每个个体分类器被选择的概率,增加选择较强大的基分类器的概率,降低选择较弱的基分类器的概率,微调每一个个体分类器的效果。

权重ω计算函数为:

acc1、acc2、acc3表示3个模型的准确率,p(x)为概率矩阵。

设置相应阈值T={T1,T2,…,Tk-1},T的维数与分类数据集的类别数k有关,控制分类精确和召回率,得到最终分类结果。以三分类为例,首先阈值将假设为T={T1,T2},最终分类函数为如下所示:

式中,result为最终的输出函数,c1、c2、c3为二进制函数且不同时为1,即当p1值大于阈值T1时,函数c1为1,c2、c3为0,并输出p1相应类别;否则,函数c1为0。进一步判断p2值是否大于阈值T2,大于则c2为1,输出该类别;反之,c3为1,输出p3所对应类别。

为集合中各种基础学习器分配不同的能力,输出函数从不同的数据环境接收到的不同信号,调整分类阈值进行分类工作。

本研究采用准确率、精确率及召回率3种评价指标,从更加全面的角度来评价模型性能。其中,精确率和召回率是二分类问题常用的评价指标,将其推广至多分类,即在多分类中每一类别依次当作正例,求其每个类别的精确度和召回率以适应不同数据集的分类要求。根据分类函数算法,发现不同的阈值会影响各个类别分类的最终输出结果。升高阈值会提高分类的精确度但是相应召回率会有所下降,因此要根据数据集分类的具体要求适当地调整阈值实现分类模型效果最优。基于上述计算过程,构建k-DT-LR融合算法。

输出:待分类样本的预测结果result。

1)分割数据集为训练样本和测试样本;

2)单独训练k近邻、决策树和逻辑回归学习器,并计算3个基学习器的分类准确率;

3)依据权重ω计算函数式(8)、式(9),计算权重;

4)依据式(7)融合模型,得到概率矩阵p(x);

5)设定阈值T={T1,T2,…,Tk-1},依次提取概率矩阵p(x)中每行元素pi1,pi2,…,pik;

6)比较阈值T1和pi1,若pi1大于T1输出第1类类别,反之继续比较阈值T2和pi2输出样本所在类别,此行循环结束;

7)循环终止直至概率矩阵p(x)每行类别输出,得到最终分类结果result。

本研究所提融合算法的贡献包括:

1)提出了一种新的异质融合策略,结合k近邻算法、决策树算法和逻辑回归算法学习器的优点,提高了分类模型的泛化能力;

2)根据基分类器性能分配权重,将不同的影响系数分配给集成学习方法中使用的基础学习器,模型正确分类的性能提升;

3)从在不同的数据环境中接受反馈,动态调整各类别分类效果,使模型实现了分类效果最优。

3 试验验证

本研究从UCI数据库中随机选取用于分类的5组背景不同的数据集:鸢尾属植物、葡萄酒、国际象棋、乳腺组和皮肤病数据(分别使用序号1至5代指5组数据集)[8]。使用对比分析法对该融合模型的性能进行验证,使用不同领域的数据集对融合模型进行试验,检验模型的各方面性能。

试验所用评价指标为准确率、精确率和召回率。分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:TP表示将正类预测为正类数;FN表示将正类预测为负类数;FP表示将负类预测为正类;TN表示将负类预测为负类数[6]。即准确率定义为:

精确率(precision)与召回率(recall)通常以关注的类为正类,其他类为负类,精确率定义为:

精确率代表正例占了所有预测为正例的百分比,召回率定义为:

召回率又称查全率,是指真正例占了所有原来为正例的百分比。

为进行评估,对本研究将融合方法与k近邻算法、决策树算法和逻辑回归算法3个基本分类器进行性能指标比较。准确率对比结果如表1所示。由表1可以看出,在不同的数据集中,k-NN-LR融合模型准确率均高于所对比的模型,说明该模型具有更强的泛化能力和更好的分类性能。

表1 UCI数据集模型建模准确率

为进一步说明模型性能,计算各个模型精确率和召回率,结果如表2所示。融合算法在多组数据集中,每个类别的精确率和召回率基本上实现数值最优,说明该融合模型可以结合多个模型的优点,在实现准确率提高的同时,也能实现各个类别分类性能最优。试验结果表明,本研究提出的融合方法可以结合多种模型的优点,一方面其各方面性能都要优于使用单一模型,证明了上述主张的正确性;另一方面,k-DT-LR有能力与所有不同类型的数据进行同步,并实现更有利的性能。

表2 模型各类别精确率和召回率

4 农村商业医疗保险识别分析

本研究中实例分析数据来自中国综合社会调查(CGSS)项目组发布CGSS2017年的家户调查数据,该数据集系统地收集了中国人与中国社会各方面的信息,对探讨中国社会发展具有重大理论和现实意义,为促进中国社会科学开放性和共享性发展,以及为政府决策与国际比较研究提供准确、全面的数据资料。现今公布的数据包含A核心模块、C社会网络和网络社会(含ISSP2017)模块和D家庭问卷(含EASS2016)模块,共783个变量[9]。

为促进中国农村居民商业医疗保险的发展,本研究CGSS2017年的家户调查数据中挑选是否参与商业医疗保险作为因变量,基本特征、收入情况、保险参与、社会生活4个维度,共11个指标作为自变量。其中,基本特征包括:性别、婚姻状况、健康状况、儿女数量、教育度;收入情况包括:家庭收入、经济状况所在档次;保险参与包括:公共医疗保险参与情况、公共养老保险参与情况;社会生活包括:社会信任、幸福感[10]。

本研究分析农村人口购买商业医疗保险的情况,因此根据户籍信息筛选出户籍为农业户口的样本,且以是否购买商业医疗保险为类别,在该类别中凡是回答:无法回答、拒绝回答以及不适用的样本,不适用于本研究故删去。现共有样本6 628个,其中第一类别是购买商业医疗保险,共400个样本;第二类别为没有购买商业医疗保险,共6 228个样本。由于初始数据中第一类样本量远小于第二类样本量,数据存在较为严重不平衡性的情况。因此在数据分析前,使用过采样法对数据进行处理。使用Python实现上述融合方法,分别计算出在阈值设定为0.6时,使用各个模型的准确率(表3)。

表3 农村商业医疗保险4种模型建模准确率

融合模型的准确率高达90.024%,明显高于k近邻算法、决策树算法以及逻辑回归算法3个模型的准确率,说明该融合方法正确分类的性能最好。为更加准确评价该模型性能,计算精确率和召回率来进一步评价该模型的分类性能。从表4可以得到,在数据集中需要避免遗漏潜在用户,而不会将第二类别样本错分到第一类别中,因此第一类的召回率越高越好。当阈值设定为0.6时,第一类别的召回率达到91.402%,说明该模型对于遗漏识别潜在用户的可能性小,能够更加准确地找到潜在用户,避免客户的流失。

表4 k-DT-LR模型各类别精确率和召回率

5 结论与建议

本研究通过融合k近邻算法、决策树算法和逻辑回归算法3种基础分类算法,构建起针对农村居民的商业医疗保险潜在客户识别模型,试验结果表明该方法优于现有的分析方法,第一类类别召回率可以达到91.402%。

第一,坚持城乡统筹发展。根据CGSS数据,农村居民购买商业医疗保险仅占6.4%,参保人数较少。因此,要加大商业医疗保险的宣传力度,向农村居民普及购买商业医疗保险的诸多好处,缩小城乡差距。加快构建农村商业医疗保险建设,实现多层次医疗保障体系的构建。

第二,优化医疗保障供给。保险公司要结合农村具体情况,推出符合农村居民的商业医疗保险。在确保低风险的前提下,尽可能提高农村居民投资商业医疗保险的收益。引入大数据分析技术,完善服务体系。

第三,深化乡村振兴战略。农村地区经济较为薄弱,农村医疗保障体系主要依赖于政府为主导的新型农村合作医疗保险[11]。推进农村现代化建设,实现农业经济高效运行,培养出素质富足经济富裕的现代化农村居民,为实现农村医疗保障体系提供有力的经济支撑。

猜你喜欢
类别分类器医疗保险
BP-GA光照分类器在车道线识别中的应用
电子测试(2018年1期)2018-04-18 11:52:35
“三医联动”下医疗保险新走向
中国卫生(2016年7期)2016-11-13 01:06:30
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
服务类别
新校长(2016年8期)2016-01-10 06:43:59
社会医疗保险
降低医疗保险拒付率
论类别股东会
商事法论集(2014年1期)2014-06-27 01:20:42
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别
中医类别全科医师培养模式的探讨