摘 要:根据凯里市乡村振兴局提供的2021年脱贫户帮扶台账数据,建立风险度量的统计模型.首先,使用混料多项式模型构建年收入预测模型;其次,使用logistics回归模型建立返贫风险预测模型,并结合SVM等机器学习算法得到“三类户”的线性分类模型;然后,通过评价得分数据构建与年人均年收入的非参数回归模型.通过多重模型的分析,为基层开展返贫风险排查工作提供技术辅助参考.
关键词:乡村振兴;混料模型;logistics回归;非参数回归
中图分类号:C812" 文献标识码:A" 文章编号:1673-9329(2024)03-0081-12
0引言
“民族要复兴,乡村必振兴”,乡村振兴是党和国家的重大战略.脱贫攻坚是乡村振兴的基础,而乡村振兴是脱贫攻坚的延续和提升,巩固脱贫攻坚成果是全面推进乡村振兴建设的关键.21世纪以来,国家出台了十九个关于“三农”问题的中央一号文件,全面推进乡村振兴是2022年中央一号文件的核心内容.从整体来看,打赢脱贫攻坚战是实现乡村振兴的前提和基础,瞄准特定贫困群众精准帮扶,激发贫困人口脱贫内生动力,不仅能促进区域经济发展,也有利于社会大环境的稳定与和谐.从局部来看,贵州是全国脱贫攻坚主战场之一,更是乡村振兴的先行先试地区.作为贵州省脱贫攻坚主战场的黔东南苗族侗族自治州,截至2020年底,实现了130.19万贫困人口脱贫,1853个贫困村脱贫出列,15个贫困县脱贫摘帽,如期完成脱贫攻坚目标任务,实现了现行标准下农村贫困人口全部脱贫、贫困县全部摘帽[1].虽然脱贫攻坚取得了令人瞩目的成就[2-6],但要深刻认识到:脱贫摘帽不是终点,而是新生活、新奋斗的起点[7].要持续巩固脱贫攻坚成果,全面推进乡村振兴,需要研究乡村振兴与社会发展的各种联系,许多文献从不同角度提出了各种研究的理论与方法,如文献[8]探索了乡村振兴的行为路径,文献[9-11]从教育扶贫的角度研究了乡村振兴的有关问题,文献[12-16]从不同视角下研究了乡村振兴的建设以及扶贫政策的制定.要实现乡村振兴,巩固脱贫攻坚的成果,十分重要的一项工作就是控制返贫风险.近年来,有很多文献都对返贫风险问题进行了研究,如文献[17-21]就是从不同角度研究建立返贫风险预警模型.
不论使用何种理论与方法、从何种视角来研究乡村振兴的相关问题,目的都是为了更好地巩固脱贫攻坚的成果,为乡村振兴提供更好的理论支持与参考依据.关注民生问题,要重点监测易返贫人群,关注脱贫户的生活诉求.鉴于此,本文以贵州省凯里市的脱贫户为研究对象,根据凯里市乡村振兴局提供的2021年脱贫户帮扶台账数据,建立“个人”“户”“村”三个维度的指标体系.从脱贫户的角度来研究乡村振兴的问题,研究脱贫户群众最关心的问题.以户为单位,从脱贫户的基本结构、医疗保障、生活帮扶、住房条件、农产置业、收支情况、居住环境7个方面构建了评价测度,结合人均年收入,“三类户”类别[22]等数据,除了“两不愁三保障”之外,还提供了一套测量的参照标准,预防脱贫户返贫,为巩固脱贫攻坚的伟大成果提出有力的理论支撑.
本文首先基于脱贫户的人均年收入数据提出年收入预测模型;其次结合脱贫户的类别等数据,使用logistic模型,SVM模型构建返贫风险预测模型;然后,由评价得分与收入情况构建非参数回归模型;最后,综合模型分析结果,提出相应的理论依据和参考,提出可以进一步研究的问题.
1数据来源与模型基础
贵州省黔东南州凯里市总人口约70万,是一个以苗族和侗族为主体,多民族聚居的城市.2014年,全市共识别国家标准贫困村81个,建档立卡贫困户16 044户61 516人.5年来,凯里市依托东西部扶贫协作,建成了一批高质量的协作项目,共获得对口帮扶资金8 700万元,帮助贫困人口实现就业3 107人.2018年底,全市贫困发生率由2014年的19.74%下降到2.34%.2019年12月,凯里市作为代表贵州省5个县市之一,接受了国家脱贫攻坚成效第三方评估考核,取得了优异成绩.
本文以凯里市的脱贫户为研究对象,根据凯里市乡村振兴局提供的2017-2021年脱贫户帮扶台账提取出脱贫户个人的相关数据,结合黔东南州2021年统计年鉴获取凯里市20个镇街166个行政村的基础数据,构建返贫风险预测模型.由于脱贫户帮扶台账是以“个人”为单位进行记录的,在构建模型之前,我们已经建立了一套以户为单位的评价体系,即每一户都有一个综合得分,它是由以下几部分构成的:个人级指标(共59项)可计算出基本结构(P1)、医疗保障(P2)、生活帮扶(P3)三项评价得分;以户为单位的指标(99项)可计算出住房条件(H1)、农产置业(H2)、收支情况(H3)三项评价得分;由各个行政村的基础数据可计算出反映居住环境(V)的得分,其中此项得分又由村基础设施、村级规模和留守人口三项计分得到.
将“个人级”指标汇总至“户级”指标,再由每户对应的“村级”指标,经过因子筛选确定出导致返贫的显著因子,并根据重要因子确定需要收集的数据.假设收集到的数据服从某种分布,这是需要通过数据对分布中的未知参数进行估计.即指标集、数据集、参数集所确定的因子、数据和参数估计的值,代入由多种统计模型共同构建加权风险预测模型中,当输入以“户”为单位的数据时,返贫值为返贫风险的概率,风险预测模型的构建过程如图1所示.
衡量脱贫户的生活水平的重要指标就是其年均收入,本文需要使用混料多项式模型对脱贫户家庭人均年收入进行分析.
一般地,假设一户家庭有n个人,在指标B的q个水平下各有n1,n2,…,nq个人,将一户家庭中在B指标下各水平的人员占比记为x1,x2,…,xq,即
xi=nin,i=1,2,…,q,
令x=x1,x2,…,xqT是一个q维混料试验点,记
Sq-1=(x1,x2,…,xq):∑qi=1xi=1,xj≥0,j=1,2,…,q
是q-1维空间中的一个单纯形[23].本文中规定,在单纯形坐标系中的一个点就代表一户家庭,其各分量代表该户家庭在该指标的各水平下人数所占比例.规定xi中的下标i越大,代表的层级越高,根据文[24-26]中讨论的格子点集性质与剖分算法,使用二阶单纯形格子点集将单纯形剖分为若干个区域,如图2所示.
例如,使用单纯形分析脱贫户的民族分布情况,20 850户脱贫户中,共有13 523户家庭其成员全是苗族,占总体脱贫户的64.86%,7.87%的家庭全部是其他少数民族,4.61%的家庭其成员全是汉族,2.98%的家庭是侗族家庭.
2年均收入预测模型
脱贫户的人均年收入是体现精准扶贫的重要指标,如文献[27-28]都是以其作为研究问题的因变量.以y表示2021年20 850户脱贫户的人均年收入,使用单纯形剖分方法脱贫户家庭的人均年收入进行统计建模,确定影响显著的因子.以下建立年均收入与文化程度、健康状况以及劳动力情况之间的混料多项式回归模型.
2.1 文化程度
在一户家庭中,记低学历人数为文盲或半文盲、小学、学龄前儿童、学前教育以及小学生的总人数;记中学历人数表示初中学历、高中学历以及初中生、中职学生、高中生、高职学生的总人数;高学历人数表示大专学历、本科及以上学历以及大专生、本科生、硕士研究生及以上的总人数.以x21,x22,x23表示一户家庭低学历,中学历,高学历人员所占比例.
经过统计整理得到不同文化程度脱贫户家庭分布情况如表1所示,由其最后一行可见3 055户家庭中,中学历与低学历的人员各占一半,这类家庭的成员主要是低学历人员的家长和读高中及以上的在校生,这类家庭占总体的14.65%;有2 855户家庭,其家庭成员都是低学历,这类家庭占总体的13.69%.由此可见,有超过1/4的家庭文化程度都是低的.
在单纯形坐标系S3-1上建立3阶混料多项式模型为
y=13 045.73x21+18 278.63x22+24 938.61x23-9 570.54x21x22-2 086.98x21x23-12 162.63x22x23+1 388.19x21x22(x21-x22)-6 772.75x21x23(x21-x23)-15 580.03x22x23(x22-x23)-11 129.11x21x22x23
在S3-1坐标系中绘制出分布情况,并绘制出模型的等高线图如图3(a)所示,模型的曲面图如图3(b)所示.
模型的检验结果如表2所示,模型的系数在方差分析结果中都达到极显著,3阶混料模型能反映出学历与人均年收入的关系.在脱贫户家庭中,低学历家庭占绝大多数,高学历家庭的收入明显高于低学历家庭,从单纯形顶点来看,低学历家庭人均年收入不足1.2万元,中学历家庭近1.6万元,而高学历家庭达到2.2万元.因此,学历是影响年均收入的显著因子.
从该模型可见,一户家庭中高学历人员占比每提高10个百分点,人年均收入会增加0.24万元.所以,提高脱贫户家庭的文化程度是脱贫的重要举措,这是文[9-11]中的主要观点.
2.2健康状况
在一户家庭中,健康的家庭成员所占比例记为x51;单一疾病或残疾人数等于长期慢性病、残疾以及患有大病的人数总和,在家庭中所占比例为x52;多重疾病及残疾人数等于长期慢性病且残疾、患有大病且残疾、长期慢性病且残疾以及患有大病的总人数,所占比例为x53.根据2021年脱贫户帮扶台账数据显示,有51.95%的家庭中人员都是健康家庭,其余的家庭都存在有非健康人员.
家庭健康状况与人均年收入的3阶混料模型及检验结果如表3所示.其中2阶交互项x51x52,x51x53,3阶交互项x52x53(x52-x53),x51x52x53都未通过检验,这些交互项对模型的影响不显著.
各类家庭户的分布情况如图4(a)所示,表3中的三阶混料多项式模型的曲面图4如(b)所示.从模型的推断来看,健康家庭的年均收入最高,但值得注意的是,病残混合家庭的收入却不低,对此,一方面需要进一步检验模型,此外,通过核对数据,可知这类家庭的人均年收入均值为12 820.94元,主要是政府兜底,转移性收入较高. 可见一个家庭中人员的健康状况对返贫影响是极显著的,因病返贫问题就是巩固脱贫成果的重中之重了[29-30].
2.3 劳动力状况
设一户家庭中的正常劳动人数是由普通劳动力和技能劳动力人员构成;弱劳动力人数是指家庭中的弱劳动力或半劳动力人数之和;无劳动力人数是指无劳动力和丧失劳动力的人数总和.
根据统计,共有2 806户家庭为正常劳动力家庭,占总体的13.46%,其余的家庭中都含有弱劳动力或无劳动人员.值得注意的是有1 234户家庭是弱劳动力家庭,占总体的5.92%.有422户家庭中没有正常劳动力,弱劳动力人员和无劳动力人员各占一半,这类家庭中仅有留守儿童与无劳动力的老人.劳动力分布情况如图5(a)所示.
建立劳动力状况与人均年收入的3阶混料模型及检验结果如表4所示.
结合图5 (b)可直观地看到,正常劳动力家庭的收入明显高于其他类型的家庭.如果一个家庭是以弱劳动或无劳动能力的成员为主,其年均收入是明显低于正常劳动家庭的.根据x61的系数可知:完全正常劳动力的家庭,年均收入的均值能达到21 468.3元,比其他类家庭高出近一倍.
根据混料模型可以预测不同类家庭的年收入情况.健康状况、文化程度、劳动力状况都是家庭收入的影响因素,不同类别的家庭,年收入差异是显著的.文化程度、健康状况、劳动力情况这三大因素是影响脱贫户家庭人均年收入的显著因子.教育扶贫政策是脱贫攻坚、乡村振兴的重要工作,是长期坚持实施的基本政策.
3 返贫Logistic风险度量模型
凯里市2021年末20 850户脱贫户中,有875户为边缘易致贫户,有87户为突发严重困难户,有765户为脱贫不稳定户,这三类家庭共计1 727户,占总体的8.28%.评价一户家庭是否属于易返贫户,除了根据其人均年收入,生活条件以及物质保障等方面来衡量,也与家庭的各个方面息息相关.为了全面精准地监测脱贫户的基本状况,及早判断其可能返贫的各种情况,有效地制定相关政策,做好帮扶工作,这些都需要建立全面的判别模型.
本节将边缘易致贫户、突发严重困难户和脱贫不稳定户三类家庭的监测类别属性赋值为0,其余的脱贫户家庭赋值为1,并将这一指标令作变量Y.
Logistic回归模型是用于风险度量的一类重要模型,在脱贫攻坚的工作中有着广泛的应用.我们以变量属性分别建立两个Logistic模型,其中模型I选取的变量主要是家庭户中不同成员所占的比例,这样建立的模型以前文中讨论的混料模型为基础;模型II主要选取家庭户的离散指标下的数据,再由两个模型构建加权logistic模型.经过多轮反复尝试,可以验证这两个模型都具有良好的显著性与稳健性.
3.1 logistic模型I
经过多轮变量筛选,最终确定户级指标中的10个作为自变量,分别为:家庭人口(x1),老年人员所占比例(x2),低学历人员所占比例(x3),单一疾病或残疾人员所占比例(x4),多重疾病及残疾人员所占比例(x5),弱劳动人员所占比例(x6),不能劳动人员所占比例(x7),非在校生平均工作时长(x8),人均年收入(x9),农业用地面积(x10).将得到的logistic回归模型进行检验,得到结果如表5所示.
这里,是令q表示有返贫风险的概率,x=(1,x1,x2,…,x10)T,估计的系数向量为I=(0.035 2, 0.204 0, 1.108 0, -0.391 5, 0.661 6, 1.623 0, -1.794 0, -1.432 0, 0.047 2, 0.000 2, 0.013 6)T.则对应的logistic模型I为
1-q(x)=exp(xTI)1+exp(xTI)(1)
当一户家庭的10项指标数值代入模型中,计算出返贫风险大于0.5的,结合其他评价指标,应该给予重点关注.从模型I的系数可见,如果一个家庭中的多重疾病及残疾人员所占比例越高,这户家庭返贫的概率会急剧增加.
3.2 logistic模型II
在户级指标和农业用地面积方面,令年龄类别(z1)、家庭民族类别(z2)、学历类别(z3)、健康等级(z4)、劳动力等级(z5)、工作时长等级(z6)、农业用地面积(z7)、住房面积(z8).经过计算,家庭民族类别(z2)的影响并不显著,所以在下面的讨论中不考虑这一解释变量.令z=(1,z1,z3,z4,…,z8)T,估计的系数向量为II=(0.944 008, 0.158 299, 0.200 959, -0.061 95, -0.303 151,0.418 033,0.016 528,0.001 8)T.对应的logistic II号模型为
1-q(z)=exp(zTII)1+exp(zTII).(2)
将得到的logistic回归模型进行检验,得到结果如表6所示.
当一户家庭的10项指标数值代入模型中,计算出返贫风险大于0.5的,结合其他评价指标,应该给予重点关注.根据不同显著因子定义的各个水平,使用以下的向量
b1=(1,2,3,4,5)T,b3=(1,2,3,4)T,b4=(1,2,3,4)T,b5=(1,2,3,4)T, b6=(1,2,3,4)T,b7=(10,20,30,40,50)T,b8=(30,60,90,120,150)T.
分别对应了7个解释变量(不考虑民族类别z2)的各个水平.将各个水平进行完全组合,令z1=b116400,z3=15b311600,z4=120b41400,z5=180b51100,
z6=1320b6125,z7=11280b715,z8=16400b8.
其中“”表示矩阵的Kronecker积,1k表示元素全部为1的k维列向量.
矩阵Z=(z1,z3,z4,…,z8)=(zij),Z是一个32 000×7阶矩阵,计算出在各个组合下模型II的结果,令向量(t1,t2,…,t32 000)T=ZII,将所有值代入模型中计算得到
qi=11+exp(ti),i=1,2,…,32 000
是各种不同水平组合下返贫的风险值.
3.3 加权预测模型
如果将20850户脱贫家庭的数据代入模型中,分析得到各户人家的返贫风险值.整理于表7中,由此可见,在没有疾病以及其他不可抗力因素的影响下,仍然有98%的家庭返贫的风险在0.3—0.4之间.
由上表可见,模型I是以各类人员占比作为解释变量,即解释变量都是连续型的数据,而模型II中的7个解释变量有5个是离散型数据.由于解释变量的选取不同,导致模型分析的结果不同,但差异不大,两类模型计算出的返贫风险都在0.26—0.46之间.为了综合的度量一个家庭的返贫风险,令
q(x,z)=α1+exp(xTI)+1-α1+exp(zTII),α∈(0,1)
为评价家庭的返贫风险.
这里之所以没有将所有变量都列入同一个logistic模型,是因为经过多次的逐步回归与变量筛选,最终才确定了两个系数极显著的模型,用两个模型的加权组合是合理的.
返贫风险预测模型是作为贫困标准的一个辅助参考,综合结合监测对象类型,查看这些家庭的具体情况,多维度分析深层次原因,控制返贫率,巩固脱贫攻坚成果,这些工作任重而道远.
4 年均收入的非参数回归预测模型
根据收集到的2017—2021年脱贫户帮扶台账数据,我们已经建立了一套以户为单位的评价体系,即每一户都有一个综合得分,分别为:基本结构(P1)、医疗保障(P2)、生活帮扶(P3)、住房条件(H1)、农产置业(H2)、收支情况(H3)以及居住环境(V)的得分.以2021年的脱贫户数据为基础,计算每一户的综合得分.令
si1=Pi1+Pi2+Pi3
是按第i户家庭的个人级指标反映的基本结构、医疗保障、生活帮扶三项得分总和;同理,令
si2=Hi1+Hi2+Hi3与si3=V
分别为户级指标和村级指标的综合得分,其中Pij,Hij,Vij,i=1,2,…,20 850,j=1,2,3是以户为单位计算得到的相应得分.
令矩阵S=s1,s2,s3=sij20 850,3i,j=1,以变量y表示各户的人均年收入,首先分析三组得分,即人(S1)、户(S2)、村(S3)是否存在共线性.计算三者的相关系数,并绘制出散点相关矩阵图如图6所示.
由图6可见,三个指标并没有强的相关性.一方面,需要建立以人均年收入为因变量,各组得分为解释变量的模型,以此来预测得分变化与收入变化之间的关系;另一方面,以户为单位,考虑每一户的总得分情况与人均年收入之间的关系.以S1,S2,S3为自变量,y为因变量,根据数据得到的二次回归方程为
y=12 433.68 + 198.84S1 -401.13S2 -766.07S3 "+ 21.89S1 S2 "+ 40.24S1 S3 "+ 27.74S2 S3 -1.49S1 S2 S3
经过检验,这个方程并不显著.考虑将三个变量两两进行组合,再与y联立回归模型.这是得到三个回归方程,其回归曲面与散点分布如图7所示.
由图7可见,回归方程不能很好地拟合得分与人均年收入的数据,回归曲面仅仅给出了趋势的预测,在图7(a)和(b)中,会看到随着分数的增加,收入有显著的提高.这说明了两个问题:(1)打分系统不能准确地预测人均年收入,这是必然,但是随着分数的增高,收入有显著提升;(2)回归模型在某点(s01,s02,s03)的响应值,基本上位于在该点处所有数据的均值,根据95%置信区间可以推断出这点响应的预测值区间,是很有参考价值的.
如果使用综合得分作为解释变量,人均年收入y作为因变量,使用Nadaraya-Watson核估计[31]建立非参数回归模型.设K(t)为给定的核函数,令
Kh(t)=1hK(th)
其中hgt;0为窗宽参数,回归函数m(x)在x0点的Nadaraya-Watson核估计为
NW(x0)=∑ni=1Kh(Xi-x0)Yi∑ni=1Kh(Xi-x0)=∑ni=1K(Xi-x0h)Yi∑ni=1K(Xi-x0h)
若记Wni(x0)=1hK(Xi-x0h)1h∑ni=1K(Xi-x0h),则关于函数值的加权函数估计为
NW(x0)=∑ni=1Wni(x0)Yi
绘制出关于(S,y)的散点图,然后在上式中,我们将所有的综合得分数据代入非参数模型中,取窗框参数h=0.5,绘制出非参数回归的曲线,如图8所示.根据文[32]中提出的方法,我们构造出非参数回归模型的置信区间为
[NW(x0)-σ*nzα/2,NW(x0)+σ*nzα/2]
即在x0点处的置信区间,其中记号zα/2表示标准正态分布的α/2分位点.这里的σ*n我们以不同的区间[30,35],[35,40],…,[75,80]上,y值的标准差来定义.计算表得到NW(x0)的95%置信区间,如图8中两条绿色曲线所示.
由图8可见,由于人均年收入方差较大,在拟合的曲线左边界出现很强的边界效应,并且有极少数户收入超过10万元,影响了拟合曲线的趋势.
使用非参数模型建模,优点与缺点同样明显.一方面,非参数模型没有显示表达,根据实际数据得到的拟合方程,有更优良的预测性;另一方面,根据非参数模型可以建立起综合评价得分与年均收入之间的联系,在后期决策与政策制定方面,都可以根据以往的数据进行建模,预测出在各种情形下的收入预测值.如果因变量选择为其他变量,则同样可以根据非参数模型进行预测.
5 总结
考虑到人均年收入是巩固拓展脱贫攻坚成果的关键变量,据此建立了三个混料多项式模型来寻找影响人均年收入的主要因素:文化程度、健康程度和劳动力状况.人均年收入预测模型能够分析研究不同类型家庭的收入状况.
以混料多项式回归方法建立年均收入预测模型,使用logistic模型建立返贫风险预测模型,再结合SVM建立监督学习算法,构建脱贫的分类模型.经过SVM分类后的数据,对于识别的脱贫户,无须过多检验.通过比较分析,选取识别效果最好的LightGBM模型作为最终的易返贫户识别模型.
在实际中需要结合多个模型优势,综合分析脱贫户的基础数据,一方面能辅助基层工作者开展返贫风险排查,聚焦目标,极大地提高基层工作者的工作效率,这对全面推进乡村振兴建设具有极其重要的意义;另一方面,为巩固脱贫成效政策制定和精准落实提供建议和方向,为基层开展返贫风险排查工作提供技术辅助参考.
诚然,无论是年收入预测模型还是返贫风险预测模型,终究不是放之四海而皆准的模型,在实际工作中,需要因地制宜,结合当地政策与脱贫户的具体情况,整体宏观地进行研究,所有的模型只是在乡村振兴实现过程中的数据支撑与辅助参考.例如易返贫户识别模型的改进就可以结合数据重采样和人工数据合成法等不平衡样本处理技术对模型进行改进,同时可以探索集成学习和代价敏感学习等方法进一步提高模型精度.
参考文献:
[1]
吴会武. 担当创奇迹,伟业炳史册—— 黔东南州决战决胜脱贫攻坚成就回眸[N]. 黔东南日报,2021-03-11(5).
[2]杨阳洋. 云南取得新时代脱贫攻坚的全面胜利[N]. 云南法制报,2022-09-07(001).[3]周洪. 全省484万贫困人口全部脱贫[N]. 合肥晚报,2022-09-02(A04).
[4]陆青剑. 为人民书写 为时代存照[N]. 贵州日报,2022-08-26(005).
[5]孙玉环,王琳,王雪妮,等.后精准扶贫时代多维贫困的识别与治理——以大连市为例[J].统计与信息论坛,2021,36(2):78-88.
[6]杨朔,李博,李世平.新型农业经营主体带动贫困户脱贫作用研究——基于六盘山区7县耕地生产效率的实证分析[J].统计与信息论坛,2019,34(2):78-84.[7]王莉.从脱贫攻坚到乡村振兴[J].今日中国,2021,70(3):18-19.
[8]洪名勇,李富鸿,娄磊,等.探索从脱贫攻坚到乡村振兴的路径选择——来自2047县(区)2006~2018年的实践经验[J].贵州财经大学学报,2021(6):87-98.
[9]邹培,雷明.教育帮扶:从脱贫攻坚到乡村振兴[J].首都师范大学学报(社会科学版),2022(S1):72-84.
[10]雷明,王璠,刘曦飞.赋能:教育扶贫之根本——中国脱贫之道[J].首都师范大学学报(社会科学版),2022(S1):7-21.[11]李佳健,林广成,钊剑,等.精准教育扶贫视域下“以学习者为中心”的智慧研修生态构建与应用研究[J].首都师范大学学报(社会科学版),2022(S1):114-122.[12]李泽环. 脱贫攻坚视角下和龙市乡村振兴的路径与对策[D].长春:吉林大学,2020.[13]刘溢文,曾秀兰.人才振兴视角下专家服务队赋能乡村振兴探索——以清远市为例[J].南方农机,2022,53(17):107-111,116.[14]黄锐,王飞,章安琦,等.民族地区防返贫机制研究——基于多维返贫视角[J].中央民族大学学报(哲学社会科学版),2022,49(1):119-129. [15]陈哲,李晓静,刘斐,等.政治信任、村庄民主参与与扶贫政策满意度研究[J].统计与信息论坛,2019,34(8):84-89.[16]张梦林,李国平,侯宇洋.从脱贫攻坚到乡村振兴:金融素养如何防范返贫[J].统计与信息论坛,2022,37(2):117-128.[17]王睿,骆华松.贫困退出背景下返贫风险预警与评价[J].统计与决策,2021,37(20):81-84.[18]李贺,赵荣.贵州独山县返贫风险监测预警机制实践探讨[J].林草政策研究,2021,1(3):67-75.[19]陈茜,王子,周舟.返贫风险因素分析与化解返贫路径研探——基于贵州省的实际情况[J].乡村论丛,2022(4):115-120.[20]汪儒军. 返贫风险预测及防返贫对策研究[D].南昌:江西财经大学,2022.[21]赵爽,胡丽娜.脱贫人口返贫风险预警研究[J].中国管理信息化,2022,25(11):223-225.
[22]廖冰,邝晓燕,邹佳敏.后扶贫时代“三类户”返贫风险识别与测度研究[J].干旱区资源与环境,2022,36(10):25-33.
[23]CORNELL J A. Experiments with mixtures: Designs, models, and the analysis of mixture data[M]. New York: John Wiley, 2011.
[24]李光辉,李俊鹏,张崇岐.复杂约束域内混料最优设计的格点评价[J].应用概率统计,2022,38(2):253-266.
[25]李光辉,李俊鹏,张崇岐.混料格点设计的性质及应用[J].高校应用数学学报A辑,2021,36(4):379-388.
[26]ZHAO H Q, LI G H, LI J P. Uniform test on the mixture simplex region[J]. Symmetry, 2022,14(7): 1371.
[27]赵正,侯一蕾,温亚利.精准扶贫项目与农村居民收入增长——基于倾向得分匹配模型的分析[J].统计与信息论坛,2018,33(11):104-110.
[28]周迪,钟绍军.中国多维减贫成效的统计测度研究[J].统计与信息论坛,2019,34(2):85-96.[29]刘晓宇,刘长君.后扶贫时期建立健全防止农村“因病返贫”长效机制研究[J].中国卫生法制,2021,29(6):116-119.
[30]蔡高成,赵海清,李光辉.基于Logistic回归的扶贫满意度评价模型[J].凯里学院学报,2019,37(6):10-13.
[31]吴喜之, 赵博娟. 非参数统计[M]. 北京:中国统计出版社, 2009.
[32]薛留根. 非参数回归函数的置信区间[J]. 应用科学学报, 2002(1): 77-79.
[责任编辑:刘红霞]
Prediction Model of the Poverty Return Risk from the Perspective of Poverty Alleviation
LI Guanghui1,2,JIANG Zeqin2,FENG Shu2
(1. Kaili University, Kaili, Guizhou, 556011, China;2. Kaili Statistics Bureau, Kaili, Guizhou, 556001, China)
Abstract:
According to the 2021 poverty alleviation account data provided by Kaili Rural Revitalization Bureau, a statistical model for risk measurement is established. First, the mixed polynomial model is used to build the annual income prediction model. Secondly, the logistics regression model is used to build the poverty risk prediction model, and the linear classification model of \"three categories of households\" is obtained by combining SVM and other machine learning algorithms. Then, the non parametric regression model with the annual per capita annual income is built through the evaluation score data. Through the analysis of multiple models, it provides technical assistance for grass-roots units to carry out poverty alleviation risk screening.
Key words:
Rural revitalization; mixture model; logistic regression; nonparametric regression