混合数据特征选择算法及在客户流失预测中的应用

2013-11-19 09:40:56周君仪马少辉

江苏科技大学学报(自然科学版) 2013年6期

周君仪,马少辉

(江苏科技大学经济管理学院，江苏镇江 212003)

粗糙集理论是由Pawlak[1]提出的一种处理含糊和不确定性问题的数学工具,随着粗糙集的发展,出现了很多扩展型粗糙集[2-4].在粗糙集的研究中,约简是一个核心概念.很显然,约简是特征选择的过程,特征选择出的子集具有最小的数据量且最具代表性.传统的粗糙集特征选择是针对离散型数据进行处理的,而对于连续型数据,常采用的处理手段是采用离散化方法将数据进行分割,但可能会引入量化误差、改变数据的本质结构,从而导致知识发现能力的下降.

在现实世界中会出现大量数据既包含离散型数据(比如性别、职业),又包含连续型数据(比如收入、通话时长)的情况,这些数据量大,数据维数高,如果不进行特征选择可能就无法进行进一步的分析.文献[5]引入模糊粗糙集的概念,设计了针对混合数据集的特征选择算法.但其所定义的基于模糊等价关系的相对熵不是单调变化的,属性的重要性会出现负的情况.在特征选择时,只选取大于零的值，但负值也表明将某一个属性进行约简的时候信息量发生了一定程度的改变,说明这个属性具有一定的重要性.文中针对混合型数据,在文献[6]所提的CEBARKNC算法的基础上引入模糊粗糙集[7-9]思想,对属性重要性进行改进,使其结果均为正值.进行约简时,对属性重要性选取设定阈值λ,放宽属性约简的边界,使特征选择能更符合真实数据的特性.文中将经过改进的CEBARKNC算法用于实际客户流失预测问题,并与文献[5]的特征选择方法进行了对比分析.

1 模糊粗糙集基本概念

1.1 模糊相似关系

在粗糙集中,等价关系要满足自反性、对称性、传递性.而在模糊系统中只要满足自反性和对称性就可以称之为模糊相似关系.通过模糊相似关系可以构建模糊相似矩阵.要构建模糊相似关系矩阵,必须引入模糊相似关系的度量,即计算相似系数的方法,可以采用绝对值倒数法

计算相似系数,构建模糊相似矩阵M(R′)

1.2 模糊等价关系

文中采用平方自合成法求最大值最小值传递闭包,通过求传递闭包可以将模糊相似矩阵构建为模糊等价矩阵,它既具有传递性,又具有自反性和对称性.

令S为一模糊相似矩阵,依次求其平方:S→S2→S4→…→S2i→…，(i=1,2,3,…).第一次出现Sk∘Sk=Sk时,Sk为所求传递闭包,也即为所求模糊等价矩阵

由xi和R得到的模糊等价类为

1.3 基于模糊粗糙集的条件信息熵

2 基于模糊信息熵的混合数据特征选择算法改进

2.1 改进算法

在基于模糊粗糙集理论的基础上,文中设计了一个改进CEBARKNC启发式算法进行特征选择，其算法如下:

输出:该决策系统的一个相对约简B.

Step2.采用平方自合成法计算传递闭包,求得模糊等价矩阵.

2.2 算法验证

采用UCI数据库中的数据集对算法有效性进行验证.选取数据集见表1.同时采用文中改进的CEBARKNC算法和胡清华提出的一个fuzzy-rough算法进行特征选择,结果见表2.下文中“Hu′s f-r”表示胡清华提出的一个fuzzy-rough算法.

表1 实验数据集Table 1 Experiment data sets

表2 特征选择属性个数Table 2 Numbers of attribute selection of improved CEBARKNC and Hu′s f-r algorithm

由表2可以看出,文中所改进的CEBARKNC算法能较有效地进行特征选择.对于特征选择结果的评价通常以分类器的分类性能来检验,以表2的特征选择结果为基础,构建决策树,并分别计算改进CEBARKNC算法和胡清华提出的一个fuzzy-rough算法的准确率,对比结果见表3.

由表2，3可看出，采用文中改进的CEBARKNC算法得出的准确都比较高,说明改进的CEBARKNC算法不仅能取得较好的特征选择结果,而且能取得较高的准确率,也说明文中改进的算法较适合于以决策树为模型的准确率评价结果.

表3 决策树与特征选择结果比较Table 3 Comparisions of attribute selection with decision tree

3 客户流失预测实验及结果

客户流失预测是一个重要的管理问题,国内外学者对此进行了大量研究[10-12].预测模型精度是一个受数据的预处理技术,分类模型的构建技术,评价指标等多方面因素影响的问题.

文中所设计的特征选择算法在数据预处理阶段对数据进行了主要特征的选择,极大地降低数据维度,减少模型建立的难度和时间,提高了效率.文中采用分类性能来评价特征选择的好坏.将处理过的数据进一步用于客户流失预测分类器建模,既进行了客户流失预测,又以预测性能检验了特征选择算法的有效性.

3.1 数据和特征选择

实验所用原始数据为KDD CUP2009所提供的一个混合型数据集.该数据集包括50 000个客户,条件属性有230个,其中有190个属性的数据值是连续数字型的,40个属性的数据值是字符型的.

首先对原始数据进行清理,将属性数据缺失率超过90%的属性进行删除,剩余属性77个.然后在数据集中选取相对有效数据43 704条,再通过平均值法对数据集中仍然缺失的少量数据进行填充,构成实验数据集A.该数据集是典型的混合型数据,对预处理之后的数据集,根据改进的CEBARKNC算法,设定λ=0.000 005,对数据集A进行特征选择.

3.2 结果与分析

文中实验所使用数据集属性数为230个,其中有190个属性的数据值是连续数字型的,40个属性的数据值是字符型的.首先采用改进的CEBARKNC算法进行特征选择,然后采用胡清华提出的一个fuzzy-rough算法进行特征选择,结果见表4.

表4 改进CEBARKNC算法和Hu′s f-r算法特征选择Table 4 Attribute selection of improved CEBARKNC and Hu′s f-r algorithm

将特征选择结果应用于客户流失预测中,在进行客户流失预测的同时,用分类器的性能来评价特征选择算法的好坏.用数据集对模型训练以后,分别以神经网络(ANN)、逻辑回归建模,得出训练集和测试集的运算结果.对比结果见表5，6.

表5 采用ANN的改进CEBARKNC算法与Hu′s f-r算法对比Table 5 Comparison of improved CEBARKNC using ANN with Hu′s f-r algorithm

表6 采用逻辑回归的改进CEBARKNC算法与Hu′s f-r算法对比Table 6 Comparison of improved CEBARKNC using logic regression with Hu′s f-r algorithm

表5中,将改进CEBARKNC算法和fuzzy-rough算法得出的数据集用于神经网络,经过5折交叉确认,可以看出改进CEBARKNC算法性能比胡清华提出的一个fuzzy-rough算法好.

表6中,将改进CEBARKNC算法和fuzzy-rough算法得出的数据集用于逻辑回归,经过5折交叉确认,可以看出改进CEBARKNC算法性能比胡清华提出的一个fuzzy-rough算法好.

经过神经网络、逻辑回归建模之后的性能比较,可以看出改进的CEBARKNC算法得出的数据集性能比胡清华提出的一个fuzzy-rough算法得出的数据集性能都要好.

4 结论

1)文中以改进的基于模糊粗糙集CEBARKNC算法,选取了高维混合数据的主要特征,极大的减少了冗余属性对预测模型的影响,提高了效率.

2)文中为了检验算法的有效性,将其应用于客户流失预测中,分别采用支持神经网络、逻辑回归构建客户流失预测模型.结果表明：文中所改进的CEBARKNC算法能有效地处理混合型数据集,且经过文中所提特征选择算法处理过的数据集比胡清华提出的一个fuzzy-rough算法得出的数据集的预测效果好,说明改进的CEBARKNC算法是有效的,且能成功应用于客户流失预测研究中.

[1] Pawlak Z.Rough setstheoretical aspect of reasoning about data [M].London:Proceedings of Kluwer Academic Publishers,1991.

[2] Mi J S,Zhang W X.An axiomatic characterization of a fuzzy generalization of rough sets[J].InformationSciences,2004,160 (1-4): 235-249.

[3] 杨习贝,窦慧莉,宋晓宁,等.广义不完备序值系统中的优势关系粗糙集[J].江苏科技大学学报:自然科学版,2011,25 (3): 262-267.

Yang Xibei,Dou Huili,Song Xiaoning,et al.Dominance-based rough set in generalized incomplete ordered system[J].JournalofJiangsuUniversityofScienceandTechnology:NaturalScienceEdition,2011,25 (3): 262-267.(in Chinese)

[4] Yang Xibei,Zhang Ming,Dou Huili,et al.Neighborhood systems-based rough sets in incomplete information system[J].Knowledge-BasedSystems,2011,24(6): 858-867.

[5] Hu Qinghua,Yu Daren,Xie Zongxia.Information-preserving hybrid data reduction based on fuzzy-rough techniques[J].PatternRecognitionLetters,2006,27:414-423.

[6] 王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002,25(7):759-766.

Wang Guoyin,Yu Hong,Yang Dachun.Decision table reduction based on conditional information entropy[J].ChineseJournalofComputers,2002,25(7):759-766.(in Chinese)

[7] Chen Degang,Zhao Suyun.Local reduction of decision system with fuzzy rough sets[J].FuzzySetsandSystems,2010,1619(13):1871-1883.

[8] Parthal′ain N M,Richard J.Finding fuzzy-rough reducts with fuzzy entropy [C]∥In:Proc.17thInternat.Conf.onFuzzySystems.Hongkong:IEEE,2008: 1282-1288.

[9] 徐菲菲,苗夺谦,魏莱,等.基于互信息的模糊粗糙集属性约简[J].电子与信息学报,2008,30(6):1372-1375.

Xu Feifei,Miao Duoqian,Wei Lai,et al.Mutual information-based algorithm for fuzzy-rough attribute reduction[J].JournalofElectronics&InformationTechnology,2008,30(6):1372-1375.(in Chinese)

[10] Huang Bingquan,Kechadi M T,Buckley B.Customer churn prediction in telecommunications[J].ExpertSystemswithApplications,2012,39(1):1414-1425.

[11] 罗彬,邵培基,罗尽尧,等.基于粗糙集理论-神经网络-蜂群算法集成的客户流失研究[J].管理学报,2011,8(2):256-272.

Luo Bin,Shao Peiji,Luo Jinyao,et al.Customer churn research based on multiple classifier fusing rough sets-neural network-artificial bee colony algorithm[J].ChineseJournalofManagement,2011,8(2):256-272.(in Chinese)

[12] Risselada H,Peter C V,Tammo H A B.Staying power of churn prediction models[J].JournalofInteractiveMarketing,2010,24: 198-208.