基于主成分—聚类分析判别分析汾河水质研究

2018-01-11 06:06:12洋,王越,陈
华北科技学院学报 2017年5期
关键词:水质评价汾河断面

刘 洋,王 越,陈 威

(华北科技学院,北京 东燕郊 065201)

基于主成分—聚类分析判别分析汾河水质研究

刘 洋,王 越,陈 威

(华北科技学院,北京 东燕郊 065201)

水是万物之源,但如今我国水污染情况已十分严重。在水质评价中,表示某一流域水质情况的指标众多,且不同的指标间往往存在一定程度的重叠。本文利用SPSS软件以及主成分分析法对汾河流域晋中段内所选取的12个监测断面水质进行分析研究,能够在保证原始数据信息损失最小的情况下,使用少数的几个综合变量因素来取代原先的多维变量,从而得出各种变量的权数,为治理污染提供重要的依据。然后通过聚类分析,将样本进行分类,与主成分分析进行相互验证。通过主成分-聚类分析对水质进行评价,能够为水资源的净化、开发、利用以及处理提供科学有效的依据。

SPSS软件;主成分分析;聚类分析;水质评价

0 引言

近年来,随着我国社会经济的快速发展以及人口的膨胀,水资源的需求急剧增长,虽然环境保护问题越来越受到重视,但仍然有部分未经处理的工业废水和生活污水直接排入到江、河、湖、海中,造成了水资源的严重污染。本文通过对汾河流域晋中市内的水质进行采集,记录各个样本中影响因素指标的平均值。采用主成分-聚类分析对水质进行综合评价,能够科学合理地反映出水质的污染程度以及污染成分,从而能够迅速有效地采取相应的措施去解决问题,进而实现水资源的可持续发展与利用。

目前我国主要通过以下8种因素来对水质进行评价分析:溶解氧(用DO表示,水中生物生存的基本条件,并且能够促进污染物降解);化学需氧量(用CODMn表示,指水中有机物含量);生化需氧量(用BOD5表示);总氮(用TN表示,包括有机氮、无机氮、硝酸盐氮);氨氮化合物(用NH3N表示,主要以游离氨和铵盐的形式存在);磷(用TP表示,溶解性的和悬浮性的含磷物);悬浮固体(用SS表示);石油类。在我国,污水的形成主要就是由这8种因素造成的,因此对这8种因素进行分析与评价对于我国进行水资源的综合治理有着重要的意义。

1 主成分分析法

主成分分析实际上是一种降维方法,其主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。主成分的基本思想是,先对n个点绘出l条“最佳”拟合直线,使得这n个点到直线的垂直距离的平方和最小,并称为此直线的第一主成分;然后再求与第一主成分相互独立的,且与n个点垂直距离平方和最小的第二主成分。以此类推,直到求出m个主成分,通常m的取值是使得前几个主成分方差占总方差的85%以上即可。

运用SPSS软件进行主成分分析,步骤如下:

(1) 对原始数据进行收集整理,并进行标准化处理,避免因量纲的不同造成影响;

(2) 计算样本相关矩阵R;

(3) 计算相关矩阵R的特征值、方差贡献率、累积方差贡献率及因子负荷矩阵;

(4) 选择m个主成分(m

2 实例分析

本论文所需要的实验数据采自于汾河流域晋中市内12个监测断面,这12个断面分别分布于河流上游、流经郊区的两条支流以及流经城市的一条支流。然后通过主成分分析法来对所收集的水质资料进行评价。通过调查得知汾河流域晋中市内的污水主要是由生活污水和有机工业废水造成的。12个断面分别用数字1~12来表示;影响因素DO代表溶解氧,CODMn代表化学需氧量(污水中有机物含量),BOD5代表生化需氧量,TN代表总氮(包括有机氮、无机氮、硝酸盐氮),NH3N代表氨氮(以游离氨和铵盐的形式存在),TP代表总磷(溶解性的和悬浮性的含磷物),SS代表悬浮固体,现分别用X1~X8来代表这8种成分。分析数据如下表1所示。

表1 检测断面污染物分析样本(mg/L)

续表

将检测断面污染物样本进行标准化处理,统一变量后用SPSS软件进行主成分分析运算。标准化就是把某列变量的原先值转化为标准分,在进行标准化后,所收集的数据服从以0为均值,1为标准差的标准正态分布。标准化处理结果如下表2所示。

表2 检测断面污染物分析样本标准化处理

运用SPSS软件进行主成分分析后,分析结果如下所示:

由下表3可以看出显著性sig值为0.000,该值比0.05小,并且小于0.01,说明差异性极其显著。由此说明该实验相关性很强,适合做主成分分析。

表3 样本KMO和Bartlett的检验

表4 影响因素相关矩阵

续表

由下表5我们可以看到8个主成分的特征值,方差贡献率以及累计方差贡献率。从表中可以看出,当到第三个主成分的时候,累计方差贡献率就已达到了89.939%,超过了所要求的85%。所以用三个主成分就可以代替原来的8个指标,大大简化了信息。通过表6监测指标成分矩阵,我们可以得出成分矩阵的最重要的三个主成分关系式:

Z1=-0.693X1+0.930X2+0.928X3+0.942X4+0.909X5+0.627X6+0.082X7+0.226X8

Z2=0.198X1-0.105X2-0.105X3-0.012X4-0.233X5+0.760X6+0.988X7-0.002X8

Z3=-0.248X1-0.299X2-0.303X3+0.049X4+0.157X5-0.027X6+0.046X7+0.939X8

表5 累计贡献率

表6 监测指标成份矩阵

根据3个主成分关系式我们可以观察到以下两点:

(1)在Z1中我们可以看到X1所表示的溶氧量为-0.693比较低,抑制主成分的增大,说明溶氧量对于水质的改善能够起一定的作用,并且CODMn、BOD5是有机物,NH3和P是有机物组成所必需的物质,而TN、NH3N、TP的含量又比较多,因此我们可以得出Z1的水质问题主要是由有机污染物排放所导致的;在Z2中我们看出TP、SS的含量比较大,P可能是一些洗漱污水所携带,固体颗粒应该是生活残渣所导致,因此Z2所表示的水质问题主要是由生活污水造成的;Z3只有X8量即石油类比较大,因此很容易得出是由石油类的污染物导致了水质的恶化。

(2)第一主成分Z1的贡献率达到了54.6%,说明了Z1中载荷较高的几个因素对总体的影响较大,即有机工业污染对总体的污染影响最重;其次是Z2占20.9%,载荷较重的是TP、SS,说明导致污染严重的第二个主要因素是生活污水;最后相对较轻的Z3达到14.4%,这是石油类污染物所带来的影响。

3 聚类分析

通过以上所做的主成分分析我们能够了解到导致水质污染的各个因素的重要度情况。下面我们通过聚类分析来探究12个断面的污染物量之间的关系。以污染物监控原始数据为样本,对个案进行分析,采用组间连接,采用样本聚类法进行监测断面的聚类分析,以4次方根作为组间距离。利用SPSS软件进行聚类分析可得出水平树状分类图。下表7是各个断面聚类表,图1是样本聚类分析树形图:

表7 各个断面聚类表

图1 样本聚类分析树形图

从表7我们可以看出分类情况,首先将3、7、12地区分类,可以看出这3个地区中代表污染的各项数据都比较低,水质属于较轻污染;然后将1、8、9地区分类,这3个地区中CODMn数据比较高,属于有机物中度污染;然后将5、10地区分类,这两个地区中SS固体颗粒数据比较高,属于生活污水中度污染;2、4地区中CODMn数据非常高,属于有机物重度污染;6区SS固体颗粒数据非常高,属于生活污水重度污染;11区CODMn、SS、BOD5数据都很高,属于重度污染区。

根据树形图,我们可以看出该次实验水质污染可以分成3类,第一类为序号6区,它的CODMn、BOD5、TN、NH3N、TP值均特别大,明显受到工业污染十分严重;第二类是11区,它的SS值明显偏高,固体颗粒多,说明受到生活污水的影响十分严重;第三类是剩余地区,各方面污染都比较均衡,受到的污染相对较轻。

4 结论

通过对汾河流域晋中市内水质样本抽样检测结果进行主成分分析和聚类分析后,我们可以得出以下两点结论:

(1) 上述分析可以发现晋中市地表污水中,由于工业废水造成的污染最为严重,其次是由于生活污水所造成的污染。所以在治理污水中,要首先加强对工业污水排放的监督管理工作,其次是加强对生活污水的统一处理工作。

(2) 通过聚类分析我们知道各个样本的污染程度,3区、7区和12区应该是在汾河流域的上游,然后一条支流的水流到2区和4区,可以看到固体颗粒污染相对增多,应该是经过村庄等生活区,最后这条支流流经11区,这条支流基本上是经过生活区,因此造成水质污染的主要为生活污水;另一条支流经1、8、9区,这些区域存在工业有机物中度污染,应该是一些工厂,随后是5区和10区,可以推测其继续流经工厂,导致有机物重度污染,最后流经城市,即6区,各方面污染严重加剧。因此,我们可以根据不同的预测结果,对不同地段进行相应的检测,加强控制,从而实现水质的改善。

[1] 刘潇,薛莹,纪毓鹏,等.基于主成分分析法的黄河口及其邻近水域水质评价[J].中国环境科学,2015,35(10):3187-3192.

[2] 李国锋,刘宪斌,刘占广,等.基于主成分分析和水质标识指数的天津地区主要河流水质评价[J].生态与农村环境学报,2011,27(4):27-31.

[3] 邹海明,蒋良富,李粉茹. 基于主成分分析的水质评价方法[J].数学的实践与认识,2008,38(8):85-90.

[4] 杨虎,刘琼荪,钟波.数理统计[M].北京:高等教育出版社,2004.

[5] 刘小楠,崔巍. 主成分分析法在汾河水质评价中的应用[J].中国给水排水,2009,25(18):105-108.

[6] 鲁斐,李磊.主成分分析法在辽河水质评价中的应用[J].水利科技与经济,2006,12(10):660-662.

ResearchonFenheRiverwaterqualitybasedonprincipalcomponentanalysisandclusteranalysis

LIU Yang, WANG Yue, CHEN Wei

(NorthChinaInstituteofScienceandTechnology,Yanjiao,065201,China)

Water is the source of everything, but now China's water pollution has been very serious. In water quality assessment ,there are many indexes that can express water quality in a certain river basin ,and a certain overlapping exists among different indexes. In this paper, SPSS software and principal component analysis are applied to analyze the water quality of 12 monitoring sections in Jinzhong section of Fenhe River Basin. It can guarantee the minimum loss of original data information, and use a few comprehensive variables to replace the original multidimensional variable, thus obtain the weights of all variables, it provides an important basis for pollution control. Then the samples are classified by cluster analysis, and verified with analysis of principal components. The evaluation of water quality through principal component-cluster analysis can provide scientific and effective basis for the purification,development,utilization and treatment of water resources.

SPSS software; principal component analysis; cluster analysis; water quality assessment

2017-09-19

刘洋(1994-),男,山西晋中人,华北科技学院在读硕士研究生,主要从事安全生产自动化和信息化研究。E-mail:511299365@qq.com

X703.1

A

1672-7169(2017)05-0076-06

猜你喜欢
水质评价汾河断面
一图读懂《山西省汾河保护条例》
山西水利(2022年1期)2022-06-07 11:19:24
파금과 염상섭 문학 비교연구의 한 단면(断面)
汾河水韵
滻灞河水质评价方法研究
基于概率统计和模糊综合评价法的水质评价模型及其应用——以拉萨河水质评价为例
基于SPAM的河流水质评价模型
依托百里汾河工程构建体育健身绿道的思考
体育科技(2016年2期)2016-02-28 17:06:05
基于Dijkstra算法的最优解列断面快速搜索方法
国内首台全断面煤巷高效掘进机诞生并交付
天钢Ф210mm断面圆坯的开发与生产实践
天津冶金(2014年4期)2014-02-28 16:52:32