基于QSAR关系预测PCBs和部分PAHs在LDPE中的扩散系数

2018-12-29 01:20:08朱腾义程浩淼何成达
中国环境科学 2018年12期
关键词:采样器描述符扩散系数

朱腾义,姜 越,吴 晶,程浩淼,何成达



基于QSAR关系预测PCBs和部分PAHs在LDPE中的扩散系数

朱腾义,姜 越,吴 晶,程浩淼,何成达*

(扬州大学环境科学与工程学院,江苏 扬州 225127)

分子扩散系数()是获得污染物与环境介质之间的平衡分配系数()的重要前提,然而通过实验测定获取污染物的扩散系数的过程过于繁琐,因此需开发一种更为简单、高效、准确的预测模型来定量预测扩散系数.为此,本文搜集了一些多环芳香烃(PAHs)和多氯联苯(PCBs)在低密度聚乙烯膜(LDPE)上扩散系数(log)的实测值,基于定量结构-活性关系(QSAR),利用逐步多元线性回归(MLR)构建了预测值的模型.模型的决定系数2adj为0.941,交叉验证系数2LOO为0.934,外部系数2ext为0.895.结果表明,该QSAR模型具有良好的拟合优度、稳健性和预测能力,其可用来预测应用域内有机污染物在LDPE膜上的扩散系数.

疏水性有机污染物;扩散系数;定量结构-活性关系(QSAR)

疏水性有机污染物(HOCs)是具有致癌、致畸和致突变性的一类重要环境污染物,且在环境中难以彻底去除[1],因此对各种环境介质中HOCs浓度的检测工作十分必要.被动采样技术是一种用于检测水、沉积物、土壤、空气或其他环境媒介中HOCs浓度的强有力工具[2-3],它是一种基于分子扩散或渗透原理来富集环境媒介中有机污染物的平衡采样技术[4].污染物与采样器之间的化学活性梯度成为了被动采样器的动力来源,在两者持续接触过程中,污染物浓度在采样器中增加,直到达到平衡为止.在使用被动采样装置监测HOCs的浓度时,需要用污染物的扩散系数来估算其吸收速率,因此扩散系数的研究显得尤为重要.

分子扩散系数()是描述疏水性有机污染物毒性效应十分重要的物性参数之一,但是采样器内物质的运输取决于很多因素,包括采样器固相内部自由空隙体积的大小和固相碳链上节段迁移率等[2].大多数污染物的扩散系数都是需要通过繁琐的实验测定获取,然而通过实验并不能测定所有物质的扩散系数,尤其是分子结构复杂且不稳定的物质,实验值可能与真实值误差较大.相关实验数据还远远不能满足日益增长的有机污染物的监测需要,因此需要开发一种更为简单、高效、准确的预测模型来定量预测扩散系数的方法.

定量结构-活性关系(QSAR)是指定量表征有机污染物其分子结构与其活性之间的数学模型[5],可以弥补现有数据的缺失、减少实验测试费用和评估实验结果数据的不确定性,已成为了一种国际上主流预测技术.多元线性回归法(MLR)是构建QSAR模型的传统方法,同时还有主成分分析(PCA)、偏最小二乘法(PLS)、支持向量机(SLT)、人工神经网络(ANN)[6]等其他方法.近年来已有学者利用定量结构活性关系(QSAR)模型对有机物的毒性效应、理化性质和环境行为等进行研究以及预测工作[7].如取代芳香族化合物对4种水生生物的毒性研究[8], ToxCast化学品对CYP450异构酶抑制的QSAR研究[9]等,同时也有利用其他模型来预测溶质扩散系数的研究[10],然而疏水性有机污染物在低密度聚乙烯膜中的扩散系数的研究却鲜有报道.

本文中以低密度聚乙烯膜(LDPE)为被动采样器[11-12]进行研究,搜集整理了一些多氯联苯(PCBs)和多环芳香烃(PAHs)的log实测值,尝试构建基于定量结构活性关系(QSAR)的预测模型,并对模型进行表征和机理解释.

1 材料与方法

1.1 数据集

通过查阅文献并整理[2,13]得到本次数据集,其中包含了39个多氯联苯(PCBs)和26个多环芳香烃(PAHs)共65种疏水性有机污染物在低密度聚乙烯膜(LDPE)中的扩散系数log实测值.对应温度为20℃,其log的数值范围为-11.88~-13.75.

训练集和验证集的划分对于所建模型的泛化能力提供一定证明,在65个疏水性有机污染物中随机选择80%的化合物作为训练集(52个),剩余20%的化合物作为验证集进行预测检验(13个).

1.2 分子结构优化及分子结构描述符的计算

首先生成初始有机物分子结构(ChemBio3D Ultra软件12.0版本),并优化(Minimize Energy软件).然后,运用Mopac Interface的PM7算法[14],从输出文件中提取量化描述符.化合物在LDPE膜上的扩散系数,主要涉及在水相和膜相中形成容纳溶质分子(有机污染物)空穴的能耗效应、溶质分子与溶剂(有机污染物与水相)分子间的极性相互作用以及溶质分子与溶剂分子之间的氢键和类氢键(静电)作用等.本研究选择了5种分子结构描述符来表征上述分子间的相互作用,其中,平均分子极化率()表征分子体积方面的信息,与空穴效应有关.分子最高占据轨道能(HOMO)、分子最低未占轨道能(LUMO)表征氢键相互作用,分子中氢原子的最正净电荷(+)、分子中原子的最负净电荷(-)表征静电相互作用.最后,根据优化后有机物的稳定结构,计算分子结构描述符(PaDEL-Descriptor软件).

1.3 定量结构性质关系(QSAR)模型的构建

对PaDEL-Descriptor软件计算出的1034个分子结构描述符进行逐步多元线性回归分析(采用SPSS 20.0软件),在满足显著性水平<0.001的条件下,筛选出分子描述符数量最少,且决定系数(2adj)最大的(QSAR)预测模型.

1.4 模型的表征

本研究所采用的最优QSAR模型的拟合程度是由两种参数进行表征,分别为经自由度调整后的决定系数(2adj)和均方根误差(RMSE),模型的稳健性由去一法交叉验证系数(²LOO)以及Bootstrapping验证系数(²BOOT)[15]表征,用验证集决定系数(²ext)和外部验证系数(²EXT)[16]表征模型预测能力.其中,部分参数的计算公式如下:

采用基于标准残差()和leverage值(以h表示,代表不同的有机物)定义的Williams图[17]表征预测模型的应用域.的计算公式如下:

训练集化合物的值可由式(5)计算得到,其中,是的矩阵,为训练集化合物的个数,为模型中预测变量的个数,矩阵表征了模型中训练集化合物的描述符空间.

训练集和验证集中化合物的h值可以由公式6计算得到,其中,x为训练集和验证集中第个化合物预测变量的行向量.

式(7)定义了警戒值(*),其中,为预测变量的行向量.

2 结果与讨论

2.1 QSAR预测模型

当预测模型中引入1个分子描述符时,2adj值已经大于0.9,满足拟合优度要求,最优模型表达式为:

log

D

= -3.96×10

-4

ATS0

v

-10.005 (8)

tra= 52,2adj= 0.941,2LOO= 0.934,2BOOT= 0.796, RMSEtra= 0.115,<0.001;ext= 13,2ext= 0.918,2ext= 0.895, RMSEext= 0.158.

该模型具有较大的2adj值(0.941)和较小的RMSE值(0.158),表示模型具有较好的拟合优度;具有较大的2ext和2ext值,表示模型具有较好的预测能力;且2LOO和2BOOT的值表示模型具有较好的稳健性.QSAR模型log实测值与预测值很接近(图1和表1).

图1 log D实测值与预测值的拟合关系

表1 疏水性有机污染物的log D 值及参数值

续表1

HOCsCAS登录号ATS0vlog DHOCsCAS登录号ATS0vlog D 实测值预测值实测值预测值 Hexachlorobenzene(六氯苯)118-74-15564.93-12.68-12.21PCB 15533979-03-28230.36-13.24-13.26 PCB 413029-08-86338.81-12.53-12.52PCB 15638380-08-48230.36-13.34-13.26 PCB 1434883-41-56338.81-12.42-12.52PCB 17035065-30-68703.25-13.56-13.45 PCB 1827323-18-85865.93-12.68-12.33PCB 18035065-29-38703.25-13.57-13.45 PCB 287012-37-56811.70-12.51-12.70PCB 18752663-68-08703.25-13.50-13.45 PCB 2915862-07-46811.70-12.56-12.70PCB 19435694-08-79176.14-13.71-13.64 PCB 3035693-92-66811.70-12.64-12.70PCB 20474472-52-99176.14-13.68-13.64 PCB 3116606-02-36811.70-12.57-12.70

2.2 应用域表征

在OECD关于QSAR模型的构建与验证导则中,明确指出要对所建模型进行应用域表征.模型的验证在QSAR建模过程中非常重要,分为内部验证和外部验证.内部验证可检验模型的稳健性,而外部验证检验模型的预测能力.需对模型的性能进行综合评价的基础上应用模型.

图2 QSAR模型的Williams

已证明统计上显著有效,且稳健的模型,也并不能对所有化合物作出准确可靠的预测,即有必要对建立的模型定义应用范围.主要基于范围、距离、几何、概率密度分布等方法定义训练集样本的特征空间,即模型的应用域[18].

本文QSAR研究模型应用域表征如图2所示.若有机污染物的标准残差落在(-3.0,+3.0)以外时,则认为该点是离群点.如图2可见训练集和验证集中的有机物的标准残差||£3,且所有有机物的leverage值均小于警戒值*,说明模型中没有离群点.因此,QSAR模型能用于预测应用域内其它有机污染物的log值.

2.3 机理分析

QSAR模型中包含一个2D分子描述符,即ATS0v(Broto-Moreau autocorrelation - lag 0/ weighted by van der Waals volumes),它与其log值呈负相关.ATS描述符是一个用来描述化合物如何沿拓扑结构分布的不变量[19],ATS0v是表征范德华体积拓扑距离加权的ATS描述符.范德华体积拓扑距离加权值越大,空间位阻越大,疏水性有机污染物在固相碳链上节段迁移率越低,被动采样器分子接收化合物分子的能力越弱,因此分子更不容易进入到被动采样材料中.综上所述,即ATS0v值越大,其log值越小.

2.4 模型比较

表2 本文模型与前人模型的比较

注:-表示来源文献中未报道.

本文构建的模型与前人的一些模型进行了比较,见表2.与前人模型相比,本文构建的模型所用的有机物数量更多(=65),获得了更高的拟合优度(2=0.94),同时对模型进行了外部验证和应用域表征.

3 结论

3.1 采用定量结构活性关系,构建了65种有机污染物扩散系数的QSAR预测模型,建立了具有良好的拟合优度、预测能力和稳健性的模型.

3.2 模型具有较大的2adj值(0.941)和较小的RMSE值(0.158),训练集和验证集中的有机物的标准残差||£3,且所有有机物的平均值均小于警戒值*(0.115).

3.3 模型对训练集和验证集的预测结果与实测值吻合程度高.

[1] Schmid P, Kohler M, Gujer E, et al. Persistent organic pollutants, brominated flame retardants and synthetic musks in fish from remote alpine lakes in Switzerland [J]. Chemosphere, 2007,67(9):S16-S21.

[2] Rusina T P, Smedes F, Klanova J. Diffusion coefficients of polychlorinated biphenyls and polycyclic aromatic hydrocarbons in polydimethylsiloxane and low-density polyethylene polymers [J]. Journal of Applied Polymer Science, 2010,116(3):1803–1810.

[3] Greenwood R, Mills G A, Vrana B, et al. Passive Sampling Techniques in Environmental Monitoring [J]. Comprehensive Analytical Chemistry, 2007,48(06):199-229.

[4] Tadeusz G, Jacek N. Passive sampling [J]. Trac Trends in Analytical Chemistry, 2002,21(4):276-291.

[5] 周喜斌,韩文静,陈 晶,等.几种QSAR建模方法在化学中的应用与研究进展[J]. 计算机与应用化学, 2011,28(6):761-764.

[6] 梁 菁,郭正元,冯丽萍,等.农药在环境中光化学降解的影响因素[J]. 农业环境科学学报, 2007,(b10):668-673.

[7] 陈景文,全 燮.环境化学: Environmental chemistry [M].大连:大连理工大学出版社, 2009.

[8] 戴朝霞,赵劲松,陈振翔,等.取代芳香族化合物对4种水生生物的毒性研究 [J]. 中国环境科学, 2005,25(2):165-168.

[9] 朱祥伟,陈 浮.ToxCast化学品对CYP450异构酶抑制的QSAR研究 [J]. 中国环境科学, 2017,37(1):386-391.

[10] 刘建国,王洪涛,聂永丰.多孔介质中溶质有效扩散系数预测的分形模型[J]. 水科学进展, 2004,15(4):458-462.

[11] 范 娟,周岩梅. LDPE膜被动采样技术预测模型的建立及其应用 [J]. 中国环境科学, 2015,35(11):3340-3345.

[12] Sacks V P, Lohmann R. Development and use of polyethylene passive samplers to detect triclosans and alkylphenols in an urban estuary [J]. Environmental Science & Technology, 2011,45(6):2270-2277.

[13] Nabi D, Arey J S. Predicting Partitioning and Diffusion Properties of Nonpolar Chemicals in Biotic Media and Passive Sampler Phases by GC × GC [J]. Environmental Science & Technology, 2017,51(5): 3001-3011.

[14] Jhin C, Hwang K T. Prediction of radical scavenging activities of anthocyanins applying adaptive neuro-fuzzy inference system (ANFIS) with quantum chemical descriptors [J]. International Journal of Molecular Sciences, 2014,15(8):14715-14727.

[15] Qin H, Chen J W, Wang Y, et al. Development and assessment of quantitative structure-activity relationship models for bioconcentration factors of organic pollutants [J]. Chinese Science Bulletin, 2009,54(4): 628-634.

[16] Schüürmann G, Ebert RU, Chen J W ,et al. External Validation and Prediction Employing the Predictive Squared Correlation Coefficient — Test Set Activity Mean vs Training Set Activity Mean [J]. Journal of Chemical Information & Modeling, 2008,48(11):2140-2145.

[17] Gramatica P. Principles of QSAR models validation: internal and external [J]. Qsar & Combinatorial Science, 2007,26(5):694-701.

[18] Netzeva T I, Worth A P, Aldenberg T, et al. Current status of methods for defining the applicability domain of (quantitative) structure- activity relationships. The report and recommendations of ECVAM Workshop 52 [J]. Alternatives to Laboratory Animals Atla, 2005, 33(2):155-173.

[19] Adhikari N, Jana D, Halder A K, et al. Chemometric modeling of 5-Phenylthiophenecarboxylic acid derivatives as anti-rheumatic agents [J]. Current Computer-aided Drug Design, 2012,8(3):182-195.

[20]Lohmann R. Correction to Critical Review of Low-Density Polyethylene's Partitioning and Diffusion Coefficients for Trace Organic Contaminants and Implications for Its Use as a Passive Sampler [J]. Environmental Science & Technology, 2012,46(2):606- 618.

Development of QSAR model for predicting diffusion coefficientsof PCBs and PAHs in LDPE.

ZHU Teng-yi, JIANG Yue, WU Jing, CHEN Hao-miao, HE Cheng-da*

(College of Environmental Science and Engineering, Yangzhou University, Yangzhou 225127, China)., 2018,38(12):4631~4635

The application of low density polyethylene (LDPE) as passive sampling devices for monitoring the concentration of hydrophobic organic contaminants (HOCs) requires data on diffusion coefficients () for the estimation of uptake rates. Most of the diffusion coefficients are usually obtained from experimental measurements, which are not readily available for all potential pollutants. Therefore, current work aimed to establish mathematical models for predictingvalues with the physicochemical properties of chemicals. To make further improvements in measuringvalues, this study focused to develop a quantitative structure-activity relationship (QSAR) model for predicting diffusion coefficients. The results of stepwise multiple regression indicated that QSAR model fits well with objectives, and had robustness and predictive capacity, with the determination coefficients (2adj) of 0.941, cross-validation coefficients (2LOO) with 0.943, and with external validation coefficient (2ext) of 0.895. Mechanism interpretation suggested that the main factors governing the diffusion process in LDPE were van der Waals volumes. The results of current study provide an excellent tool for predictingvalues of HOCs within the applicability domains.

hydrophobic organic contaminants (HOCs);diffusion coefficient;quantitative structure-activity relationship (QSAR)

X171.5

A

1000-6923(2018)12-4631-05

朱腾义(1984-),男,山东东营人,讲师,博士.主要从事环境污染化学方面研究.发表论文10余篇.

2018-06-26

国家自然科学基金资助项目(21607123);扬州市自然科学基金资助项目(YZ2016112)

* 责任作者, 教授, hcd@yzu.edu.cn

猜你喜欢
采样器描述符扩散系数
基于结构信息的异源遥感图像局部特征描述符研究
测绘学报(2022年12期)2022-02-13 09:13:01
粉尘采样器检定和校准证书中不确定度区别
Linux单线程并发服务器探索
利用CNN的无人机遥感影像特征描述符学习
基于Sauer-Freise 方法的Co- Mn 体系fcc 相互扩散系数的研究
上海金属(2015年5期)2015-11-29 01:13:59
FCC Ni-Cu 及Ni-Mn 合金互扩散系数测定
上海金属(2015年6期)2015-11-29 01:09:09
非时齐扩散模型中扩散系数的局部估计
PM2.5小流量采样器数据采集与导出系统优化研究
机械工程师(2015年9期)2015-02-26 08:38:20
基于VB的PM2.5采样器数据处理软件的研究
机械工程师(2015年9期)2015-02-26 08:38:15
粉尘采样器流量示值误差的测量不确定度评定
河南科技(2014年1期)2014-02-27 14:04:24