李 卓,张雄峰,孙瑞玲,杏朝刚,张 棋,张启明,焦绍赫
(1.江西省烟草科学研究所,江西 南昌 330000;2.甘肃省环境监测中心站,甘肃 兰州 730020;3.浙江大学农生环测试中心,浙江 杭州 310058;4.泸州市环境监测中心站,四川 泸州 646000)
【研究意义】烤烟中挥发性化合物是烟叶产生香气的根本原因,也是衡量烟叶品质的重要依据[1-2]。常用的挥发性化合物萃取或进样方法有固相微萃取[3]、同时蒸馏萃取[4]、超临界萃取[5]和顶空法[6-8]。其中固相微萃取受萃取头极性和厚度的干扰较大;蒸馏萃取耗时且样品平行性较差;超临界萃取法成本较高且受夹带剂影响较大。由于静态顶空法直接吸取样品上方气体进行分析,操作简单,条件温和,能杜绝溶剂的污染,所得到的挥发性成分与人体嗅觉所感觉到的气味最接近,与感官评价相关性好,因此采用静态顶空技术收集烟叶挥发性化合物。气相色谱-质谱联用仪被广泛应用于复杂组分的分离、鉴定和定量分析,首先根据样品中各组分的沸点、极性或吸附性能不同,将混合体系中的化合物分离开,随后通过分子、离子和不同丰度的碎片离子确定化合物的分子量和结构信息,可以在没有部分标准品的情况下确定样品中多个化合物的结构并进行定量分析[9]。
【前人研究进展】化学计量学是一种统计学工具,广泛用于数据处理、方法选择、信息提取和结果解释[10]。目前已有一些研究是通过建立化学计量学模型将烟草中的感官评吸质量与化学成分、卷烟材料或气候特征相关联从而实现对烟草的质量控制。陈义强等[11]采用主成分分析和相关分析的方法,分析了不同移栽期处理下气温指标与感官评吸质量的关系,探讨影响烟叶品质的关键气温因子;张亚平等[12]采用偏最小二乘(PLS)回归法,考察了卷烟纸组分(亚麻配比、包灰剂质量分数、助燃剂质量分数和助燃剂中钾钠比)对常规和细支卷烟烟气成分释放量及感官质量的影响;杨超等[13]以9个牌号卷烟的烟叶和配方叶组的氮碱比值、糖氮比值、糖碱比值为研究对象,分析了不同配方组成烟叶的化学成分差异及其组合比例对感官评吸质量及风格的影响;李广才等[14]运用广义可加模型系统研究了湖南烤烟主要化学成分/指标与评吸质量间的线性与非线性关系;周芸等[15]分产地、年份、部位系统分析了闽西、滇东、川西南3个清香型典型产地烟叶中游离氨基酸含量(质量分数)及构成指标与感官质量指标的相关性。【本研究切入点】烟气化学成分被认为与烟叶感官评吸质量最直接相关,而挥发性香气成分作为部分烟气组成和烟气组分的前体物质,必然影响着感官评吸质量,目前行业内基于挥发性化合物的烟草质量控制研究并不多见。【拟解决的关键问题】本研究通过静态顶空-气相色谱-质谱联用测定了赣州烤烟样品中的挥发性化合物含量,并采用主成分分析、遗传算法等化学计量学方法挖掘了赣州不同产地烟叶中挥发性化合物的含量规律,并用线性判别分析、反传-人工神经网络、最小二乘-支持向量机进行了产地预报分类,在烟草研究和生产领域具有重要意义。
赣州作为重要的烟叶产地,烟叶产量接近江西全省产量50%,我们收集到赣州6个产烟区县共62个烤烟样品,其中石城14个、瑞金12个、安远9个、会昌13个、兴国5个、信丰9个(表1)。检测仪器:自动顶空进样-气相色谱-质谱联用仪(Agilent 7697A-7890B-5977A, 安捷伦, 美国)。
表1 烤烟样品的产地信息Table 1 Origin information of flue-cured tobacco samples
1.2.1 样品制备 先用软毛刷刷去烟叶上的细土和砂粒,抽去主脉,切丝机切丝,放入40℃的烘箱中烘干,直至烟丝可捻碎,马上研磨烟丝,研磨不应超过 2 min,然后过0.425 mm筛得到粒径均匀的烟粉样品[16]。
1.2.2 样品检测 (1)静态顶空条件。称样量:0.3 g;样品平衡温度:140℃;样品环温度:170℃;传输线温度:175℃; 辅助加热区温度:185℃;样品平衡时间:45 min;进样时间:0.5 min;进样模式:时间恒定、高压进样。
(2)气相色谱条件。色谱柱:HP-FFAP(50 m×0.32 mm×0.5 μm);进样量:1.0 μL,不分流进样;载气:氦气;流速:0.8 mL/min;进样口温度:240℃;程序升温:初始温度70℃,1.2℃/min升高到110℃,然后1.5℃/min升高到140℃、保持2 min,再5℃/min升高到230℃、保持20min。
(3)质谱条件。离子源温度:230℃;四级杆温度:150℃;电离能:70 eV;传输线温度:240℃;扫描质量数范围:35~455 aum;溶剂延迟:6 min;采集模式:全扫描(Scan)与选择离子检测(SIM)同时采集。
试验数据采用Matlab软件(7.0 edtion,Mathworks, 美国)进行统计处理。
将总离子流色谱图解卷积分析,再对照NIST11库和Willy08质谱库并参考《烟草与烟气化学成分》[17]进行验证,得到54个匹配度大于80的化合物(表2)。
表2 匹配出的54种挥发性化合物Table 2 List of 54 volatile compounds
(续表2)
主成分分析(PCA)是一种无监督模式识别方法,其基本思想是对原始特征变量进行降维并最大限度保留有用信息,通过对测量数据矩阵进行线性组合形成若干个相互正交的新变量(主成分)[18]。将这54种挥发性化合物的含量作为变量对62个烤烟样品进行主成分分析,结果(图1)发现,石城样品的第一主成分得分最低,可以和其他几个产区区分开,其他5个产区的样品互有重叠,尤其是安远和会昌样品,在第一和第二主成分上跨度都很大,分布过于分散;整体而言,第一主成分得分瑞金<安远、会昌<兴国、信丰,但由于样品分布重叠严重,分类规律并不明显。为此,我们采用遗传算法-偏最小二乘法(GAPLS)对变量进行筛选,选择出有利于产地分类的部分挥发性化合物。
图1 样品的主成分投影(PC1~PC2)Fig. 1 Principal component projections of samples (PC1~PC2)
GA-PLS是一种广泛应用的变量选择方法,它根据达尔文生物进化论中“遗传-变异-适者生存”的思想模拟自然进化过程,对需优化的空间进行随机搜索,直至目标函数收敛,从而得到最优解,由于结合了PLS,因此具有较好的预测能力[19]。图2是GA-PLS运行过程中交叉验证方差(Cross validation variance, CV)随变量数的变化图,插图为各变量在迭代运算中出现的频数图,经过100次循环运算后,变量选择完成。当变量数在9以上时,CV几乎达到饱和,上升非常缓慢;当变量数为11时(黑色箭头标注),CV达到最大(94.8%),随后开始略有下降。有文献报道,特征变量的数目需遵循以下关系,S/V>4(S为样品数,V为变量数)[20],本研究中,特征变量个数不能超过15,因此我们选择迭代运行中出现频数在23次及以上的11个变量(图2插图中虚线以上)作为主成分分析变量。
图2 GA-PLS变量选择迭代运算Fig. 2 Iterative operation diagram of GA-PLS variable selection
图3 烤烟样品的GC图Fig. 3 GC chromatogram of flue-cured tobacco samples
图3是烤烟样品的完整色谱图,4个插图为色谱图的局部放大图,11个所选变量对应的色谱峰被一一标出(C1~C11),对应的化合物结构式如图4所示,可以看出,这11种化合物色谱峰面积大小不一,在烟叶中的含量差距很大,说明能引起样品分类效果改变的指标不一定是含量很高的成分,也可以是一些含量很低的组分,这些低含量组分可能在感官评吸中也起到了重要作用。
图4 11种挥发性化合物的结构图Fig. 4 Structures of 11 volatile compounds
图5 依据11个所选变量(挥发性化合物)的所有样品的主成分投影(PC1~PC2)Fig. 5 Principal component projections of all samples based on 11 selected variables (volatile compounds) (PC1~PC2)
图5为42个样品的主成分得分投影(PC1~PC2),相比较筛选变量前,分类效果得到显著改善,尤其是安远和会昌原本分布散落的样品更加集中,PC1贡献率达到78.8%,样品几乎是沿着PC1依次分布,图中用灰线分隔成4个区域,PC1得分依次为石城<瑞金<安远<会昌、兴国、信丰,这和变量筛选前的主成分得分趋势基本相似,4个区域的样品在PC1上就可以完全区分开,会昌、兴国、信丰三地样品的PC1得分较为接近,但是会昌样品的PC2得分要明显高于兴国、信丰,在PC2上也能较好区分,兴国、信丰样品分布比较接近,PC2得分相当,PC1得分信丰稍高于兴国,换言之,6个区县的样品几乎都可以在PC1~PC2投影图上分开,表现较出较高的产地区分度。
图6为11个载荷的主成分投影图,结合样品的投影分布,可以看出这几种挥发性化合物整体含量依次为石城>瑞金>安远>会昌、兴国、信丰,而这一地域排序正好与感官评吸上认为的赣州烟叶香型风格从醇甜香韵占主导逐渐向焦甜香韵转变的趋势相吻合,对于研究赣州乃至省内外烟叶香型风格的划分具有指导意义。其中,样品中2-乙酰基吡咯、2-乙酰基呋喃、1-羟基-2-丙酮、1-羟基-2-丁酮、3-呋喃甲醇、甲酸糠酯等化合物含量由高到低依次为石城>瑞金>安远>会昌、兴国、信丰,这几种物质可能是引起醇甜香韵的关键物质基础的前体组分;兴国、信丰两区县的β-大马酮、3-甲基-2(5H)-呋喃酮、臧红花醛含量要低于其他区县;会昌样品的甲酸糠酯含量最低,石城、信丰含量最高。
图6 所选挥发性化合物的载荷(PC1~PC2)Fig. 6 Loading plot of 18 volatile compounds (PC1~PC2)
为了验证产地分类的可靠性,我们随机选取42个样品作为校正集(石城9个、瑞金8个、安远6个、会昌9个、兴国4个、信丰6个),剩余20个样品作为预报集(石城5个、瑞金4个、安远3个、会昌4个、兴国1个、信丰3个),分别采用线性判别分析(LDA)、反传-人工神经网络(BP-ANN)、最小二乘-支持向量机(LSSVM)3种有监督模式识别方法对样品进行产地预报。
LDA是一种线性参数方法[21],它根据对象之间的欧氏距离将最近邻的对象构建成类,通过减少特征向量使得类间方差的比率最大化而类内方差的比率最小化,寻求不同类别之间的最大分离,从而对未知样品进行分类。
ANN是一种模拟生物神经系统的非线性计算方法[22],分为输入层、隐藏层和输出层,隐藏层和输出层都有相应的激励函数,通过反复的数据信息刺激调整权值(每层神经元与下层神经元间权重);BP是指调整权值的方式为采用最速梯度下降法将训练误差从输出层开始逐层反向传播到每个隐藏层。
SVM是一个具有稀疏性和稳健性的分类方法[23],通过二次规划获得支持向量(SVs),并将输入数据传送到高维特征空间。LS-SVM是一种改进的支持向量机方法,通过运用最小二乘系统取代二次规划获得支持向量。该方法的核心是选择适当的核函数并优化核参数,核函数一般选用径向基函数,并通过留一交叉验证法由网格搜索技术得到高斯中心μ和分布宽度σ。
表3列出了3种模式识别方法的识别率和预报率结果。LDA模型的识别率和预报率分别为83.3%和73.7%,分类错误样本分别有7个和5个;BP-ANN模型的识别率和预报率分别为97.6%和95.0%,分类错误样本均只有1个,LS-SVM模型的识别率和预报率分别为100%和95.0%,只有1个预报集样本分类错误。由此可见,BP-ANN和LS-SVM两个模型得到的预报结果远优于LDA,这可能是因为样品和变量之间并不完全线性相关,LDA仅适用于线性模式识别体系,而BPANN和LS-SVM更适用于存在一定非线性的体系,它们对于非线性模型的预报能力更强,由此我们建立了赣州烤烟样品的产地鉴别模型。
表3 不同模式识别方法的预报结果Table 3 Classification results of different pattern recognition methods
本研究通过静态顶空-气相色谱-质谱联用测定了赣州6个产烟区县(石城、瑞金、安远、会昌、兴国、信丰)62个烤烟样品中的54种挥发性化合物含量,利用遗传算法筛选出其中11种用于主成分分析,可以基本将原本分类效果不理想的6个区县样品区分开。通过LDA、BP-ANN、LSSVM等3种有监督模式识别方法进行产地预报,其中,BP-ANN和LS-SVM的预报结果较好,整体预报正确率分别达到96.8%和98.4%,据此建立了赣州烤烟样品的产地鉴别模型。该模型可以较为准确地判定烤烟样品的来源,同时可以找到不同产地间挥发性化合物的含量规律,一定程度上可以作为赣州不同区县产地烤烟香型风格的判定依据;该方法也可以推广用于省内其他烟区乃至全国烟叶的香型风格划分和质量控制,在烟草研究和生产领域具有重要的意义。