刘 果,谢耀坚*,张党权,罗建中,曾艳飞
(1. 国家林业局桉树研究开发中心,广东 湛江 524022;2. 中南林业科技大学 林业生物技术湖南省重点实验室 经济林育种与栽培国家林业局重点实验室 经济林培育与保护省部共建教育部重点实验室,湖南 长沙 410004;3. 中国林业科学研究院林业研究所 国家林业局林木培育重点实验室,北京 100091)
基于20种桉树叶绿体matK基因序列的系统发育分析
刘 果1,谢耀坚1*,张党权2,罗建中1,曾艳飞3
(1. 国家林业局桉树研究开发中心,广东 湛江 524022;2. 中南林业科技大学 林业生物技术湖南省重点实验室 经济林育种与栽培国家林业局重点实验室 经济林培育与保护省部共建教育部重点实验室,湖南 长沙 410004;3. 中国林业科学研究院林业研究所 国家林业局林木培育重点实验室,北京 100091)
随着公共数据库信息量的不断丰富,桉树基因组序列的公布数据也逐渐增多。本文利用NCBI数据库下载的21条桉树叶绿体matK基因序列进行分析研究,发现软件构建的系统发育树树与学术界承认和使用的Hill & Johnson形态分类学状态有一定的差异,可能与下载的序列数据不够全面、覆盖的信息量不能代表该种基因组序列有关。通过对MP法、ML法、NJ法、UPGMA法和Bayes法等5种方法构建系统发育树、序列信息位点分析和形态学分类状态的比较,UPGMA法构建的系统发育树与序列的信息位点分析结果较为一致,MP法构建的系统发育树较为可信,但进一步的信息确认还需后续的研究证实。
桉树;叶绿体;matK基因;系统发育分析
桉树原产于澳大利亚、印度尼西亚及其附近岛屿,是桃金娘科(Myrtaceae)桉属(Eucalyptus)、伞房属(Corymbia)和杯果木属(Angophora)植物的统称。由于桉树生长速度快、轮伐期短、耐干旱、耐贫瘠、适应性广,且用途广泛,经济效益高,现已被世界近百个国家与地区引种,遍布于我国南方省区、东南亚、欧洲、美洲和非洲,目前已经成为世界公认的三大人工林树种之一。桉树种类繁多,约900余种,其遗传资源丰富,是遗传学研究的模式树种,且随着分子技术的不断发展,巨桉(E. grandis)等树种的基因组成功测序,对桉树分子系统学的研究更具意义[1-2]。
叶绿体DNA分子量约为90 Mda,为双链环状分子。其中的matK基因编码成熟酶K,这种成熟酶参与 RNA转录体Ⅱ型内含子的剪切。叶绿体matK基因是现知被子植物中进化速率最快的基因,多用于科属下属间系统发育关系的研究[3-4]。该基因具有分子量小、多拷贝和结构简单等特点,在分子水平上差异明显,在序列和结构上相当保守,进化速率在基因ITS(internal transcribed spacer,内部转录间隔区)基因和rbcL(Rubisco Large Subunit,核酮糖–1,5–二磷酸羧化酶/加氧酶大亚基)基因之间,变异较均一,为生物多样性分析提供可靠信息,保证了类群间的可比性,可用于种及其以下一级分类群亲缘关系研究[5-7]。
本研究中的 20种桉树均来自桃金娘科桉属,其中蓝桉(E. globulus)有2条序列。通过对下载的21条桉树叶绿体 matK基因序列进行比较分析,构建了分子系统发育树,为桉树的分类和分子鉴定提供有力的理论和依据。
1.1 供试品种
本文所采用的数据均来自于 NCBI数据库(http://www.ncbi.nlm.nih.gov/)序列(表1)。下载的21条序列中,E. sp.BSB-2012-37 ~ E. sp.BSB-2012-40为桉属中不确定的种,蓝桉有2条序列,共20种不同的桉树叶绿体matK序列。橙花桉(E. miniata)属于纹蒴亚属,在我国华南地区零星引种,但现存情况不明。亮果桉(E. nitens)、蓝桉、赤桉(E. camaldulensis)等均属于双蒴盖亚属,其中亮果桉和蓝桉属于蓝桉组,赤桉属于窿缘组[8-9]。21条序列在Hill等[10]于1995年公布的分类系统中的分类学状态见表1。
表1 21条桉树序列信息
1.2 数据处理
DNA序列的排列通过Clustal X 1.81和BioEdit软件自动完成。利用DnaSP Version 5.0软件对排列好的序列进行核苷酸序列分析,包括单倍型多态性差异、核苷酸差异、单倍型数量等。采用PAUP 4.10进行最大简约法(MP,Maximum Parsimony)分析。使用PhyML 3.0软件完成最大似然法(ML, Maximum Likelihood)分析。应用 MEGA 5.0进行邻接法(NJ, Neighbor-Joining)和 UPGMA 法(Unweighted Pair Group Method w ith Arithmetic Mean)分析,并分析各样品DNA序列间的转换/颠换值(Transition/transversion ratio),统计DNA序列变异。利用M rBayes 3.1.2软件进行贝叶斯法(Bayes法)系统发育树的构建。通过对重建的5种系统发育树之间和序列信息位点进行比较分析,得出4种不确定桉树的遗传关系,并分析出最可信的系统发育树。最后,对5种系统发育树与形态学分类状态进行比较分析,得出各个树种在不同分析方法中的遗传关系。以TreeView 3.2软件绘制系统发育树图。
2.1 DNA位点的信息分析
经过 BioEdit软件的手工校对序列后,根据DnaSP Version 5.0软件,得出分析的21条叶绿体matK基因的核苷酸位点有689个。分析位点的多态性可以得出,所有基因序列中有642个单倍型位点,简约信息位点有 16个,单一变异位点有 30个。Tajima's D为负值,说明在所用序列中,存在低频率等位基因位点(表2)。
表2 位点信息分析
通过MEGA 5.0软件分析,21条matK基因序列中的A、T、G和C碱基平均含量分别为30.50%、18.12%、14.86%和 36.52%,(A+T)平均含量为48.62%,(G+C)平均含量为51.28%,并计算得出全部序列的平均距离为0.012。
根据序列间碱基组成偏倚差异程度推断时拒绝零假说(null hypothesis,即序列以相同的替换模式进化)的概率,用Monte Carlo test (1 000 replicates)估算 P值,P值显示在表格的左下方(below the diagonal);P值小于 0.05使被认为显著(用灰色标记)。其中,花胶桉和蓝桉-50的P值为0.042,显著;蜜味桉和雪莱桉、E. sp.BSB-2012-38的P值分别显著;雪莱桉和常桉、黑皮桉、蜜味桉的P值均分别显著。说明这几条序列间的碱基组成比较相似,与碱基组成偏倚差异程度推断时拒绝零假说有显著性差异,即序列不能以相同的替换模式进化。每条序列对应与其他各条序列的平均位点差异系数显示在表格的右上方(above the diagonal),平均位点差异系数最大值为0.033,说明所有序列间平均位点的差异不显著(表3)。
根据最大似然法模型估算出序列间的遗传差异。21条序列间的遗传距离介于0.000 ~ 0.028。由下表数据可以得出,纽约桉和E. sp.BSB-2010-40,黑皮桉和蜜味桉的进化差异为0.000,由此说明纽约桉和E. sp.BSB-2010-40,黑皮桉和蜜味桉遗传差异很小,在系统进化发育上关系很近(表4)。血红桉与其他桉树的遗传距离介于0.015 ~ 0.028,与其他树种的遗传距离都较远。
2.2 系统发育树的构建
利用软件PAUP 4.10,根据启发式搜索后获得12个最简约树,步长57,一致性指数(CI)0.842,维持性指数(RI)0.833。图1为MP法分析得出的严格一致树并给出重复1 000次各分支的Bootstrap值。应用PhyML 3.0软件进行ML法重建系统树见图2,转换和颠换值为1.488。UPGMA法重建系统发育树见图3,NJ法重建系统发育树见图4,Bayes法构建的系统发育树见图 5。5种方法均给出各分支的Bootstrap值。
表3 序列间替换模式的同质性检验
表4 序列之间的进化分歧估计
MP法构建的系统发育树中,4种桉属不确定种的遗传关系为E. sp.BSB-2012-37与蓝桉-26的遗传关系接近。E. sp.BSB-2012-38与红血桉及雪莱桉的遗传关系相邻。E. sp.BSB-2012-39和E. sp.BSB-2012-40与纽约桉的遗传关系相邻。
ML法构建的系统发育树中,4种桉属不确定种的遗传关系与 MP法构建的发育树有一定的区别。其中,E. sp.BSB-2012-38与其他20条序列所代表的桉树的遗传关系均有差异,E. sp.BSB-2012-39和E. sp.BSB-2012-40与纽约桉的遗传关系相邻,但E. sp.BSB-2012-40与纽约桉的遗传关系更为接近。
UPGMA法重建系统发育树中,4种桉属不确定种的遗传关系与ML法构建的系统发育树比较接近。其中,E. sp.BSB-2012-37、E. sp.BSB-2012-39和E. sp.BSB-2012-40与ML法的发育树中一致,但E. sp.BSB-2012-38与雪莱桉的遗传关系更为接近。
NJ法重建系统发育树中,4种桉属不确定种的遗传关系与 UPGMA法构建的系统发育树更为接近。E. sp.BSB-2012-37、E. sp.BSB-2012-39和E. sp. BSB-2012-40与UPGMA法重建的发育树中一致,E. sp.BSB-2012-38与雪莱桉和红血桉的遗传关系比较接近,但红血桉和雪莱桉的遗传关系更为邻近。
Bayes法构建的系统发育树中,E. sp.BSB-2012-37、E. sp.BSB-2012-39和E. sp.BSB-2012-40与NJ法重建的发育树中一致,E. sp.BSB-2012-38与红血桉的遗传关系较邻近。
2.3 5种系统发育树的比较与分析
比较MP法、ML法、UPMAG法、NJ法和Bayes法构建的系统发育树发现5种方法构建的系统发育关系非常相似。研究中未确定的树种E. sp.BSB-2012-37、E. sp.BSB-2012-38、E. sp.BSB-2012-39、E. sp.BSB-2012 -40的亲缘关系在5种方法中构建的系统发育关系非常类似。其中,E. sp.BSB-2012-39、E. sp.BSB-2012-40与纽约桉非常接近,5种方法中3个树种的Bootstrap值均大于50%。ML法、UPMAG法、NJ法和Bayes法均显示出E. sp.BSB-2012-40和纽约桉的亲缘关系更近,且4种方法中,E. sp.BSB-2012-40和纽约桉的Bootstrap值分别为 59、88、65和50,均大于等于50%,说明E. sp.BSB-2012-40与纽约桉亲缘关系更近。由MP进化树可知,E. sp.BSB-2012-38与红血桉和雪莱桉亲缘关系相近,且Bootstrap值为97%; UPMAG树和Bayes树显示,E. sp.BSB-2012-38与红血桉的亲缘关系更近,UPMAG树中二者的Bootstrap值为74%,Bayes树中二者的Bootstrap值为22%;ML树和NJ树中显示红血桉和雪莱桉二者关系更近,ML树中二者的Bootstrap值为79%,NJ树中二者的Bootstrap值为82%,由于3个树种的相关分类资料不够,由此三者之间更一步的亲缘关系仍需验证。5种分析方法均表明E. sp.BSB-2012-37与蓝桉-26的亲缘关系非常接近,进化程度一致,且 5种方法构建的进化树中表示二者的 Bootstrap值均大于等于50%,认为二者亲缘关系更近可靠。同样,蓝桉-50和花胶桉亲缘关系非常接近二者有共同的一个节点,进化程度一致,且MP树、ML树、NJ树和Bayes树中蓝桉-50和花胶桉的Bootstrap值均大于50%,与表3的结果一致。同时根据构建的系统发育树也验证了在序列之间的进化分歧估计表中纽约桉和E. sp.BSB-2010-40,黑皮桉和蜜味桉的进化差异为0.000,表现在系统发育树中为相邻的树种。
图1 MP法构建的系统发育树
图2 M L法构建的系统发育树
图3 UPMAG法构建的系统发育树
图4 NJ法构建的系统发育树
图5 Bayes法构建的系统发育树
3.1 序列信息位点与系统发育树的比较分析
序列信息位点的分析中,P值估算结果显示,雪莱桉、常桉、黑皮桉和蜜味桉的碱基组成比较相似,可以推断出其遗传关系可能比较邻近。最大似然法模型估算出的遗传差异结果表明,纽约桉、不确定种E. sp.BSB-2012-40和E. sp.BSB-2012-39的遗传差异很小,即遗传关系很可能相近,E. sp.BSB-2012-39与纽约桉和E. sp.BSB-2012-40的遗传距离均为0.003,而E. sp.BSB-2012-40与纽约桉的遗传距离估算值为 0.000,可得出二者的遗传关系更相邻。红血桉、雪莱桉和E. sp.BSB-2012-38的遗传距离均显示出较其他树种的大,且红血桉与其他树种的遗传距离为最大,由此可得出,红血桉、雪莱桉和E. sp.BSB-2012-38的遗传关系可能较为接近,雪莱桉与 E. sp.BSB-2012-38的遗传关系可能更为相邻。E. sp.BSB-2012-37与蓝桉-26的遗传距离很近,说明二者的遗传关系可能很接近。
根据序列信息位点的分析结果和5种方法构建的系统发育树比较可得,4种桉属不确定种的遗传关系在两种分析方法中的结果比较一致。5种方法重建的系统发育树中,4种不确定种的遗传关系中,E. sp.BSB-2012-38与红血桉、雪莱桉的遗传关系歧义最多。ML法和NJ法构建的发育树中,均估算出红血桉和雪莱桉的遗传关系更为邻近,而Bayes法中估算出E. sp.BSB-2012-38与红血桉的遗传关系更为相近。仅有UPGMA法构建的系统发育树与序列信息位点的系统分类分析结果最为一致,得出 E. sp.BSB-2012-38与雪莱桉的遗传关系相邻。
从整体来看,5种方法构建的系统发育树是一致的。由于本文所采用的序列差异不大,且位点数相对比较小,因此,MP法构建的系统发育树与Bayes法构建的系统发育树更为接近,分歧更少。与ML法、UPGMA法和NJ法构建的系统发育树在几个节点位置上不一致,Bootstrap值不一致,可能原因是所用序列少,位点数量小。
根据序列信息位点的分析结果,UPGMA法构建的系统发育树中的遗传关系最为接近序列信息位点的分析结果。UPGMA法是以恒定的基因替代速率为前提构建的分子系统树,这可能是与序列位点的分析有共同的前提相关。
3.2 5种系统发育树的比较分析
MP法在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。然而在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,MP法可能会给出一个不合理或者错误的进化树推导结果[11]。本文中被检验序列 21条序列的位点数为每条序列 689个碱基,是小序列位点数,所以由MP法构建的系统进化发育树较其他几种方法不同。根据分析结果可以得出,本文分析所得的MP进化树中虽有较多的梳子结构,是由于在建树中将 Bootstrap值小于50%的节点自动与上一节点合并所致,但其分支结构与其他4种方法一致,进化关系与Bayes法构建的系统发育树一致,因此,本文中MP法构建的系统发育树是较为可信的。
ML法最早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也引入了最大似然法的分析方法。最大似然法是一个比较成熟的参数估计的统计学方法,具有很好的统计学理论基础,当样本量很大的时候,似然法可以获得参数统计的最小方差。只要使用一个合理的、正确的替代模型,最大似然法可以推导出一个很好的进化树结果[11]。本文采用PhyML 3.0软件获得ML系统发育树,其转换和颠换值为1.488。ML法构建的系统发育树与UPMAG法、NJ法构建的系统发育树的分支形式和分支内部结构的树种一致,说明 3种方法在本文所用21条序列的情况下,得到较为一致的系统发育树。由于UPGMA法构建系统发育树的前提与序列信息位点分析的前提一致,二者得出的各个树种间的遗传关系最为一致,但本文序列的信息位点有限,并不能由此确定出UPGMA法构建的系统发育树为最优的系统发育树。
已有研究结果证明,对于同一组数据,Bayes法比最大似然法表示更多的可信进化模型,节点支持率高于其它算法中的相应结果,替代率的变异可以在各个点建模[12]。由Bayes法构建的系统发育树其所有序列可以分成两大分支,如图 5所示。MP法构建的系统发育树中,以黑色线条处分割,也能得到同样的分支结构,且分支中的树种组成一致。而ML法、UPGMA法和NJ法构建的进化树中不能辨别分支关系。
3.3 5种系统发育树与形态学中现实树的比较分析
根据1995年Hill等[10]公布的修订桉树分类系统,如表1中的分类学状态可知,红血桉属于伞房属红木组,其他已知形态学分类状态的树种均属于桉属植物,在形态学的遗传关系中,红血桉与其他已知形态学分类状态的树种的遗传距离最远。重建的5种系统发育树中,与红血桉遗传关系可能较为相近的雪莱桉属于桉属双蒴盖亚属贴药组植物,在形态学分类状态中,与常桉、黑皮桉和蜜味桉的遗传关系相邻,其中与常桉和黑皮桉的遗传关系更为邻近,均属于桉属双蒴盖亚属贴药组Pruinosae系。序列信息位点的分析结果中,蜜味桉和黑皮桉的遗传距离显示为0.000,由此可推断出二者的遗传关系很相近,而常桉与黑皮桉的遗传距离为0.001,二者的遗传关系较为接近,与形态学分类状态中常桉与黑皮桉遗传关系更为邻近不一致。5种重建的系统发育树中,关于常桉、黑皮桉和蜜味桉的遗传关系,ML法和Bayes法构建的系统发育树与形态学分类状态一致。5种系统发育树中除Bayes法构建的系统发育树显示,橙花桉和四果棱桉的遗传关系可能更为接近,尽管4种系统发育树中二者的Bootstrap值均小于50%。形态学分类状态中,橙花桉属于桉属纹蒴盖亚属顶萼组,四果棱桉属于桉属纹蒴盖亚属四萼组,二者的遗传距离估算值为0.007,由此可得橙花桉和四果棱桉的遗传关系在MP法、ML法、UPGMA法和NJ法构建的系统发育树及序列信息位点分析中的结果与形态学分类状态一致。
由于本文所引用的 21条序列构建的系统发育模拟树与 Hill等[10]形态分类学状态之间存在有差异,较为可信的MP法构建的系统发育树亦与分类学状态存在较大差异,须进一步研究才能确定该20种桉树的系统发育关系和真实的遗传学分类关系。
[1] 谢耀坚.中国桉树育种研究进展及宏观策略[J].世界林业研究,2011,24(4):50‒54.
[2] 刘果,谢耀坚.分子标记技术在桉树育种研究中的应用进展[J].世界林业研究,2012,25(3):19‒25.
[3] Hilu K W,Liang H P.The matK gene: sequence variation and application in plant systematics[J].American Journal of Botany,1997,84(6):830‒839.
[4] 王亚玲,李勇,张寿洲,等.用 matK序列分析探讨木兰属植物的系统发育关系[J].植物分类学报,2006,44(2):135‒147.
[5] 陈少风,董穗穗,吴伟,等.基于 ITS序列探讨荻属及其近缘植物的系统发育关系[J].武汉植物学研究,2007,25(3): 239‒244.
[6] 王艇,苏应娟,郑博,等.中国桫椤科植物叶绿体trnL内含子和 trnL-trnF基因间隔区序列的系统发育分析[J].热带亚热带植物学报,2003,11(2):137‒142.
[7] 朱红霞,胡利宗,邓小莉,等.三种豆科植物 DGAT1基因家族的分子特征与进化分析[J].生物技术通报,2011, 3(10):163‒166.
[8] Pryor L D,Johnson L A S(王豁然译).A Classification of the Eucalyptus[M].哈尔滨:东北林业大学出版社,1986.
[9] 王豁然.桉树生物学概论[M].北京:科学出版社,2010.
[10] Hill K D,Johnson L A S.Systematic studies in the Eucalyptus-7.A revision of the bloodwoods, genus Corymbia (Myrtaceae)[J].Telopea,1995,6(2‒3):185‒504.
[11] Masatoshi Nei,Sudhir Kumar(吕宝忠,钟扬,高莉萍译). Molecular Evolution and Phylogentic[M].北京:高等教育出版社, 2002.
[12] 王绪祯,甘小妮,李俊兵,等.基于分区贝叶斯法和最大似然法的鲤科鱼类系统发育分析及其系统学意义[J].中国科学:生命科学,2012,42(8):648‒661.
Phylogenetics of 20 Species of Eucalyptus Based on Sequences of the Chlorop last matK Gene
LIU Guo1, XIE Yao-jian1, ZHANG Dang-quan2, LUO Jian-zhong1, ZENG Yan-fei3
(1. China Eucalypt Research Centre, Zhanjiang 524022, Guangdong, China; 2. Central South University of Forestry and Technology; Hunan Provincial Key Laboratory of Forestry Biotechnology ; Key Laboratory of Non-wood Forest Products of State Forestry Ministry; Key Laboratory of Non-wood Forest Trees and Protection of M inistry of Education, Changsha 410004, Hunan, China; 3. Research Institute of Forestry, Chinese Academy of Forestry; Key Laboratory of Tree Breeding and Cultivation of State Forestry Administration, Beijing 100091, China)
With the enrichment of public databases, the release of Eucalyptus genome sequence data has gradually been increasing. In this study, 21 Eucalyptus chloroplast matK gene sequences were downloaded from the NCBI database for analytical use. Depending on the software used, we found the phylogenetic trees obtained could differ from the morphological taxonom ic status according to Hill & Johnson, which is accepted as the academic standard. These differences might relate to the sequence data not being comprehensive, as the amount of information obtained can't represent the entire genome sequence. When phylogenetic trees constructed from the MP method, the ML method, the NJ method, the UPGMA method and the Bayes method were compared to the results of sequence information site analysis and the morphological classification status, the results showed that the phylogenetic tree constructed from UPGMA method was consistent w ith the sequence information site analysis results, and the phylogenetic tree constructed from MP method was more credible. However, further information needed to confirm these results w ill require follow-up studies.
Eucalyptus; chloroplast; matK gene; phylogenetic analysis
S722.3+9
A
2014-06-27
“十二五”农村领域国家科技计划课题“白桦、桉树等分子育种与品种创制”(2011AA100202)
刘果(1987— ),女,在读博士,主要从事林木遗传育种研究.E-mail: liuguopz@163.com
*谢耀坚为通讯作者.E-mail: cercxieyj@163.com