一种基于HBV序列的SNP位点检测方法研究

2014-08-03 15:23:30刘立芳贺建峰
计算机工程与应用 2014年23期
关键词:碱基位点样本

张 琪,刘立芳,马 磊,贺建峰

昆明理工大学 信息工程与自动化学院,昆明 650500

一种基于HBV序列的SNP位点检测方法研究

张 琪,刘立芳,马 磊,贺建峰

昆明理工大学 信息工程与自动化学院,昆明 650500

1 介绍

乙型肝炎病毒属于被称为肝脱氧核糖核酸病毒科的病毒族,严重影响人类健康,它与DNA病毒关系密切。这种类型的病毒感染是一种严重的全球健康问题,也是常见的诱发肝脏疾病和肝癌的原因。据估计,全球至少有20亿人感染乙肝病毒,多达3.78亿人患有慢性感染,每年大约有62万人死于由HBV感染引发的急性和慢性病[1-2]。此外,每年全世界新增450万HBV感染病例,其中四分之一发展成为肝脏类疾病[3]。

HBV是一种环状的非闭合双链DNA分子,全基因长约为3.2 bp。乙型肝炎病毒可编码四个重叠的开放阅读框(ORFs:S,C,P和X)。S ORF编码乙型肝炎表面抗原(HBsAg),它在结构上和功能上分为pre-S1,pre-S2,和S区,C ORF编码乙肝e抗原和核蛋白,P ORF编码聚合酶蛋白,X ORF编码X蛋白[4]。HBV根据基因组序列之间差异性大于8%的基因分型标准进行分型[5-8]。并且其基因型在不同的地区流行程度或分布不同。

在物种遗传进化过程中,变异是各种生物对“适者生存”原则的生动体现。HBV病毒为了达到在宿主体内长期生存和传播的目的,也必然具有这种内在的潜力。研究表明HBV基因变异可能导致每个HBV患者受HBV感染后,其病情轻重存在很大差异,给乙肝的治疗和诊断带来了许多问题。然而目前却没有很好的药物及方法对其进行有效的治疗。目前国际上采用的接种疫苗的方法,几乎成了唯一的预防措施,并取得了较好的成效,使得HBsAg携带者显著减少。同时,在治疗过程中,仍然存在很多问题。基于个体差异和遗传背景的不同,使得不同人感染HBV容易与否及病毒最终演化情况也存在很大差异。在这其中,SNP的存在与否是决定不同个体之间基因存在差异的根本原因。SNP位点的检出可以在一定程度上预测个体被HBV感染的风险性及被感染后的疾病演变程度,为治疗与预防HBV感染做好准备[9-10]。

虽然单位点突变作为乙肝病毒进化中的一个重要因素,已经有所研究,但是却只有有限的突变位点被文献报道,例如ntG1764A和ntA1762T[11]。目前,单核苷酸多态性(SNP)发掘主要依赖直接DNA测序或变性高性能液相色谱(dHPLC)[12-13]。但是这些方法均具有耗时长,过程繁琐和技术难度高,费用大等缺点,从而制约了SNP的研究。基于此,本文提出了一种基于计算机的方法,所提出的方法首次应用于HBV序列的SNP位点检测,即应用MORE[14]和RPSW[15]算法去研究乙肝病毒序列pre-C和X(nt1374~nt1900)区遗传因子的单突变位点。结果部分与以前相关文献报道的内容部分一致,例如,突变位点ntA1762T,ntT1753C,ntG1764A和nt1896。除此之外,还发现新的突变位点和具有突变风险的突变位点,例如ntA1436G,ntG1629A,ntA1383C,ntA1573T,nt1726,nt1657,nt1463,nt1658,nt1498,nt1386。

2 材料与方法

2.1 实验数据源

在本课题研究中,使用数据为云南省第一人民医院提供的乙型肝炎病毒序列片段(X基因和前C基因)。样本集包括10例HBV患者,其中HBeAg阳性4例和阴性六例。共有364条序列,其中209条序列为HBV阴性,155条序列为HBV阳性。在乙型肝炎病毒序列中,实验的目的是挖掘HBV的SNP位点即单突变位点,所以这里将所有HBV序列的每一个垂直列映射为特征属性的思想进行数据处理的(如图1)。HBV序列数据类型分为两大类,即阳性(positive)和阴性(negative)。每条克隆序列为一个样本,所对应的HBV数据类型为类属性即目标属性(如表1)。

表1 乙肝病毒的数据集

2.2 方法

在本文中,有三个步骤来约束和汇总乙肝病毒序列。首先,找出对区分样本最有用的特征位点。然后,使用MORE算法开发特征位点的最优风险和预防模式。最后,RPSW算法被用来对乙肝病毒进行差异化分析。

2.2.1 信息熵建立和特征选择

生物信息学数据在样本采集的过程中,由于受到各种因素的影响,产生大量的冗余信息。在这种情况下,特征信息的提取显得尤为重要。可以通过特征信息提取,剔除冗余的数据信息即非疾病基因或疾病风险基因,以降低数据维数,从而提高对初始数据集训练时的时间和空间复杂度,同时也可以提高分类器的效率,为提取对疾病有重要价值的特征信息避免了很多不相关信息的干扰,从而使剩下的特征信息可以较好地用于疾病诊断和防治。

图1 样本数据经过映射后得到的格式

本节介绍一种基于信息熵的序列统计特征提取法。在DNA序列数据中,信息表示每个位点碱基不确定性的消失,碱基位点的变化将影响该位点信息的获取,如果DNA序列中某个垂直列碱基位点发生变化,则信息熵就越大,如果该列只有一种碱基,则信息熵为0。所以信息熵同时也是系统有序化程度的一个衡量指标。关于信息熵的计算如式(1)所示。给定包含关于某个目标概念的正反样本的样本集S,那么S相对这个分类的熵为[16]:

P+和P-分别表示在样本S中正例的比重和反例的比重。反映在HBV序列中表现为HBV阳性和阴性。在计算过程中,lb0=0。例如,样本集S中的所有属性都属于同一个类,则信息熵为0,如果样本集S中正例样本与反例样本的个数相同,则信息熵为1,如果样本集中正例样本与反例样本个数不相同,信息熵则在0和1之间。

信息增益是一种特征量化方法,用来定义属性分类训练数据的能力。在WEKA平台下,信息增益融合了基于排序(Ranking)的方法,它根据DNA序列的垂直列中碱基的变化率来评价对疾病基因的重要性,变化率越高,该位置对疾病基因就越重要。然后按照重要性降序排列。最后选择排名靠前的基因作为特征基因[16]。一个属性的增益(S,A),相对于一数据集样品S,被定义为:

其中,Value(A)的值是属性A所有可能值的集,Sv是S的子集。值得注意的是,第一部分是在公式(1)中提到的原始数据集S的熵,在公式(2)中的第二部分是当S用属性A分完区后的熵。分区熵是每个子集Sv的熵的总和,通过样品的Sv/S比值来加权。因此,增益(S,A)是由属性A值的变化引起熵的减少。通过属性A的值,当S中任何组成元素的目标值被编码时,增益(S,A)的值是一系列保存下来的数据。

该方法在WEKA工作台上执行和实现[17]。

2.2.2 最优风险和预防模式

在医疗数据集中,含有大量的患者记录,每一个患者记录包括一系列属性,其中一个属性为目标属性,这个目标属性一般分为两类,即正常类(Normal)和异常类(Abnormal),如果在样本中一个患者没有患病也没有患病风险,即属于正常类,相反则属于异常类。所谓模式就是这些属性值项的集合。

由于在实际的医疗数据集中,数据量很大且正反类事例严重不平衡,患病的比例要远远小于非患病的比例,因此这里采用局部支持度作为异常类模式的支持度,即样本中同时出现模式P和a的概率与样本中只出现a的概率的比值。假设模式P在异常类样本a的局部支持度的计算公式如公式(3)所示:

这里supp(p→a)表示模式P的支持度,即同时出现模式P和a的概率。局部支持度是满足反单调性的:一个超集的支持度小于或等于它的任一子集的支持度。最优风险与预防模式能够被挖掘的原因就是最优风险与预防模式满足反单调性的原则。在本文中,如果一个模式的局部支持度大于给定的阈值,则这个模式就是频繁的。

RR(相对风险)或OR(比值比)是一个在流行病学研究中常用的指标[18],这是一个概念,用于对比两组数据,并期望得到某个特定非期望事件。例如,如果R是属性值对328=A,类是阳性的,OR=3.0,那么这意味着当属性值对328=A时有三倍的可能表达为阳性。当OR=1时,它表明该因素没有影响发病率。当OR是高于1,这表明,该因素可能是一个风险因素,当OR低于1时,它说明了因子可能是预防因素。RR测量相比OR更加的保守。如果RR高于给定的阈值,这个模式更有可能是一个风险模式。否则模式可能是一个预防模式。下面是一个例子,说明如何计算RR和OR。

表2说明,结果分为阳性(+)和阴性(-),在被测试的HBV样本上根据特定的分析,贴着有(+)或没有(-)HBV。让a和c表示HBV的阳性和阴性的数量,b和d表示没有HBV的阳性和阴性的数量,分别为:

表2 模式产生的可能性与输出结果

挖掘风险和预防模式肯定带来冗余模式,这些对于观察结果没有帮助。例如,有两个风险模式,{“Caffeine=yes”和“Cancer=no”}RR=4.1,{“Caffeine=yes”,“Smoking=no”和“Cancer=no”}RR=4.0。实际上,后一种模式与原模式相比有较低的RR,当合并因子“Smoking=no”。就可以推断前者比后者是更有效的模式。最优风险和预防模式是所有模式中最强大的模式。最优风险和预防模式可以通过MORE(挖掘最优风险模式集)算法的挖掘排除多余的模式[14]。

最优风险和预防模式是从风险和预防模式中提取出来的。一方面,最优风险模式集包含所有风险模式,这种模式比其他的子模式有更高的相对风险。另一方面,最优预防模式包括所有的预防模式,它们有更低的相对风险,在这里指小于给定的阈值。当子模式的风险和预防模式不能满足这个要求,这些风险和预防模式将被忽略。

2.2.3 基于设置权重的最优风险和预防模式集的差异分析

基于最优风险和预防模式,RPSW算法[15]计算每个属性值对的频率,对所有属性值对进行频率降序排列。最优风险模式属性值对和预防模式属性值对被认为分别是风险因素和预防因素集。如果一个属性值对是一个最优风险或者预防模式的频繁元素,并且它的频繁集相比期望的频繁阈值更高或者相等,那么它属于风险或预防模式集。

对于最优风险和预防集,只有最优风险模式的相对风险高于最优风险模式中的相对风险阈值,最优预防模式的相对风险低于最优预防模式中的相对风险阈值,上述规则才被用来生成最优风险和预防集,最优风险和预防集之间没有共同集。

例如,假设有五个风险模式(相对风险阈值:2.0)

这些风险模式涉及五个模式和五个属性:R1、R2、R3、R4和R5。前面已经讨论过,只选择了前三个模式。选择的风险模式包含四个属性:R1,R2,R3和R5。如果属性值对一直存在于预防模式中,能够比较在风险和预防集中的组成部分的等级,然后确定这些属性值属于风险还是预防因素。

最优风险和预防模式集下的权重都是基于最优风险和预防集。仅仅考虑最优风险和预防模式的属性集。为了使结果更加直观,归一化了各属性的权重值对。最优风险和预防模式集的总权重分别是100。在风险模式和预防模式集每个属性值对有一个权重,分别生成最优风险和预防模式因素权重集。

3 实验结果

3.1 最优风险和预防模式

这里根据信息增益值分别大于0.05,0.10,0.15,0.20四种情况进行特征属性选取的。表3表示信息增益值分别大于0.05,0.10,0.15,0.20时的特征属性值项选择结果数目。本文在实验过程中通过这四种情况下的特征提取结果进行了最终结果实验,发现当信息增益值选取0.15时,选取的特征属性对SNP位点的挖掘最有意义。

表3 信息增益值特征属性提取结果

3.2 最优风险和预防模式的突变位点

基于第二章中的最优风险与预防模式及最优风险与预防权重算法概述,将其应用到HBV序列候选SNP位点挖掘中。由于实验数据源HBV序列片段(nt1374~nt1900)包括526个碱基位点,经过多条序列比对后,变为623个碱基位点,表示HBV序列共包含623个垂直列。根据公式(3)得出实验样本的局部支持度为0.43,为了尽可能获得可能多的最优风险与预防模式,对模式长度和相对风险阈值进行了多次选取多次实验,最后选取了一个最佳方案即设置模式长度为7,特征属性选取阈值为0.15,相对风险阈值为1.5。在此条件下,实验共返回420个最优风险与预防模式,分别为388个最优风险模式和32个最优预防模式。限于篇幅,只列举了部分具有代表性的最优风险模式(表4)和最优预防模式(表5)。

表4 HBV序列生成的部分最优风险模式集

表5 HBV序列生成的部分最优预防模式集

针对表4和表5的部分实验结果,以最优风险模式中的Pattern 1为例解释说明。模式中Length=3,表示模式长度为3,说明此模式包括三个特征属性值项,RR=6.500 0表示相对风险值为6.500 0。

图2 特征属性值项分别在最优风险与预防集的权重值

3.3 乙肝病毒序列的差异分析

在此实验中,是假设模式中每一个特征属性值项是相互独立的,所以基于RPSW算法及表3和表4建立的最优风险与预防模式结果,HBV序列的特征属性值项的最优风险与预防权重计算如图2所示。每个特征属性值项的权重来自它们在最优风险与预防集中的百分比。它可以用来判断每个特征属性值项的重要性,同时也可以了解某个特征属性值项对患者患某种疾病的风险性与预防性。

这里特征属性值项attribute305=T出现在最优风险频率集中,attribute305对应在HBV序列中的位置为第1 635位碱基位点。风险权重为13.127 8,是最优风险集中最大的风险权重,表明attribute305在HBV序列第1 635位碱基为T时发生了阴转的可能性在所有特征属性值项中最大,这些是导致此处发生碱基突变的决定因素。attribute209=T出现在最优预防集中,且预防权重为28.846 2,表明attribute209在HBV序列第1 573位碱基为T时不发生阴转的可能性很大,是此处防止碱基突变的决定因素。如果attribute69同时出现在最优风险与预防集中,其中特征属性值项attribute69=A出现在最优风险集中,attribute69=G出现在最优预防集中,则表明attribute69在HBV序列第1 436位置上发生碱基G到A的阴转,说明此处为候选SNPs位点。

根据上述表述,基于图2中最优风险权重集,在本次实验中共检测出16处候选SNPs位点,其中8处属于碱基替换突变,在这8处点突变中,其中4处已在一些文献中发布(nt1753,nt1762,nt1764,nt1896),4处(nt1436,nt1383,nt1629,nt1573)是新发现的候选SNP位点。其余8处则为SNPs位点缺失,即发生的缺失突变。

实验结果表明,实验提出的挖掘SNP位点的计算机方法,不仅可以检测已知SNP位点,也可以检测未知SNP位点,同时具有不需要昂贵的硬件支持,检出率较高的优点。

表6 每个特征属性的频率按照降序排列

4 结论

近年来SNP的检测方法已被广泛研究,国内外专家学者也相应提出了多种方法检测SNP,但是均需要依赖昂贵的仪器或专业人员的技术支持。本研究针对364条HBV病毒序列数据,提出了一种基于最优风险与预防模式算法来研究HBV病毒序列的SNP位点检测问题。综合特征属性提取和风险与预防模式的建立挖掘出HBV病毒序列的部分SNP位点。该方法与其他硬件检测的方法相比,无论在检测的通用性还是检出率上都具有较为明显的优势,从而证明了该方法能较好地完成对SNP位点的检测,同时该方法所用成本低廉,操作简便,并能在庞大的基因数据中选出SNP位点,从而对乙型肝炎的临床诊断和生物医学研究起到有益的参考和借鉴作用,有望成为适用于临床的SNPs检测方法。

[1]William M,Lee M D.Hepatitis B virus infection[J].New England Journal of Medicine,1997,337(24):1733-1745.

[2]Goldstein S T,Zou F,Hadler S C,et al.A mathematical model to estimate global hepatitis B disease burden and vaccination impact[J].International Journal of Epidemiology,2005,34:1329-1339.

[3]Zanetti A R,Van Damme P,Shouval D.The global impact of vaccination against hepatitis B:a historical overview[J]. Vaccine,2008,26(49):6266-6273.

[4]Ganem D E,Schneider R J.Hepadnaviridae:the viruses and their replication[M]//Field virology.Philadelphia:Lippincott Williams&Wikins,2001:2923-2969.

[5]Kramvis A,Kem M C.Relationship of genotypes of hepatitis B virus to mutations,disease progression and response to antiviral therapy[J].Journal of Viral Hepatitis,2005,12(5):456-464.

[6]Olinger C M,Jutavijittum P,Hübschen J M,et al.Possible new hepatitis B virus genotype in southeast Asia[J].Emerge Infect Disease,2008,14(11):1777-1780.

[7]Tatematsu K,Tanaka Y,Kurbanov F,et al.A genetic variant of hepatitis B virus divergent from known human and ape genotypes isolated from a japanese patient and provisionally assigned to new genotype J[J].Journal of Virology,2009,83(20):10538-10547.

[8]Miyakawa Y,Mizokami M.Classifying hepatitis B virus genotypes[J].Intervirology,2003,46(8):329-338.

[9]Public Health Agency of Canada.Canadian immunization guide[M].Canada:Evergreen,2012.

[10]刘学芳,田铁南,原丽娟.乙肝疫苗的预防接种与效果观察[J].基层医学论坛,2012(36).

[11]Li K S,Yamashiro T,Sumie A,et al.Hepatitis B virus harboring nucleotide deletions in the core promoter region and genotype B correlate with low viral replication activity in anti-HBe positive carriers[J].Journal of Clinical Virology,2001,23(1/2):97-106.

[12]den Dunnen J T,Antonarakis S E.Mutation nomenclature extensions and suggestions to describe complex mutations:a discussion[J].Human Mutation,2000,15(1):7-12.

[13]Gross E,Arnold N,Goette J,et al.A comparison of BRCAI mutation analysis by direct sequencing,SSCP and DHPLC[J]. Human Genetic,1999,105:72-78.

[14]Li Jiuyong,Fu Ada Wai-chee,He Hongxing,et al.Efficient discovery of risk patterns in medical data[J].Artificial Intelligence in Medicine,2009,45:77-89.

[15]张俊鹏,贺建峰,马磊.基于最优风险与预防模式的医疗数据挖掘算法[J].计算机工程,2011,37(42).

[16]Mitchell T M.Machine learning[M].[S.l.]:McGraw-Hill,1997.

[17]Hall M,Frank E,Holmes G,et al.The WEKA data mining software:an update[J].SIGKDD Explor Newsl,2009,11(1):10-18.

[18]Gange S J,Cole S R.Epidemiologic analysis-a case-oriented approach[M].New York:Oxford University Press,2002.

ZHANG Qi,LIU Lifang,MA Lei,HE Jianfeng

Faculty of Information Engineering andAutomation,Kunming University of Science and Technology,Kunming 650500,China

As one of the severe diseases,HBV(Hepatitis B Virus)infection is seriously affecting human health.This kind of virus infection is the main reason that leads to chronic liver disease,cirrhosis and liver cancer.Due to the particularity of HBV replication and high variability characteristics,related studies have revealed that the HBV gene mutation is the basic reason of persistent HBV infection.In order to understand the genetic variation of HBV,the SNP detection from HBV sequences has been widely applied in the large number of research,the detected SNP loci may contain great clinical significance.However,currently,the SNP loci detection methods are restricted by some negative factors,such as high technical difficulty,high expense and so on.Therefore,to explore a computer-based method for SNP loci detection becomes a trend.In this paper,considering the characteristics of SNP loci of the HBV sequence,an method of SNP loci detection based on optimal risk and prevention pattern is proposed.The proposed method is first applied to detect the SNP site in the HBV sequence.Experimental results show that the method has not only effectively detected the SNP loci of the sequence on HBV X gene fragment and the pre-C gene fragment which have been reported,and has also found a new SNP loci.Different from the SNP loci detection with hardware,the proposed method has the advantages of simple operation,low cost,and it can be accepted by general laboratory and medical institutions.

Hepatitis B Virus;feature selection;optimal risk and preventive patterns;Single Nucleotide Polymophism(SNP)

乙型肝炎病毒(Hepatitis B Virus,HBV)感染作为严重影响人类健康的疾病之一,是导致慢性肝脏疾病、肝硬化和肝癌的主要元凶。HBV由于其自身复制的特殊性,具有高变异特性,据研究表明HBV基因变异是HBV持续感染的根本原因。为了了解HBV的基因变异情况,检测HBV序列的SNP位点即单突变位点已广泛应用于大量的研究,所检测出的SNP位点对指导临床有重要意义。但是目前关于SNP位点检测的方法多因技术难度较高,费用大等不利因素而受到制约。因此,探讨一种基于计算机的SNP位点检测方法成为一种趋势。针对HBV序列的 SNP位点的特点,提出了一种基于最优风险与预防模型的HBV序列的SNP位点检测方法。方法首次应用于HBV序列的SNP位点检测,实验结果表明:该方法不仅有效地检测出HBV序列的X基因片段和前C区基因片段中已经报道的位点,而且还发现了一些新的SNP位点。与硬件检测SNP位点不同的是,所提出的计算机方法具有操作简单和费用低的优点,而且普通实验室和医疗机构均可以承受。

乙型肝炎;特征选择;风险与预防模式;单核苷酸多态性(SNP)

A

TP18;TP311

10.3778/j.issn.1002-8331.1305-0156

ZHANG Qi,LIU Lifang,MA Lei,et al.SNP loci detection method based on HBV sequence.Computer Engineering and Applications,2014,50(23):145-150.

张琪(1988—),女,在读硕士研究生,研究领域为数据挖掘、机器学习;刘立芳(1988—),男,在读硕士研究生,研究领域为数据挖掘、机器学习;马磊(1978—),男,讲师,研究领域为生物信息学、数据挖掘、软件工程。E-mail:310193263@qq.com

2013-05-14

2013-09-03

1002-8331(2014)23-0145-06

CNKI网络优先出版:2013-09-04,http://www.cnki.net/kcms/detail/11.2127.TP.20130904.1344.018.html

◎图形图像处理◎

猜你喜欢
碱基位点样本
镍基单晶高温合金多组元置换的第一性原理研究
上海金属(2021年6期)2021-12-02 10:47:20
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
用样本估计总体复习点拨
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来4名新成员
科学24小时(2019年5期)2019-06-11 08:39:38
生命“字母表”迎来4名新成员
发明与创新(2019年9期)2019-03-26 02:22:48
二项式通项公式在遗传学计算中的运用*
生物学通报(2019年3期)2019-02-17 18:03:58
推动医改的“直销样本”
随机微分方程的样本Lyapunov二次型估计