中山大学公共卫生学院医学统计与流行病学系(510080) 焦明旭 张 晓 刘 迪 顾 菁郝元涛
倾向性评分匹配在非随机对照研究中的应用*
中山大学公共卫生学院医学统计与流行病学系(510080) 焦明旭 张 晓 刘 迪 顾 菁△郝元涛
非随机对照研究与随机对照研究相比研究对象入选标准相对宽松,外推性更佳,因此在人群研究中应用广泛[1]。但由于无法随机化,混杂因素在处理组和对照组之间的分布可能不均衡,导致处理因素和结局的关系受混杂因素干扰。在数据的分析阶段,非随机对照研究对混杂因素的控制可通过分层分析或多因素分析,但如果组间特征差异过大,则可能对研究结果产生无法以分析方法弥补的偏倚[2],且当混杂因素数量过多时以上方法也存在局限性。
倾向性评分匹配(propensity score matching,PSM)可有效降低混杂效应,均衡处理组和对照组之间的差异,从而利用非随机分组数据来估测处理因素和结局的关系,研究处理效应[3]。近年来国外PSM应用广泛,在Pubmed数据库中以“propensity scor*”为检索词,从1987年到2012年共检索到4835篇论文,尤其在过去十年论文数量成倍增长,从2002年42篇增长到2013年1118篇[4]。但PSM有其特定使用条件,且基于倾向性评分有多种匹配方法,国内鲜有研究对此做出说明。本文将结合案例介绍PSM的概念、应用条件、匹配方法、优缺点及应用。
倾向性评分(propensity score,PS)由Rosenbaum 和Rubin提出,定义为在混杂因素存在条件下,研究对象进入处理组的条件概率[5]。PSM基于倾向性评分将处理组和对照组个体进行匹配,通过计算两组的平均处理效应来表示结局差异。
倾向性评分的函数模型为P(X)=P(T =1|X),其中P(X)为倾向性评分理论值,T为处理变量,T =1表示样本接受处理,为协变量即混杂因素。如果处理组研究对象为i,那么P(Xi)=P(T =1 |Xi);对照组研究对象为j,则那么P(Xj)=P(T =1 |Xj),因此只要倾向性评分相同或相近,即P(Xi)=P(Xj),则Xi=Xj,可认为两组混杂因素相同,以此保证对照均衡性。根据评分进行匹配,没有匹配的个体将被剔除。配比时需规定匹配精度,如PS值相差<0.01[2]。倾向性评分在在随机试验中是已知的,但在非随机对照研究中未知[6]。目前用于估计倾向性评分的方法有logistic回归、Probit回归、分类与回归树等机器方法[7]。
PSM有两个应用条件:(1)条件独立性,(2)组间评分分布具有足够大的重叠区域。
1.条件独立性
条件独立性是指观察对象对处理的选择只受所考虑的协变量的影响,不受未考虑协变量的影响。假设协变量X不影响是否接受处理,则结局Y也不受处理因素分配T的影响,如果代表处理组结局,代表对照组结局,那么条件独立性表示为:
条件独立性只是一种假设,而非可以直接检验的标准,与研究项目自身的特征有关。如果未考虑的协变量影响受试对象对处理的选择,则不符合条件独立性,通过PSM所得结果就值得怀疑。
2.组间评分分布具有足够大的重叠区域
PSM通过处理组和对照组的评分进行匹配,因此样本量够大而且协变量取值相近,才能使两组的评分分布存在较大的重叠区域。在重叠区域外的观察数据将被剔除,这些无法匹配的处理组数据会增加抽样偏倚的可能性,因此为了估测研究的偏倚程度,应当充分分析被剔除个体的数据。
在倾向性评分的基础上可采用多种匹配方法进行匹配。不同方法具有各自特性,且方法的选择会影响到对处理效应的估计[8]。本文将着重介绍最近邻匹配法、卡钳匹配法、分层匹配法、核匹配与局部线性匹配法、回归分析法以及与马氏匹配相结合的匹配法。
1.最近邻匹配法(nearest-neighbor matching)
最近邻匹配法是PSM最基本也是最常用的方法,此方法将处理组和对照组倾向性评分中最接近的个体进行匹配,且根据对照组个体是否可以重复匹配给处理组,又分为有替代匹配和无替代匹配。有替代匹配中对照组个体一般与不超过5个处理组个体匹配,若对照组中存在2个及以上的相同评分的个体,则按随机的原则进行选择[2]。当处理组个体全部匹配后,匹配结束。此法简便易懂,常为研究者所选用,但当匹配的两组评分差异很大时该方法仍会进行匹配,此时匹配效果较差。
2.卡钳匹配法(caliper matching)
卡钳匹配是在最近邻匹配法的基础上设定卡钳值,即只有两组观察对象倾向性评分之差在卡钳值范围内才能进行匹配[9]。此法解决了最近邻匹配法所存在的问题,但可能使大量观察对象落在卡钳值范围外而被剔除,导致无法充分有效利用数据,并产生抽样偏倚。
3.分层匹配法(stratification matching)
分层匹配法根据某个重要变量,将两组划分为不同的层,分别计算每层的PS并进行匹配,匹配后再将数据合并,以保证两组研究人群中该变量分布完全相同[1]。此方法可保证两组变量的平衡性,但如果匹配因素过多,则实际操作困难。分层匹配也可根据PS分层,以避免了混杂变量过多的问题[5]。
4.核匹配(kernel matching)和局部线性匹配法(local linear matching)
核匹配和局部线性匹配都属于非参数匹配,对每个处理组个体,利用所有对照组个体的倾向性评分和结局变量的信息,以倾向性评分的差距为权重,计算加权后的对照个体效应值,作为该处理个体的“反事实”匹配对象,所谓“反事实”就是不接受处理的假想情形。核匹配法类似于常数项回归,假设如果Pi是处理组个体的倾向性评分,Pj是对照组个体j的倾向性评分,核匹配法的权重可表示如下:
此类匹配方法避免了两组评分分布重叠范围小这一问题,将所有数据考虑在内,稳定性更好。
5.回归分析法
回归分析法是倾向性评分和传统回归分析法相结合的一种方法。求得每个研究对象的倾向性评分后,评分作为协变量,以分组作为分析变量引入回归模型,分析结果变量在协变量的影响下与分组变量的因果关系[5]。
6.基于马氏距离的匹配法
马氏距离由印度统计学家Mahalanobis提出,表示m维空间中两个点之间的协方差距离,不受量纲的影响,还可以排除变量之间相关性的干扰[2]。处理组个体i与对照组个体j之间的马氏距离d(i,j)可用以下公式计算:
其中u和v分别代表处理组和对照组中配比变量的值,C是对照组全部对象配比变量配比的协方差阵[1]。PSM和马氏距离结合后可增加个别重点变量的平衡能力。但此方法实现过程较为复杂,而且当计算马氏距离变量数量过多时也不宜应用。
上述匹配方法的实现可基于诸多统计软件,如R、SAS和STATA。以R为例,MatchIt,Matching,party 和rpart等包均可用于实现最近邻匹配、卡钳匹配、核匹配等匹配方法,其中以MatchIt应用(多用于最近邻匹配)最为广泛。
1.优点
PSM作为半参数方法,在处理模型函数形式上限制更少,对于误差项的分布假设也更少,增加了处理组和对照组合理匹配的可能性。与传统方法相比,在应对多混杂因素或分层等问题时,使匹配具有了可能性,运算量也大大减小,为研究提供高效合适的匹配。PSM可以保证研究客观性,利用相似的协变量分布情况来构建处理和对照组而不对研究结局产生影响[4]。
2.缺点
PSM只有当不存在未观测到的影响分组因素,且两组评分分布重叠范围够大时才能保证结果的正确性,且根据重叠范围来剔除对照组个体会造成偏倚,因此要求样本量足够大。此外,PSM多应用于结局为分类变量研究[5],如果存在缺失值,倾向性评分同样无法处理。当重要混杂因素无法测量或者未知时,此方法也难以应用[11]。
国内研究多将PSM用于临床非随机对照研究中治疗方式的效果评价,如柯阳等[12]利用PSM评价治疗巴塞罗那B期肝细胞癌的方法,发现PSM可以有效提高非随机分组资料间协变量的均衡性;韩竞等[13]利用PSM评价伽马刀对垂体腺瘤的疗效,同样说明了PSM可以平衡组间的协变量。近些年随着PSM越来越广泛的应用,也有研究者提出对该方法的应用并非完全正确[14]。本文将通过以下案例来介绍PSM的基本步骤。
一项丹麦的研究利用多项医学注册数据,比较不同胰岛素促泌剂与二甲双胍在治疗有或无心肌梗塞史II型糖尿病患者中的死亡率和心血管风险[15]。但各种药物组的基本情况、共患疾病和合用心血管药物的情况并不具有可比性,即协变量分布不均,故采用PSM均衡组间协变量。
PSM分四步:(1)计算倾向性评分,研究中基于基线信息中可能的混杂因素(年龄,性别,治疗时间,充血性心衰,心律失常,周围血管病,脑血管疾病和慢性肺病)对治疗方法(某种胰岛素促泌剂或二甲双胍)建立logistic回归方程,计算每例患者的PS得分;(2)采用最近邻匹配,即二甲双胍组为基准组,分别选取其他各治疗组中最近得分个体进行匹配;(3)对匹配前、后的数据分别比较患者在重要的协变量方面是否均衡,匹配前两组协变量差异比较的P值均小于0.05,匹配后P值均大于0.1,可见与匹配前相比匹配后协变量在组间实现均衡化;(4)采用Cox生存分析同时校正部分经匹配仍不完全均衡的因素,发现所研究的六种胰岛素促泌剂在全死因死亡和心血管事件死亡方面的保护效应均不如二甲双胍。
分析非随机对照研究所得数据过程中,最大的阻碍就是混杂因素[16]。PSM作为一种均衡基线混杂因素的方法,与传统方法相比有其独特的优势,使得非随机对照研究数据得以有效分析。除了在临床研究中的广泛应用外,在公共卫生领域,PSM在基于人群的健康干预研究和效果评价中也有广泛的应用前景。
但并非任何非随机对照研究都可以使用PSM,如在样本量比较小的情况下,该方法无法解决协变量实质性失衡这一问题[17],因此要根据实际情况和PSM的使用条件来应用。有研究表明,采用PSM的观察性研究与随机对照试验相比,处理因素对结局的影响会被放大,但差异无统计学意义[18]。此外PSM可采用多种匹配方法,每种方法都有其自身特征,研究者需根据每种方法所适应的情况来应用。从科学的角度而言,并没有一种绝对好的方法,但无论采用何种方法,都需正确评估研究发现的前提,并认真正确的分析和报告。
参考文献
[1]詹思延.流行病学进展.北京:人民卫生出版社,2010,12:358-376.
[2]李智文,等.倾向评分配比在流行病学设计中的应用.中华流行病学杂志,2009,30(5):514-517.
[3]Austin PC.The performance of different propensity-score methods for estimating differences in proportions(risk differences or absolute risk reductions)in observational studies.Stat Med,2010,29(20):2137-2148.
[4]Borah BJ,et al.Applications of propensity score methods in observational comparative effectiveness and safety research:where have we come and where should we go?J Comp Eff Res,2014,3(1):63-78.
[5]胡红林,倾向评分法在医学研究中的应用和分析,华中科技大学,2009.
[6]Austin PC.An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies.Multivariate Behav Res,2011,46(3):399-424.
[7]吴美京,等.倾向性评分法中评分值的估计方法及比较.中国卫生统计,2013(3):440-444.
[8]Kheterpal S,et al.Development and validation of an acute kidney injury risk index for patients undergoing general surgery:results from a national data set.Anesthesiology,2009.110(3):505-15.
[9]邬顺全,吴骋,贺佳.倾向性评分匹配法在多分类数据中的比较和应用.中国卫生信息管理杂志,2013(5):448-451.
[10]Heckman J J,et al.Sources of selection bias in evaluating social programs:an interpretation of conventional measures and evidence on the effectiveness of matching as a program evaluation method.Proc Natl Acad Sci U S A,1996,93(23):13416-20.
[11]Groenwold,R.H.,[Propensity scores in observational research].Ned Tijdschr Geneeskd,2013,157(29):A6179.
[12]柯阳,等.倾向性评分匹配法对巴塞罗那B期肝细胞癌两种治疗方法的再评价.中华医学杂志,2014,94(10):747-750.
[13]韩竞,王彤,郭军.倾向性评分方法及其在伽玛刀治疗垂体腺瘤疗效评价中的应用,2011,4757-4761.
[14]Pattanayak C W.D.B.Rubin,E.R.Zell.Propensity score methods for creating covariate balance in observational studies].Rev Esp Cardiol,2011,64(10):897-903.
[15]Schramm T K,et al,Mortality and cardiovascular risk associated with different insulin secretagogues compared with metformin in type 2 diabetes,with or without a previous myocardial infarction:a nationwide study.Eur Heart J,2011,32(15):1900-1908.
[16]Austin,P.C.,Type I error rates,coverage of confidence intervals,and variance estimation in propensity-score matched analyses.Int J Biostat,2009,5(1):Article 13.
[17]Biondi-Zoccai G,et al.Are propensity scores really superior to standard multivariable analysis?Contemp Clin Trials,2011,32(5):731-40.
[18]Dahabreh I J,et al.Do observational studies using propensity score methods agree with randomized trials?A systematic comparison of studies on acute coronary syndromes.Eur Heart J,2012,33(15):1893-901.
(责任编辑:邓 妍)
*基金项目:美国中华医学基金会(CMB#11-074)
通信作者:△顾菁,E-mail:gujing5@ mail.sysu.edu.cn