万普插件库

jQuery插件大全与特效教程

倾向性评分匹配(倾向性评分匹配后仍有差异是什么原因)

观察性研究

观察性研究是指我们不对研究对象实施干预,而只是观察研究对象的疾病发生发展的研究。当我们需要在观察性研究中对比两组不同人群的不同特征或者疾病发生发展时,两组人群往往会存在许多潜在的混杂因素的不均衡,而这些不均衡会使我们的比较结果产生偏倚。在实验性研究中,我们可以通过随机分组尽可能消除这种混杂因素的不均衡,而在观察性研究中我们可以使用倾向性评分匹配的方法对两组人群根据选择的混杂因素进行匹配,使得两组人群的混杂因素尽可能均衡,从而减少混杂因素对结果的混杂效应。

上图是随机对照试验(RCT)研究的基本流程,可以看到随机分组在其中是一个很重要的过程,良好规范的随机过程可以实现试验组及对照组对象的混杂因素均衡化。但在观察性研究(包括真实世界研究)中我们无法对研究对象进行随机分组,因此,我们需要使用额外的方法对混杂因素进行均衡。2006年美国流行病学杂志 Am J Epidemiol 总结了真实世界研究控制混杂常用的五种方法,包括:

1. 多元回归模型调整混杂;

2. 倾向性评分匹配(PSM)后构建回归模型;

3. 回归模型调整倾向性评分(PS);

4. 回归模型+加权(IPTW)处理;

5. 回归模型+加权(SMR)处理;

可见倾向性评分是目前较为认可的对混杂因素进行调整控制的方法。

匹配的过程

上图是对研究对象进行匹配的基本过程,可以看到在匹配的过程中,将对照组及研究组中差异较大的对象进行排除,仅保留了两组相似的,可以进行比较的个体。

倾向性评分原理

倾向性评分匹配英文名为“Propensity score matching, PSM”,是指通过一定的统计学方法对试验组和对照组进行筛选,使筛选出来的研究对象在除研究因素外的其他特征(潜在的混杂因素)上具有可比性。在进行匹配以后,研究组及对照组的结局存在差异时,我们便可将差异归于暴露因素的作用。

倾向性评分的基本步骤

1. 估计倾向性评分

对于倾向性评分匹配,一般是通过某种统计学模型求得每个观测的多个协变量的综合倾向性评分,再按照倾向性评分是否接近进行匹配。如上图所示,两条曲线分布代表研究组与对照组对象倾向性评分的分布,而两组倾向性评分有交集的中间区域(两虚线之间)是我们进行匹配的区间。最常用的模型一般是以分组变量为因变量,以其他可能影响结果的潜在混杂因素作为协变量构建Logistic模型。


2. 进行匹配

倾向性评分的几种常用匹配方法:

3. 均衡性检验

在进行倾向性评分以后,我们均需要对配对后的两组研究对象的倾向性评分以及协变量的分布进行对比分析,以检验倾向性评分匹配后的两组对象的协变量均衡性是否已经达到我们的要求。R语言的MatchIt package 可用进行不同匹配方法的倾向性评分匹配,且带有匹配后查看匹配前后两组倾向性评分的QQ-plot以及hist-plot功能,可以清晰明了地看到匹配前后的变化。如下图所示,匹配前(左边)两组的倾向性评分分布差异很大,但是匹配后(左边),两组的评分分布基本一致。

4. 估计暴露效应及敏感性分析

在进行匹配以后,我们就可以对干预或暴露效应进行估计。一般我们要计算的是平均干预效应(Average Treatment Impace, ATE):

其中y1为干预为1的结局效应,y0为干预为0的结局效应;D为干预,x为协变量。一般用t检验比较两组的平均效应即可。

最后一步为敏感性分析,倾向性评分的敏感性分析比较复杂,主要的目的是分析估计的干预效应是否稳健。简单的做法为剔除一个或多个用于匹配的协变量,然后进行匹配再估计干预效应,观察干预效应是否稳健不变。在某些研究中,也有研究者使用不同的匹配方法对研究对象进行匹配,并观察估计的干预效果是否稳健。

R语言操作实例:

1. 进行匹配

library("MatchIt") #加载程序包

data("lalonde") #调用程序包自带测试数据

match_result<-matchit(treat~age+educ+black+hispan+nodegree,method = "nearest",distance = "logit",discard = "none",data=lalonde,caliper = 0.03,replace=FALSE) #使用二元logistic回归计算倾向性评分,匹配使用最邻近匹配方法,卡钳值为0.03,不放回抽样的方式进行匹配;

在这次匹配中,对照组有429例,试验组有185例;使用该参数共有212例对象得到匹配,每组分别为106例。没有匹配上的对象分别有323例及79例。

2. 展示匹配后的数据

match.data(match_result) #展示匹配后的数据

其中,treat为组别,distance为每个对象的倾向性得分,weights为每个对象的权重。

3. 均衡性检验:

plot(match_result,type="hist",interactive = F) #使用直条图展示匹配前后倾向性评分分布

Raw代表为未匹配前的分布情况,Matched代表匹配后的分布情况。

参考文献:

1. Caliendo M, Kopeinig S (2008) Some Practical Guidance for the Implementation of Propensity Score Matching. Journal of Economic Surveys 22, 31-72.

2. Dehejia RH, Wahba S (2002) Propensity Score-Matching Methods for Nonexperimental Causal Studies. The Review of Economics and Statistics 84, 151-161.

3. 刘凤芹, 马慧. 倾向得分匹配方法的敏感性分析[J]. 统计与信息论坛, 2009(10):8-14.

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言