倾向得分匹配

发布时间：2023-06-12 作者：admin 来源：文学

倾向得分匹配

火影忍者剧情介绍-徽杭古道徒步攻略

2023年3月16日发(作者：先进事迹标题)

真实世界⼤数据分析系列倾向性评分匹配

观察性研究

观察性研究是指我们不对研究对象实施⼲预，⽽只是观察研究对象的疾病发⽣发展的研究。当我们需要在观察性研究中

对⽐两组不同⼈群的不同特征或者疾病发⽣发展时，两组⼈群往往会存在许多潜在的混杂因素的不均衡，⽽这些不均衡

会使我们的⽐较结果产⽣偏倚。在实验性研究中，我们可以通过随机分组尽可能消除这种混杂因素的不均衡，⽽在观察

性研究中我们可以使⽤倾向性评分匹配的⽅法对两组⼈群根据选择的混杂因素进⾏匹配，使得两组⼈群的混杂因素尽可

能均衡，从⽽减少混杂因素对结果的混杂效应。

图1.随机对照试验的基本流程

上图是随机对照试验（RCT）研究的基本流程，可以看到随机分组在其中是⼀个很重要的过程，良好规范的随机过程可

以实现试验组及对照组对象的混杂因素均衡化。但在观察性研究（包括真实世界研究）中我们⽆法对研究对象进⾏随机

分组，因此，我们需要使⽤额外的⽅法对混杂因素进⾏均衡。2006年美国流⾏病学杂志AmJEpidemiol总结了真实世

界研究控制混杂常⽤的五种⽅法，包括：

1.多元回归模型调整混杂；

2.倾向性评分匹配（PSM）后构建回归模型；

3.回归模型调整倾向性评分（PS）；

4.回归模型+加权（IPTW）处理；

5.回归模型+加权（SMR）处理；

可见倾向性评分是⽬前较为认可的对混杂因素进⾏调整控制的⽅法。

匹配的过程

图2.匹配的基本过程

上图是对研究对象进⾏匹配的基本过程，可以看到在匹配的过程中，将对照组及研究组中差异较⼤的对象进⾏排除，仅

保留了两组相似的，可以进⾏⽐较的个体。

倾向性评分原理

倾向性评分匹配英⽂名为“Propensityscorematching,PSM”，是指通过⼀定的统计学⽅法对试验组和对照组进⾏筛选，

使筛选出来的研究对象在除研究因素外的其他特征（潜在的混杂因素）上具有可⽐性。在进⾏匹配以后，研究组及对照

组的结局存在差异时，我们便可将差异归于暴露因素的作⽤。

倾向性评分的基本步骤

图3.倾向性评分基本步骤

1.估计倾向性评分

对于倾向性评分匹配，⼀般是通过某种统计学模型求得每个观测的多个协变量的综合倾向性评分，再按照倾向性评分是

否接近进⾏匹配。如上图所⽰，两条曲线分布代表研究组与对照组对象倾向性评分的分布，⽽两组倾向性评分有交集的

中间区域（两虚线之间）是我们进⾏匹配的区间。最常⽤的模型⼀般是以分组变量为因变量，以其他可能影响结果的潜

在混杂因素作为协变量构建Logistic模型。

图4.倾向性评分基本原理

2.进⾏匹配

倾向性评分的⼏种常⽤匹配⽅法：

图5.倾向性评分匹配常⽤的匹配⽅法

3.均衡性检验

在进⾏倾向性评分以后，我们均需要对配对后的两组研究对象的倾向性评分以及协变量的分布进⾏对⽐分析，以检验倾

向性评分匹配后的两组对象的协变量均衡性是否已经达到我们的要求。R语⾔的MatchItpackage可⽤进⾏不同匹配⽅法

的倾向性评分匹配，且带有匹配后查看匹配前后两组倾向性评分的QQ-plot以及hist-plot功能，可以清晰明了地看到匹配

前后的变化。如下图所⽰，匹配前（左边）两组的倾向性评分分布差异很⼤，但是匹配后（左边），两组的评分分布基

本⼀致。

图6.匹配前后研究组与对照组倾向性评分分布对⽐

4.估计暴露效应及敏感性分析

在进⾏匹配以后，我们就可以对⼲预或暴露效应进⾏估计。⼀般我们要计算的是平均⼲预效应（AverageTreatment

Impace,ATE）:

其中y1为⼲预为1的结局效应，y0为⼲预为0的结局效应；D为⼲预，x为协变量。⼀般⽤t检验⽐较两组的平均效应即

可。

最后⼀步为敏感性分析，倾向性评分的敏感性分析⽐较复杂，主要的⽬的是分析估计的⼲预效应是否稳健。简单的做法

为剔除⼀个或多个⽤于匹配的协变量，然后进⾏匹配再估计⼲预效应，观察⼲预效应是否稳健不变。在某些研究中，也

有研究者使⽤不同的匹配⽅法对研究对象进⾏匹配，并观察估计的⼲预效果是否稳健。

R语⾔操作实例：

1.进⾏匹配

library("MatchIt")#加载程序包

data("lalonde")#调⽤程序包⾃带测试数据

match_result<-matchit(treat~age+educ+black+hispan+nodegree,method="nearest",distance="logit",discard=

"none",data=lalonde,caliper=0.03,replace=FALSE)#使⽤⼆元logistic回归计算倾向性评分，匹配使⽤最邻近匹配⽅

法，卡钳值为0.03，不放回抽样的⽅式进⾏匹配；

在这次匹配中，对照组有429例，试验组有185例；使⽤该参数共有212例对象得到匹配，每组分别为106例。没有匹配

上的对象分别有323例及79例。

2.展⽰匹配后的数据

(match_result)#展⽰匹配后的数据

其中，treat为组别，distance为每个对象的倾向性得分，weights为每个对象的权重。

3.均衡性检验：

plot(match_result,type="hist",interactive=F)#使⽤直条图展⽰匹配前后倾向性评分分布

Raw代表为未匹配前的分布情况，Matched代表匹配后的分布情况。

参考⽂献：

doM,KopeinigS(2008)SomePracticalGuidancefortheImplementationofPropensityScoreMatching.

JournalofEconomicSurveys22,31-72.

aRH,WahbaS(2002)

ReviewofEconomicsandStatistics84,151-161.

3.刘凤芹,马慧.倾向得分匹配⽅法的敏感性分析[J].统计与信息论坛,2009(10):8-14.

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章