计量大咖们在AMES都说了些什么(二):双重机器学习

发布时间：2023-12-13 作者：admin 来源：讲座

2023年12月13日发(作者：)

-

计量大咖们在AMES都说了些什么（二）：双重机器学习

机器学习（machine learning）的方法正在快速地渗透到计量经济学领域。因此，机器学习也是这次亚洲计量经济学年

会（Asia Meeting of the Econometric Society）的热点之一。

在此次大会上，如果说有哪个新的计量方法最“火”（根据其重要性与应用前景来判断），则个人以为当属“双重机器学

习”（Double Machine Learning，简记DML）。在本会，至少有三篇论文直接与DML有关（下文一并介绍），包括

Newey 教授的主题演讲。

Speaker:Whitney Newey (MIT)

Title: Demand Analysis with Many Prices

内容简介：这是 Newey 教授在本会作的主题演讲。本文研究了一个经典问题，即如何估计消费者剩余（consumer

surplus），并给出其上界（bound）。但区别在于使用了“扫描数据”（scanner data），即由消费者在家将购物收据扫

描，从而得到详细的商品价格与销量信息；以及关于消费者的特征（比如收入）。

本研究的难度则在于，存在很多价格（many prices）。比如，本文的实证部分研究了提高碳酸饮料（soda）的价格对

于消费者剩余的影响，但这也依赖于许多其他商品的价格（尽管不如 soda 自身价格的影响大）。传统的计量方法在解

释变量很多（例如 many prices）的情况下不便使用，故转而使用最新的 Double Machine Learning（DML）之方法，

详见下文。

Speaker: Whitney Newey (MIT)

Title: Debiased Machine Learning of Treatment and Structural Regression Effects

内容简介：这是Newey教授在本会组织的“Econometrics of Big Data” Session 所作的演讲，专门介绍 DML 的方法。此

法的工作论文最早出现于2016，已于2018年正式发表，作者是计量经济学与统计学的七位大牛：

Chernozhukov, V., Chetverikov, D., Demirer, M.,Duflo, E., Hansen, C., Newey, W., & Robins, J. (2018).

Double/debiasedmachine learning for treatment and structural parameters. The Econometrics Journal, 21(1), C1-C68.

该文的第一作者 Victor Chernozhukov（MIT教授）被誉为计量天才，他曾在一次讲座中说，“This is a simple paper, but

it took many people to write it”。我原以为 a simple paper 应该是十多页，顶多二十多页，但其实是68页（其中包括小

字体的证明附录19页）！仅引言部分就有11页，好在引言已包含了全文的精华（详见下文）。牛人眼中的 simple paper

原来是这样啊……

【题外话】我2017-2018年在波士顿访学时，曾有幸听过 Chernozhukov 的课。其实，他在课堂上非常 nice。记得有次

他在黑板上推导了好几行“Uniform Confidence Band”，看到底下一众MIT博士生们迷茫的眼睛，他连忙说，“这个你们可

以不知道，只要会用就行啦”。

Speaker: Jui-Chung Yang (Taiwan Tsing Hua University)

Title: Double Machine Learning with Gradient Boosting and Its Application to the Big N Audit Quality Effect

内容简介：本文使用DML研究会计学中著名的“Big N Audit Quality Effect”。问题的背景是，“四大”会计师事务所为何审

计收费这么贵，一种观点认为是因为它们提供的审计质量更高。但也存在另一种可能，即高质量的客户自我选择（self

selection of high-quality clients）接受“四大”的审计。文献中使用倾向得分匹配（Propensity Score Matching）得到了不

同的结论。本文使用DML（具体操作使用 gradient boosting），得到更稳健的结论，支持存在“Big N Audit Quality

Effect”。

双重机器学习

究竟什么是“双重机器学习”（Double Machine Learning）？其实，也不难。最简单地说，正如做两个OLS，就是二阶段

最小二乘法（2SLS）；用两次机器学习，也就是双重机器店铺。以“部分线性回归”（Partially Linear Regression）这一经典的半参数模型为例（Robinson,1988）：

其中，为结果变量，为处理变量，为感兴趣的参数（parameter of interest），为控制变量（其维度 p 可能超过样本容量

N，即高维数据），与为未知函数（连函数形式也未知）。

传统的参数回归（parametric regression）方法为假设的函数形式已知（比如线性函数，或加上平方项与交互项），然

后直接对主方程(1.1)进行OLS估计。然而，对的函数形式很可能存在误设（misspecified），由此导致偏差；因为根据

方程(1.2)，处理变量也依赖于。

为了避免函数形式误设，传统的半参估计方法使用非参数回归（nonparametric regression）来估计，比如“核回

归”（kernel regression）。但这则难免遇到“维度诅咒”（curse of dimensionality），因为协变量的维度通常较高。

幸运的是，很多机器学习的方法对高维数据依然适用，比如 Lasso、回归树（regression tree），随机森林（random

forest）、提升法（boosting）、神经网络（neural networks）等。然而，如果天真地将机器学习估计量直接代入，则

可能会出现偏差。

将方程(1.1)移项可得：

这是一元回归方程。代入机器学习估计量，

则 OLS 估计量为

但此估计量一般不会以的速度收敛，导致的渐近分布出现偏差，并不以0为中心，参见 Figure 1 之左图。

究其原因，这是因为机器学习估计量，作为非参数估计量（比如 random forest）或正则估计量（比如 lasso），都存

在“正则偏差”（regularization bias）。

换言之，虽然这些机器学习估计量是一致估计（consistent estimators），但在有限样本下依然存在偏差（finite sample

bias），而且此偏差衰减至0的速度比更慢。

具体来说，将表达式代入上述 OLS 估计量的表达式，则可将分解为两部分：

其中，第一部分a 服从渐近正态分布，但第二部分b 则为 n 个均值不为0之项的和。记收敛到的速度为，其中对于机器学

习估计量而言，通常，因为存在正则偏差。因此，上式第二部分b 的数量级为，故第二部分 b 并不收敛。

当然，如果能找到以或更快速度收敛的机器学习估计量，则可以直接用上述天真的机器学习方法。遗憾的是，一般的机

器学习估计量都达不到的收敛速度。

解决方法是先从处理变量中过滤掉（partial out）协变量的影响，以得到正交化的处理变量（orthogonalized

regressor）。根据模型设定，这只是意味着将方程(1.2)移项而已，即。

在具体操作中，可用机器学习方法估计，然后计算残差。此时，可用作为的工具变量来估计上述一元回归方程（满足工

具变量的相关性与外生性要求），即

使用IV矩估计（与2SLS等价），可得

这就是所谓的“双重机器学习估计量”（Debiased/Double Machine Learning，简记 DML），因为它分别使用了机器学习

方法来估计与。为何DML可以达到去除偏差（debiased）的效果呢？使用类似的方法，可将分解为如下三部分：其中，第一部分服从渐近正态分布，而第二部分为 n 个项的和。记收敛到的速度为，则上式第二部分的数量级为。

这意味着，如果与的收敛速度均为，则的收敛速度就能达到！这正是双重机器学习所带来的最大好处，它仅要求机器学

习估计量的收敛速度达到即可。

然而，在上式中还有项需要控制，即保证依概率收敛到0。可以证明，主要包括如下项：

一般来说，表达式(1.6)中的估计量与相关，这使得很难控制。一个简单的处理方法是进行“样本分割”（sample

splitting），比如将全样本随机地一分为二，即。

然后，只用子样本估计，而用子样本作其余的估计。此时，由于表达式(1.6)中的估计量与不再相关（因为来自不同的子

样本），故容易证明(1.6)式依均方收敛于0（期望为0，且方差收敛于0）。

当然，这样做会导致效率损失，因为只用了一半的样本来估计主方程(1.1)。但这不难补救，只要将与的作用互换，即用

子样本估计，而用子样本作其余的估计，即可得到另一估计量，然后将这两个估计量进行简单算术平均，即可恢复效

率。这种方法被称为“交叉拟合”（cross-fitting）。

更一般地，可以将全样本分为 K 等分，比如 K = 5，而进行 “K折交叉拟合”（K-fold cross-fitting）。其中，第k 折（第k

个子样本）的样本容量为 N/K。定义其补集为。

记使用估计，而用作其余估计的估计量为，则最终的估计量为这些估计量的算术平均，即

在实践中，一般推荐进行4折或5折的交叉拟合，即 K = 4 或 5，这意味着使用更大的子样本（约四分之三，或五分之四

的样本）来学习更难估计的高维函数，而用较小的子样本（约四分之一，或五分之一的样本）作其余估计；这种做法在

蒙特卡洛模拟中表现比 K = 2 更好。

事实上，DML 是一种很一般的方法，它的应用并不仅局限于上述部分线性模型。Chernozhukov et al. (2018) 还将 DML

应用于部分线性IV模型（Partially Linear IV Models）、平均处理效应（Average Treatment Effects）模型、局部处理效

应（Local Average Treatment Effects）模型等，并提供了三个实证的案例（失业保险对失业持续时间的影响、401(k)养

老金参与资格对于净金融资产的影响、制度对经济增长的长期影响）。

如此之多的精彩内容，难怪此文长达68页！

参考文献

陈强，《机器学习及R应用》，高等教育出版社，2020年（即将出版）

震撼来袭 >> 机器学习及Stata、R三天现场班

上海，2019年8月17日-19日

主办：第三届Stata中国用户大会、友万科技

主讲：陈强教授（山东大学）

授课方式：思想原理 + 数学精髓 + Stata、R案例

陈强老师将首次推出全新的“机器学习及Stata、R应用”三天现场培训班。结合Stata与R的实操案例，深入浅出地介绍最

为流行的机器学习方法，包括KNN，判别分析、朴素贝叶斯、决策树、随机森林、提升法、支持向量机、神经网络等。

跟着陈老师，三天入门机器学习，赶上时代步伐！阅读原文：

转载请注明作者与出处

Our mission is to make econometrics easy, and facilitate convincing empirical works.

-

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章