2023年12月13日发(作者:)
-

计量大咖们在AMES都说了些什么(二):双重机器学习
机器学习(machine learning)的方法正在快速地渗透到计量经济学领域。因此,机器学习也是这次亚洲计量经济学年
会(Asia Meeting of the Econometric Society)的热点之一。
在此次大会上,如果说有哪个新的计量方法最“火”(根据其重要性与应用前景来判断),则个人以为当属“双重机器学
习”(Double Machine Learning,简记DML)。在本会,至少有三篇论文直接与DML有关(下文一并介绍),包括
Newey 教授的主题演讲。
Speaker:Whitney Newey (MIT)
Title: Demand Analysis with Many Prices
内容简介:这是 Newey 教授在本会作的主题演讲。本文研究了一个经典问题,即如何估计消费者剩余(consumer
surplus),并给出其上界(bound)。但区别在于使用了“扫描数据”(scanner data),即由消费者在家将购物收据扫
描,从而得到详细的商品价格与销量信息;以及关于消费者的特征(比如收入)。
本研究的难度则在于,存在很多价格(many prices)。比如,本文的实证部分研究了提高碳酸饮料(soda)的价格对
于消费者剩余的影响,但这也依赖于许多其他商品的价格(尽管不如 soda 自身价格的影响大)。传统的计量方法在解
释变量很多(例如 many prices)的情况下不便使用,故转而使用最新的 Double Machine Learning(DML)之方法,
详见下文。
Speaker: Whitney Newey (MIT)
Title: Debiased Machine Learning of Treatment and Structural Regression Effects
内容简介:这是Newey教授在本会组织的“Econometrics of Big Data” Session 所作的演讲,专门介绍 DML 的方法。此
法的工作论文最早出现于2016,已于2018年正式发表,作者是计量经济学与统计学的七位大牛:
Chernozhukov, V., Chetverikov, D., Demirer, M.,Duflo, E., Hansen, C., Newey, W., & Robins, J. (2018).
Double/debiasedmachine learning for treatment and structural parameters. The Econometrics Journal, 21(1), C1-C68.
该文的第一作者 Victor Chernozhukov(MIT教授)被誉为计量天才,他曾在一次讲座中说,“This is a simple paper, but
it took many people to write it”。我原以为 a simple paper 应该是十多页,顶多二十多页,但其实是68页(其中包括小
字体的证明附录19页)!仅引言部分就有11页,好在引言已包含了全文的精华(详见下文)。牛人眼中的 simple paper
原来是这样啊……
【题外话】我2017-2018年在波士顿访学时,曾有幸听过 Chernozhukov 的课。其实,他在课堂上非常 nice。记得有次
他在黑板上推导了好几行“Uniform Confidence Band”,看到底下一众MIT博士生们迷茫的眼睛,他连忙说,“这个你们可
以不知道,只要会用就行啦”。
Speaker: Jui-Chung Yang (Taiwan Tsing Hua University)
Title: Double Machine Learning with Gradient Boosting and Its Application to the Big N Audit Quality Effect
内容简介:本文使用DML研究会计学中著名的“Big N Audit Quality Effect”。问题的背景是,“四大”会计师事务所为何审
计收费这么贵,一种观点认为是因为它们提供的审计质量更高。但也存在另一种可能,即高质量的客户自我选择(self
selection of high-quality clients)接受“四大”的审计。文献中使用倾向得分匹配(Propensity Score Matching)得到了不
同的结论。本文使用DML(具体操作使用 gradient boosting),得到更稳健的结论,支持存在“Big N Audit Quality
Effect”。
双重机器学习
究竟什么是“双重机器学习”(Double Machine Learning)?其实,也不难。最简单地说,正如做两个OLS,就是二阶段
最小二乘法(2SLS);用两次机器学习,也就是双重机器店铺。以“部分线性回归”(Partially Linear Regression)这一经典的半参数模型为例(Robinson,1988):
其中,为结果变量,为处理变量,为感兴趣的参数(parameter of interest),为控制变量(其维度 p 可能超过样本容量
N,即高维数据),与为未知函数(连函数形式也未知)。
传统的参数回归(parametric regression)方法为假设的函数形式已知(比如线性函数,或加上平方项与交互项),然
后直接对主方程(1.1)进行OLS估计。然而,对的函数形式很可能存在误设(misspecified),由此导致偏差;因为根据
方程(1.2),处理变量也依赖于。
为了避免函数形式误设,传统的半参估计方法使用非参数回归(nonparametric regression)来估计,比如“核回
归”(kernel regression)。但这则难免遇到“维度诅咒”(curse of dimensionality),因为协变量的维度通常较高。
幸运的是,很多机器学习的方法对高维数据依然适用,比如 Lasso、回归树(regression tree),随机森林(random
forest)、提升法(boosting)、神经网络(neural networks)等。然而,如果天真地将机器学习估计量直接代入,则
可能会出现偏差。
将方程(1.1)移项可得:
这是一元回归方程。代入机器学习估计量,
则 OLS 估计量为
但此估计量一般不会以的速度收敛,导致的渐近分布出现偏差,并不以0为中心,参见 Figure 1 之左图。
究其原因,这是因为机器学习估计量,作为非参数估计量(比如 random forest)或正则估计量(比如 lasso),都存
在“正则偏差”(regularization bias)。
换言之,虽然这些机器学习估计量是一致估计(consistent estimators),但在有限样本下依然存在偏差(finite sample
bias),而且此偏差衰减至0的速度比更慢。
具体来说,将表达式代入上述 OLS 估计量的表达式,则可将分解为两部分:
其中,第一部分a 服从渐近正态分布,但第二部分b 则为 n 个均值不为0之项的和。记收敛到的速度为,其中对于机器学
习估计量而言,通常,因为存在正则偏差。因此,上式第二部分b 的数量级为,故第二部分 b 并不收敛。
当然,如果能找到以或更快速度收敛的机器学习估计量,则可以直接用上述天真的机器学习方法。遗憾的是,一般的机
器学习估计量都达不到的收敛速度。
解决方法是先从处理变量中过滤掉(partial out)协变量的影响,以得到正交化的处理变量(orthogonalized
regressor)。根据模型设定,这只是意味着将方程(1.2)移项而已,即 。
在具体操作中,可用机器学习方法估计,然后计算残差。此时,可用作为的工具变量来估计上述一元回归方程(满足工
具变量的相关性与外生性要求),即
使用IV矩估计(与2SLS等价),可得
这就是所谓的“双重机器学习估计量”(Debiased/Double Machine Learning,简记 DML),因为它分别使用了机器学习
方法来估计与。为何DML可以达到去除偏差(debiased)的效果呢?使用类似的方法,可将分解为如下三部分:其中,第一部分服从渐近正态分布,而第二部分为 n 个项的和。记收敛到的速度为,则上式第二部分的数量级为。
这意味着,如果与的收敛速度均为,则的收敛速度就能达到!这正是双重机器学习所带来的最大好处,它仅要求机器学
习估计量的收敛速度达到即可。
然而,在上式中还有项需要控制,即保证依概率收敛到0。可以证明,主要包括如下项:
一般来说,表达式(1.6)中的估计量与相关,这使得很难控制。一个简单的处理方法是进行“样本分割”(sample
splitting),比如将全样本随机地一分为二,即。
然后,只用子样本估计,而用子样本作其余的估计。此时,由于表达式(1.6)中的估计量与不再相关(因为来自不同的子
样本),故容易证明(1.6)式依均方收敛于0(期望为0,且方差收敛于0)。
当然,这样做会导致效率损失,因为只用了一半的样本来估计主方程(1.1)。但这不难补救,只要将与的作用互换,即用
子样本估计,而用子样本作其余的估计,即可得到另一估计量,然后将这两个估计量进行简单算术平均,即可恢复效
率。这种方法被称为“交叉拟合”(cross-fitting)。
更一般地,可以将全样本分为 K 等分,比如 K = 5,而进行 “K折交叉拟合”(K-fold cross-fitting)。其中,第k 折(第k
个子样本)的样本容量为 N/K。定义其补集为。
记使用估计,而用作其余估计的估计量为,则最终的估计量为这些估计量的算术平均,即
在实践中,一般推荐进行4折或5折的交叉拟合,即 K = 4 或 5,这意味着使用更大的子样本(约四分之三,或五分之四
的样本)来学习更难估计的高维函数,而用较小的子样本(约四分之一,或五分之一的样本)作其余估计;这种做法在
蒙特卡洛模拟中表现比 K = 2 更好。
事实上,DML 是一种很一般的方法,它的应用并不仅局限于上述部分线性模型。Chernozhukov et al. (2018) 还将 DML
应用于部分线性IV模型(Partially Linear IV Models)、平均处理效应(Average Treatment Effects)模型、局部处理效
应(Local Average Treatment Effects)模型等,并提供了三个实证的案例(失业保险对失业持续时间的影响、401(k)养
老金参与资格对于净金融资产的影响、制度对经济增长的长期影响)。
如此之多的精彩内容,难怪此文长达68页!
参考文献
陈强,《机器学习及R应用》,高等教育出版社,2020年(即将出版)
震撼来袭 >> 机器学习及Stata、R三天现场班
上海,2019年8月17日-19日
主办:第三届Stata中国用户大会、友万科技
主讲:陈强教授 (山东大学)
授课方式:思想原理 + 数学精髓 + Stata、R案例
陈强老师将首次推出全新的“机器学习及Stata、R应用”三天现场培训班。结合Stata与R的实操案例,深入浅出地介绍最
为流行的机器学习方法,包括KNN,判别分析、朴素贝叶斯、决策树、随机森林、提升法、支持向量机、神经网络等。
跟着陈老师,三天入门机器学习,赶上时代步伐!阅读原文:
(c) 2019, 陈强,山东大学经济学院
转载请注明作者与出处
Our mission is to make econometrics easy, and facilitate convincing empirical works.
-