因果推断:双重机器学习-ddml
2023-06-03 09:37阅读:
1.
理论基础
1.1
为什么我们需要 DDML
实证研究往往会面临一个质疑:模型设定是正确的吗?例如,研究在班级中加入助教对教学质量的影响,常见的方法是构造回归方程:
其中,
代表成绩;
是标志是否加入助教的二元变量;
为控制变量,可能包括:每天学习时间、作业完成率、出勤率等。那么这些特征的关系真的是线性的吗?显然不是。例如随着学习时间增加,成绩自然会提高,然而学习时间过长很可能导致疲惫、睡眠不足等,进而造成学习效率下降,反而使得成绩下降。
需要注意的是,我们实际上并不关心学习时间对成绩的影响,我们只希望研究
,我们只是需要处理控制变量对
造成的影响。
接下来用更严谨的方法描述上述问题。考虑因果模型:
其中
是模型的 Outcome,
是因果模型的 treatment。这里,我们关注
,即 treatment 的因果效应。一种常见的思路是,通过假设 (例如常见的线性假设),或者利用一定方法
(通常是机器学习) 估计,得到
,随后就可以利用线性回归得到
:
接下来,很自然的想要研究这个估计量是否无偏。遗憾的是
往往是有偏的:
可以看出误差分为两项。
项来自于
和
的独立性,即
,若二者不独立则会造成偏误。然而问题来源于
项,我们将其展开为以下形式:
注意到
项。首先,
的估计往往存在误差,例如对于高维数据,往往会采用正则项处理,造成正则化误差,此时
项发散。此外,
是数据本身的性质,因此数据会决定偏误的大小而无法改变,导致估计非常不稳健。
综合以上推论,可以说因果模型 treatment effect
的传统估计方法并不完美。因此,我们引入
Double/Debiased Machine
Learning (DDML) 的概念,为因果估计提供更为稳健的方法。
全文阅读:
https://www.lianxh.cn/news/5529578569a81.html