2019-12-28

如题所述

第1个回答  2022-06-12

在大家做实证分析的最初阶段,经常会有一个困扰:原本主效应很符合预期目标,但加入了一个或几个控制变量后,主效应要么符号变了,要么不显著了。可是,关键控制变量不加入的话,审稿人必然会提出质疑。这是怎么回事了?
要回答这个问题,让我们先从条件期望说起。

春节临近,如何应对亲戚的“问候杀”,是一个亟待解决的现实问题。试想,举国欢庆的日子,大家齐坐一堂,面对读硕读博归家的你,七大姑问到:“大闺女,老大不小了,该干点正事谈个对象什么的呢,读那么多书干嘛呀”,你咽了咽口水“读书好啊,以后可以多挣钱孝敬您老人家”,话音未落,八大姑道:“哎呀瞎说,你看隔壁二狗子,高中没读完去做生意,现在赚老多钱了”….气氛顿时尴尬了,除了咽口水外,该怎么“杠”回去…

那就要了解条件期望的概念了:条件期望函数记为 ,是关于 的函数,考虑到 是随机的,所以条件期望函数也是随机的。比如给定 为受教育水平的一个定值,如 ,那么 就是表示所有读 12 年书的个体,其收入水平的期望值。

图中,横轴表示受教育水平,纵轴则为收入,在每一个给定的受教育水平下(如:受教育年限 12 年),收入服从一个近似正态的随机分布。可以看到,由于存在着无法忽视的个体差异,使得某些低教育者的收入要高于某些高教育者的收入,但通常而言,教育水平高的人赚的更多。

看到这里,学习过初级计量经济学的同学肯定会想到,对,是“个人能力”的影响,是“个人能力”让二狗子和大闺女产生了收入的差异。确实如此,那么“个人能力”便是一个需要控制的重要变量。

让我们回到“小儿辩车”的引子。调入官方自带的汽车数据,研究汽车长度 length 对汽车价格 price 的影响。在多元回归中,加入的控制变量分别为里程数 mpg 和汽车重量 weight

虚线拟合线表示了不加入控制变量时 length 的影响,而实线是加入控制变量之后的。由之初的右上倾斜变为右下倾斜,这是一个本质性地改变。

对比 length 的系数可见,在一元回归时该系数显著为正(57.2),而加入控制变量后,系数为负(-104.9)并在 10% 的水平下显著。

若真实的回归模型为 ① ,若此时将 的“贡献”剔除掉之后,得到的回归模型是 ② ,此时的 = ,因此 ,出现了内生性问题。

此时,若对②式进行回归,我们可以得到一个 的系数值,但是再加入 后,即再对①式进行回归,我们发现系数 的系数值变了 ,其原因就是出现了我们上述所讨论的问题。

先进行正常的多元回归,加入主效应变量 length 和控制变量 mpg weight

接着,我们利用解构回归(regression anatomy)(参考《基本无害的计量经济学》)来“解读”正常的多元回归:1.先用 length 对控制变量 mpg weight 进行回归,然后可以得到一个残差项。2. 再用被解释变量对上一步的残差项进行回归。

可以看到,最后得到的主效应估计结果一致,均为 -104.9 。在用 length 对控制变量 mpg weight 回归后得到的残差项,表示 length 剔除了其他解释变量对自己的影响的“结果”,将其再与被解释变量的回归就是一个“净”的效应。

可见,加入控制变量后,我们关心的估计系数是否会产生变化,取决于与控制变量之间的独立性。

我们列出将会出现的四种情形

相似回答