2.每个横截面的和总的β的关系
给定横截面个体i,我们知道该横截面的时间序列回归的估计量包含在式(10)中:
可以看到,每个截面的时序回归实际上是把估计横截面固定效应的样本按横截面分成n份,或者反过来说横截面固定效应的估计实际上是把每一个截面的时序回归的样本放到一起形成一个大样本,那么,每个截面的回归系数与固定效应的回归系数β有什么样的关系呢?
我们通过假设只有一个回归元x来给出直接的例证,若只有一个x,则对于某截面i有:
如果现在有多于1个的回归元,并且回归元之间理论上是无关的,那么这时式(13)仍然成立,但如果回归元之间是相关的,问题就会复杂很多,不过如果使用偏回归方法,先排除其他变量的干扰,我们仍然可以得到类似的结论,我们自己所做的一些数值模拟和估计也显示了这点,细节不在这里补充。由以上的讨论,可得到推论2。
推论2横截面固定效应估计本质上是在做一个有线性约束的时间序列回归,其估计结果等于对每一个横截面进行时序回归得到的系数的加权平均。同样的结论可以推广到时间固定效应的估计,即时间固定效应的估计结果等于每个时期横截面回归估计结果的加权平均。
上面的例子中所做的模拟数据是一个有着大T小N的数据集,而面板数据一般是有着大N小T的数据集,因此我们的模拟可能会由于其特定的T和N而受到质疑,而实际上,理论结果并不受到样本尺寸的明显影响。图3和图4展示了另一个有着相对大N和小T的模拟数据,其中N=6,T=3。
3.四个估计量之间的关系
前面我们说明了横截面固定效应和时间固定效应的本质,即横截面固定效应估计得到的更多是样本时间维上的相关关系,时间固定效应估计得到的更多是样本横截面维度上的相关关系;而混合效应的本质则十分容易理解,它不区分这两个维度,把所有样本当成一个维度来估计,合并了样本截面维和时间维上的信息;而双向固定效应的估计量我们知道为,下面我们要继续深入问下一个问题:混合效应、截面固定效应、时间固定效应和双向固定效应之间的关系是什么?同时,双向固定效应的本质又是什么?
由式(17),我们得到:
总之,我们有推论3。
推论3混合效应、截面固定效应、时期固定效应以及双向固定效应的估计量有式(20)和式(21)所示的理论关系,双向固定效应估计量可以表示为其他三个估计量的(正定)矩阵加权平均形式,在只有一个自变量时,关系可简化为式(27),权重为相应估计量的自变量方差之比。
二、所谓的不可观测的异质性真的是不可观测的吗?另一个遗漏变量的例子
以上讨论的面板数据中横截面和时间序列的相关异质性是由于另外一个遗漏变量导致的,下面我们再看另外一个有着截面和时序异质的例子,见图5。
图5的虚线和实线与图1有着同样的含义,与图1不同的是,这里我们模拟的数据令x与y在截面维度上是正相关的(虚线),而在时间维度两者是负相关的(实线)。只看样本散点图,可能直接使用横截面固定效应和双向固定是合理的选择,然而,直接这样做仍然是有问题的。数据生成过程如下:
上面的数据生成过程导致了如图5所显示的横截面和时序相关异质的现象,我们还可以有其他类似数据生成过程来产生这种异质性,如式(32)⑦。
读者可能对我们的数据生成过程稍感疑惑,实际上,我们的数据生成过程有很强的经济学意义,体现了一种变量自身所有的横截面与时间序列上的效应不一致。下面用直观的例子讨论这种现象,尤其是式(30)和式(31)所示的数据生成过程出现的可能原因和经济含义。
1.相对性
2.集体行为(利益)与个体行为(利益)的不一致
3.自选择问题
自选择问题同样能够导致横截面和时序相关关系的不一致。有一个经典的关于自选择问题的案例,即医疗和健康的问题。去医院看病预期会提高人们的身体健康水平,而一个很自然的考察医院治疗效果的经验方法是比较去医院多的人与去医院少的人的健康水平,然而,如Angrist和Pischke(2008)所示,截面的比较反而表明去医院治疗意味着更差的健康水平,这意味着医院的治疗使人们的健康水平降低么?当然不是。这个问题就有着自选择和反向因果的原因,去医院看病多的人可能本来就有着较差的身体素质,这导致即使接受治疗他们也会比其他的人身体差,所以在横截面上看,医院治疗与更差的身体状况相关,然而在时序方向上看,医院的治疗还是能够提高人们的身体状况的。如果能够较好的度量个体的本身内在的身体素质,那么我们可以预期式(32)中的为负,而为正。这里我们只拿自选择问题做一个简单的例子来说明可能横截面和时序的相关异质性,实际中处理自选择问题一般采用随机分配、固定效应或DID方法。
这时,时间固定效应才是需要的。同样的结论可以推广到截面固定效应和双向固定效应的情况。因此,我们有推论4: