教育频道，考生的精神家园。祝大家考试成功梦想成真！

数据归并与连续自变量虚拟化（上）

http://www.newdu.com 2018/3/7 《统计研究》(京)2010年12期第86～91页余壮雄王… 参加讨论

内容提要：本文基于数据双侧归并的一般化设定探讨了回归方程中包含归并数据时的参数估计问题。对于某些变量存在数据归并的线性模型，由于样本似然函数非常复杂，普通的一阶优化条件没有解析解，Newton-Raphson迭代也难以收敛。我们基于EM算法来计算参数的ML估计，推导了对应的参数迭代方程，给出了参数的一个闭式解。特别是，当数据双侧归并比例达到100%时，被归并的连续变量退化为虚拟变量的形式，对此，我们建议使用AIC或SC来识别回归方程中的虚拟变量是否为结构变化抑或是变量归并。
    关键词：因变量归并模型自变量归并模型 EM算法连续自变量虚拟化
    作者简介：余壮雄(1979-)，男，暨南大学产业经济研究院讲师，研究方向：计量经济学；王美今，女，中山大学岭南学院教授，博士生导师，研究方向：计量经济学、金融投资。
    一、引言
    归并(Censored)数据是现实生活中一类常见的数据类型，指的是变量观测数据的取值受到限制的情形。
    在经验分析中，回归方程的（某些）解释变量或被解释变量都可能会遇到数据归并的情形，由此便衍生出了两类模型——因变量归并模型①与自变量归并模型②。直观上看，归并数据所对应的变量可以同时（或分别）作为解释变量或被解释变量进入不同的模型来研究不同的问题，上述的两类模型在应用中都具有不可或缺的重要性。然而，至今为止的大多数研究都集中于因变量归并模型（Tobin，1958；Schneider和Weissfeld，1986；Heller和Simonoff，1990），相比而言，对于自变量归并模型的研究极其少③（Manski和Tamer，2002）。
    直至最近，Rigobon和Stoker(2004，2005，2007)的一系列研究才开始比较系统地分析自变量的数据归并所引发的偏差以及对应模型的参数估计问题。由于回归方程中的某些自变量存在数据归并，观测到的数据不再反映变量真实的信息，普通的基于观测样本的LS估计不再是参数的一致估计④。此时，即使约束误差项具有良好的分布，观测样本的似然函数也极其复杂，使得直接的ML估计基本不可行。对此，Rigobon和Stoker(2007)建议使用完整形式分析(Complete Case Analysis)的方法(Little，1992)来估计参数，即在LS回归中使用对应的条件期望代替被归并的那部分数据。
    然而，完整形式分析在获得估计一致性的同时却放弃了估计的有效性。为了获得参数的有效估计，余壮雄(2010)提出基于EM算法（Dempster等，1977）来计算参数的ML估计，并在自变量归并模型的某种特殊设定⑤下推导出了参数的EM迭代方程。余壮雄(2010)的研究肯定了EM算法在自变量归并模型⑥中的应用前景，然而，对于一般化设定下参数的ML估计以及EM算法的实际应用仍然有待进一步的研究。
    另一个有意思的问题同样源自于数据归并的一般化设定（数据的双侧归并），即数据的归并比例达到100%的情形。当数据的归并只发生于单侧时，归并比例达到100%意味着变量的信息完全损失，此时无法进行参数的估计；但是，当数据的归并发生于双侧时，归并的比例是允许达到100%的，此时，被完全归并的数据为一个虚拟变量的形式，它仍然包含了用于参数估计的部分信息。由此衍生出的新模型不妨称之为连续变量虚拟化模型，事实上，在经验分析中，这一模型被不经意地大量使用，因为数据的缺失或人为的归并，某些连续变量被简化为虚拟变量进入回归方程，遗憾的是，这种简化处理带来的估计偏差（Regobin和Stoker，2004；余壮雄，2010）一直都被忽略了。
    本文基于数据双侧归并的一般化设定条件讨论了因变量归并模型与自变量归并模型的参数估计问题，我们基于EM算法来计算参数的ML估计，并推导了EM算法对应的参数迭代方程，给出了参数的一个闭式解。本文的结构安排如下：第二部分介绍了由数据的归并带来的估计偏差，进而引出EM算法的基本思想；第三部分和第四部分则分别讨论了因变量归并模型与自变量归并模型的参数估计问题，基于EM算法推导了对应的参数迭代方程；第五部分讨论了在实证分析中如何识别虚拟变量是数据归并还是结构变化；最后为本文的结论。
    二、归并偏差与EM算法
    （一）数据归并与偏差
    当变量的部分样本取值在超过或低于某个界限时由于观测不到而归并后，其样本不再反映其真实的信息，直接使用观测样本进行回归必定会导致偏差。经过样本归并，新的样本所反映的信息与真实信息已经存在显著的差异，而且这种差异会随着样本归并比例的增加而扩大。
    为了考察数据归并带来的估计偏差，以下我们以一个简单的双变量线性回归模型⑦为例进行分析。
    1.因变量归并模型。
    对应的模型设定如下：


    即Regobin和Stoker(2004)所谓的膨胀性偏差。
    （二）EM算法
    无论是因变量归并模型还是自变量归并模型，其对应的样本似然函数都非常复杂，通常由一阶优化条件无法解得参数的解析解，即使使用Newton-Raphson迭代计算参数的数值解也不一定收敛⑧。对此，本文基于EM算法来计算参数的ML估计。
    记Y为观测到的不完整数据，Z=(Y，X)为完整数据，X为缺失的数据，则EM算法可计算如下：


    易知，上式的一阶优化条件无法解得参数的解析解，而使用Newton-Raphson迭代计算参数的数值解也不能保证收敛；因此，我们以下使用EM算法来计算参数的数值解。
    由式(5)的设定可知，Z对应的对数似然函数为：


    式(9)和(10)迭代至收敛即为EM算法对应的解。

（未完待续）

Tags：数据归并与连续自变量虚拟化（上）

责任编辑：admin

上一篇文章：数据挖掘在保险业中的应用

下一篇文章：数据归并与连续自变量虚拟化（下）