教育频道，考生的精神家园。祝大家考试成功梦想成真！

数据归并与连续自变量虚拟化（下）

http://www.newdu.com 2018/3/7 《统计研究》(京)2010年12期第86～91页余壮雄王… 参加讨论

由于实际的经验分析中，遇到的因变量归并模型经常只是式(5)的某些特例，以下给出上述迭代方程在两种常见特例下的简化形式。

1.因变量右侧归并模型。

五、连续自变量虚拟化

在经验分析中，虚拟变量经常被引入到回归方程中用于度量某些可能的结构变化，这种处理大多数是基于应用的目的，而对于真实DGP是否为结构变化的问题并没有得到充分的检验。实际上，在很多情形下，回归方程中引入虚拟变量是由于某些连续变量的样本无法观测到，因此对其进行虚拟化；甚至有时候，即使这些连续变量可以观测到，为了某种目的而使用虚拟变量的形式。对于这种处理，普通的LS估计可能是不一致的。

考虑如下常用的回归方程设定：

易知，当真实的DGP为DGP1时，式(20)的LS估计（简称为M-LS方法）是一致估计；而当真实的DGP为DGP2时，LS估计不再是一致估计。因此，在估计式(20)的参数时对其所对应的真实DGP进行识别是非常必要的。

注意到，当真实的DGP为DGP2时，利用上文的归并自变量模型的估计方法（简称为M-EM方法）可以获得式(20)中参数的一致估计。这意味着，即使不知道真实的DGP是DGP1还是DGP2，对式(20)的两种不同估计将肯定有一种是一致的而另一种是不一致的。因此，我们可以根据式(20)的两种不同的估计结果来挑选真实的DGP。

识别过程具体如下：

步骤1使用M-LS和M-EM两种方法估计式(20)的参数。

步骤2根据AIC或SC挑选出合适的模型。

DGP1和DGP2实质上对应的是回归方程中使用不同解释变量的两种情形，易知，此时的AIC和SC可以作为选择模型的依据（证明备索）。

六、结论

数据归并是社会科学的经验分析中的一类重要现象，根据归并数据对应变量在回归方程中的位置，具体又可分为因变量归并模型与自变量归并模型。因变量归并模型自Tobin(1958)的研究开始，得到了很多计量学者的关注，迅速成为微观计量经济学(Greene，2008)研究的一类重要模型；相比之下，关于自变量归并模型的研究落后甚多，直至Rigobon和Stoker(2004)的研究才开始正式进入计量学者的研究视野，然而其在经验分析中具有相当广阔的应用前景，必定为该领域的研究带来快速的发展。

本文在Rigobon和Stoker(2004，2005，2007)等的研究基础上，以一般化设定的变量双侧归并模型为研究的起点，在一个统一的框架内考察了因变量归并模型与自变量归并模型的ML估计，由于样本似然函数非常复杂，普通的一阶求解没有解析解，Newton-Raphson迭代也难以收敛，我们基于EM算法来计算参数的ML估计，并推导了对应的参数迭代方程，给出了参数的一个闭式解。另外，为了便于在经验分析中的应用，我们也给出了不同的数据归并类型下对应的迭代方程的简化形式。

虽然自变量归并模型进入计量学者研究视野的时间较短，然而在经验分析中，这一模型早已被使用，当然，使用的估计方法并不准确。例如，在线性回归中，某些连续解释变量由于无法获得可靠的数据（也可能由于人为的简化处理）经常被简单处理成虚拟变量。基于这种处理的回归模型实质上已经演化成连续型自变量归并模型的一个特例（完全归并），但由于自变量归并模型的提出较晚，而这种连续变量虚拟化的处理也比较隐蔽，其存在的问题目前基本没有得到应有的重视。

注释：

①因变量归并模型或者归并回归模型(Censored Regression Model)，最早由Tobin(1958)提出，因此很多时候也称为Tobit模型。

②模型中的解释变量与被解释变量同时存在归并的情形，目前尚未有研究涉及。

③对此，我们猜测有两种原因：首先，Tobin的影响力导致了更多的人关注这一模型；其次，在经验分析中，如果因变量存在数据归并，通常很难找到替代的变量，而如果某些自变量存在数据归并，实证研究者可能更倾向于找到该变量的替代变量，而避开处理复杂的自变量归并模型。

④Rigobon和Stoker(2004)的研究表明，在自变量归并模型的某些常见设定下，基于观测样本的15估计存在一个确定性的膨胀性偏差(Expansion Bias)，即参数估计值的绝对值大于参数真值的绝对值。

⑤模型设定为正态混合模型，存在某个自变量右侧单侧归并，且假定归并数据与无归并数据可区分为两段。

⑥EM算法在因变量单侧归并模型的应用已有较多的研究（Aitkin，1981；Ng等，2002）.

⑦虽然样本归并会导致估计偏差的结论非常直观，但对于一般设定下的模型，其估计偏差并不容易表示为某些比较直观且简单的结果。

⑧Olsen(1978)建议对因变量归并模型进行参数变换以改进Newton-Raphson迭代的收敛性质，但这种处理无法应用到自变量归并模型。

⑨参数

并不必须要等于

；其取值大小并不重要，也不进入MLE的计算。

⑩实际计算时，参数的初始值可以使用基于观测样本的LS估计。

(11)此处的数据缺失发生在作为条件的解释变量上，相关的类似分析可参见Huang(1984).

参考文献：

[1]Aitkin, M.. A Note on the Regression Analysis of Censored Data[J]. Technometrics, 23(2),1981,161-163.

[2]Dempster, A.P., N.M. Laird and D.B. Rubin. Maximum Likelihood from Incomplete Data via the EM algorithm[J]. Journal of the Royal Statistical Society. Series B (Methodological), 39(1),1977,1-38.

[3]Greene, W.H.. Econometrics Analysis[M]. 6 th Edition, Prentice Hall, 2008.

[4]Heller, G. and J.S. Simonoff. A Comparison of Estimators for Regression with a Censored Response Variable[J]. Biometrika, 77(3),1990,515-535.

[5]Huang, C.J.. Estimation of Stochastic Frontier Production Function and Technical Inefficiency via the EM Algorithm[J]. Southern Economic Journal, 50(3),1984,847-856.

[6]Little, R.J.A.. Regression with Missing X's: A Review[J]. Journal of the American Statistical Association, 87,1992,1227-1237.

[7]Manski, C.F. and E. Tamer. Inference on Regressions with Interval Data on a Regressor or Outcome[J]. Econometrica, 70,2002,519-565.

[8]Ng, H.K.T., P.S. Chan and N. Balakrishnan. Estimation of Parameters from Progressively Censored Data Using EM Algorithm[J]. Computational Statistics & Data Analysis, 39,2002,371-386.

[9]Olsen, R.J.. Note on the Uniqueness of the Maximum Likelihood Estimator for the Tobit Model[J]. Econometrica, 46,1978,1211-1215.

[10]Rigobon, R. and T.M. Stoker. Bias from Censored Regressors[C]. Working Paper, 2005.

[11]Rigobon, R. and T.M. Stoker. Censored Regressors and Expansion Bias[C]. Working Paper, 2004.

[12]Rigobon, R. and T.M. Stoker. Estimation with Censored Regressors: Basic Issues[J]. International Economic Review, 48(4),2007,1441-1467.

[13]Schneider, H. and L. Weissfeld. Estimation in linear models with censored data[J]. Biometrica, 73(3),1986,741-745.

[14]Tobin, J.. Estimation of Relationships for Limited Dependent Variables[J]. Eoonometrica, 26,1958,24-36.

[15]余壮雄.归并自变量模型估计，工作论文，2010.
责任编辑：夏雨

Tags：数据归并与连续自变量虚拟化（下）

责任编辑：admin

上一篇文章：数据归并与连续自变量虚拟化（上）

下一篇文章：数据挖掘中关联规则算法的考察