教育频道，考生的精神家园。祝大家考试成功梦想成真！

基于多重抽样框的连续性抽样估计方法研究

http://www.newdu.com 2018/3/7 《统计研究》(京)2012年10期第105～112页贺建风参加讨论

    内容提要：多重抽样框可以解决单一抽样框难以完整覆盖流动性目标总体的难题，连续性抽样调查则可以获取变量的时序观测数据，对总体现象进行追踪调查。本文将多重抽样框调查与连续性抽样调查两种方法结合在一起进行研究，深入分析基于多重抽样框的连续性抽样估计方法。文章首先设计了连续性调查环境下总体结构变动表；然后，在简单随机抽样假定下的轮换样本调查情形开展研究，设计了14种参数缩减方法对构建的似然函数进行估计求解，并给出了估计量的迭代计算过程；最后，对本文的研究内容进行了总结与展望。
关键词：多重抽样框/连续性抽样/估计方法/极大似然估计
    作者简介：贺建风，男，1981年生，湖南攸县人，经济学博士，华南理工大学经济与贸易学院副教授，仲恺农业工程学院计算科学学院统计系主任，2010年6月毕业于暨南大学经济学院统计学专业，获经济学博士学位，研究方向为抽样调查、经济统计分析、计量经济学。
      一、问题的提出
    在抽样实践中，随着社会经济现象的不断变化和发展，很多调查对象的总体也在不断变化和发展。为了能够及时反映调查总体的这种变化和发展，调查部门就需要对同一总体在不同时间上进行连续性抽样调查（Successive Sampling Survey），并定期公布调查结果，形成一系列时间序列统计数据。但是，在抽样调查理论及应用研究中，不管是理论研究者还是调查部门的实际工作者，往往更多地关注如何从调查总体中抽取一套有代表性的样本，然后进行合理的抽样估计，这就是所谓的一次性抽样调查（one time sampling survey）。对于实际价值更高的连续性抽样调查很少深入研究，国外学者一般就连续性抽样调查中出现的实际问题进行了有针对性的研究，实际部门中也开展了连续性抽样调查，如美国现时人口调查（The Current Population Survey）、加拿大劳动力与收入变化调查（Canadian Survey of Labor and Income Dynamics）等，代表性的有Patterson（1950）[1]提出了单水平轮换模式下的最小方差线性无偏估计量，Eckler（1955）[2]进一步研究了两水平及多水平轮换模式下的最小方差线性无偏估计量，并对比了不同轮换模式下的不同估计结果，Hansen，et al.（1955）[3]最早提出了K组合估计量，Gurney and Daly（1965）提出TAK组合估计量，Fuller（1990）[4]运用校准估计的方法，对原有的组合估计方法进行了修正，进一步提出AKC组合估计量等。国内学者对这一领域的系统研究很少见，仅有少数学者对某些抽样设计下的连续性估计方法问题进行了一些零散的研究，比如孙山泽和姜涛（2002）[5]研究了PPS抽样下的连续性抽样估计问题，张荷观（2006）[6]研究了整群抽样下的连续性抽样估计问题。传统估计方法都是针对轮换样本调查展开的一系列研究，陈光慧（2009）在其博士论文中对连续性抽样调查进行了全面研究。但在针对连续性抽样调查开展研究的文献中，基本上都是基于单一抽样框平台开展研究的，对于多重框情形下的连续性抽样调查问题很少涉及。
    基于多重抽样框进行抽样，可以解决单一样框覆盖不全的缺陷，从而不必花大力气构建十分完善的单一抽样框，可以达到节省抽样框编制成本，提高抽样调查效率的效果。国外对多重抽样框的估计理论研究已经有几十年的历史。Hartley（1962）[7]先对多重抽样框估计方法进行理论研究，提出了H估计量，Lund（1968）。对H估计量进行了改进，提出了方差更小的L估计量，Fuller and Burmeister（1972）[9]在H估计量基础上提出了有效性更高的FB估计量，Bankier（1986），Kalton and Anderson（1986），Skinner（1991）等人分则提出了SF估计量。Skinner and Rao（1996）[10]给出了PML估计量。国内对于多重抽样框调查的理论研究十分少见。其中，金勇进博士（1996）[11]对双重抽样框的概念进行了简略的介绍，雷钦礼（2000）介绍了双重抽样框的抽样方法及筛选估计量的形式，贺建风、刘建平（2011a）[12]究了双重抽样框下的二阶段抽样估计方法，贺建风（2011b）[13]对双重抽样框估计方法进行了系统研究。但没有学者开展基于多重抽样框下的连续性抽样估计方法的研究。
    本文为了填补在这一领域理论研究的空白，对多重抽样框下的连续性估计方法进行系统研究。第二节给出了本文有关概念的基本记号并对连续性调查下总体结构表进行设计，第三节构建多项式分布的似然函数，并利用14种参数缩减方法，给出轮换样本下的估计方法及估计量计算的迭代过程，第四节则对全文的研究进行了总结与展望。
    二、记号及总体结构变动表设计
    （一）记号

    （二）总体结构变动表设计
    在连续性抽样调查中，随着时间的推移，总体的特征会不断地变化，而一般的估计量主要是用来研究总体在不同时期的这些变化情况。总体特征在时间上的变化，可以分为特征的变化与结构的变动。其中，总体结构变动估计可以应用于很多实际情况，如，在宏观经济分析中，研究人口在地区之间的流动，或劳动者就业状态的变动等都属于对总体结构变动的估计。对于总体结构变动的估计已有的研究基本上仅限于单一抽样框的视角，对于多重的情形还未涉及。本文将已有的总体结构变动估计方法推广到双重框抽样的情形，对于抽样框重数更高（大于2）的多重情形，可以在此基础上类推。为了表述的简单，下文中，我们将总体结构变动简称为总体变动。

    本文假定对每个抽样框均采取简单随机抽样方式，并且取样过程相互独立。在连续性抽样调查中，根据抽取样本的不同方式，可以将连续性抽样方式分为重复样本调查、固定样本调查、轮换样本调查和分列样本调查四种类型。其中，重复样本调查指样本选取在时间上相互独立，估计方法与一次性抽样调查下的情形一致。而固定样本调查的特征表现为在双重框的每个域中可以得到两期完全一致的被调查单位，且所有被调查单位的抽样权重系数相同，因此可以采用一次性调查的横截面估计方法。此外，分裂样本调查是固定样本调查与轮换样本调查的组合，解决了固定样本调查与轮换样本调查的估计方法问题，分裂样本调查情形下的抽样估计就容易实现。因此，下文主要分析轮换样本调查情形下的抽样估计方法。
    三、轮换样本调查的估计方法
    轮换样本调查（Rotating panel survey）是指样本单元在经过连续几轮的调查之后，将会退出调查，同时新的样本单元将会产生并开始接受调查。很多连续性调查均采用轮换样本调查的方式实施，如我国城市住户调查即采用轮换样本调查的方式，由城市住户构成的轮换样本连续调查三年，每年将轮换1/3的样本单元；美国现时人口调查也采用的是轮换样本的模式，每月的总样本由8个轮换组样本构成，每个轮换样本连续调查4个月，在接下来的8个月中退出调查，然后又连续调查4个月，最后永远退出调查。对轮换样本的估计较一般的一次性调查估计或上面介绍的固定样本估计更为复杂，其难点主要是有些被调查单位在不同调查期可能出现调查期无回答（Wave Non-response），即样本单位在某些调查期接受了调查，而在其他某些调查期又没有接受调查。由于调查期无回答的存在，连续性抽样调查中就必然出现某些样本单位只含有部分信息，也可以认为缺失部分信息。因此，需要组合具有完整信息的样本与具有部分信息的样本对连续时间下总体变动的情况进行估计。
    建立似然函数

Chen and Fienberg（1974）[14]提出获取总体变动数据的观测结果是一个两阶段过程，这里，我们沿用这一思想，将分析过程推广到双重框抽样的具体情形。

在第一阶段，所有单位还未被观测，可以假定没有出现信息缺失的情况，在每个子域中，样本单位通过多项式抽样过程被分配到总体变动表的4个单元格中，其多项式概率如表3所示。

对于抽样框B而言，可以得到类似的似然函数。在上文中，我们已经假定在抽样过程中，针对两个抽样框选取样本是相互独立的，所以将两个抽样框各自的似然函数直接相乘，即可得到双重框抽样情形下的总似然函数，其形式如下：

显然上式的参数个数大于我们可以观测到的变量个数（表2的单元格数），这将使我们无法估计全部的未知参数。为了对未知参数进行有效估计，可以对待估参数个数进行缩减，以使样本信息满足参数估计的需求。

    （二）对参数进行缩减
    Chen and Fienberg（1974）[14]提出了两种缩减待估参数的模型（如模型1、2），Elizabeth A. Stasny（1986）[15]在此基础上，提出了另一种缩减待估参数的模型（如模型3）。根据抽样实践中实际情况出现的可能，我们具体考虑如下7个缩减待估参数的模型，后四个则是我们通过对前三个模型进行不同组合而得到的。

    模型1表示，在给定的调查期，个体的信息缺失概率取决于既定的调查期本身与在调查期内个体的类别；模型2表示，在给定的调查期，个体的信息缺失概率仅取决于既定的调查期；模型3表示，在给定的调查期，个体的信息缺失概率仅取决于调查期内个体的类别；模型4表示，在调查期t-1，个体的信息缺失概率取决于调查期本身与在调查期内个体的类别，在调查期t，个体的信息缺失概率仅取决于既定的调查期t；模型5表示，在调查期t-1，个体的信息缺失概率仅取决于既定的调查期t-1，在调查期t，个体的信息缺失概率取决于调查期本身与在调查期内个体的类别；模型6表示，在调查期t-1，个体的信息缺失概率取决于调查期本身与在调查期内个体的类别，在调查期t，个体的信息缺失概率仅取决于在调查期内个体的类别；模型7表示，在调查期t-1，个体的信息缺失概率仅取决于在调查期内个体的类别，在调查期t，取决于调查期本身与在调查期内个体的类别。
    对于双重抽样框的情形，我们还可以考虑采用如下两种常见的模式对未知参数实施更进一步的缩减，以求能够利用极大似然估计法求出极大似然估计量（MLE）。
    模式一，假定同一抽样框中不同域内的各分类的行信息缺失概率与列信息缺失概率分别相等。那么，在抽样框A中，有下列等式成立；

    这种模式常适用于对不同抽样框采用不同的数据采集方式的情况。例如，在名录框和电话框构成的两个抽样框系统中，进行数据搜集时，对前者实施邮寄问卷调查，对后者采取电话访问，那么所得的两套样本可能就会出现不一样的数据缺失概率。如果在同一抽样框中，由于数据搜集形式确定，则可以认为各子域的样本数据缺失概率一致。
    模式二，假定在同一域内，来自不同抽样框的各分类的行信息缺失概率与列信息缺失概率分别相等。在域ab内，有以下等式成立：

    从以上缩减参数总数量的模型可以看出，一般情况下，我们无法获得封闭形式的参数估计量。但是，如果我们利用对似然函数求偏导，并令其为0，再通过迭代过程可以获得参数的极大似然估计量。
    （三）求解极大似然估计量

    2.参数λ的MLE。对于参数λ而言，由于各模型的似然函数中仅包含参数λ的因式均不一致，所以对其估计相对前面两类参数较复杂，需要对不同的模型分别进行讨论。Chen and Fienberg[14]通过迭代计算就前两种模型的单重抽样框调查情形给出了λ的MLE。本文将其迭代的方法拓展到双重框的情形，对于多重框同样适用，为了简化考虑，这里只分析双重框的情况。
    基于双重抽样框的情形，上一小节已提出了两种对未知参数进行缩减的常见模式。在模式一的情形下，对参数λ的估计在各抽样框分别进行。因此，对于来自于抽样框A的λ估计量而言，记：

在模式二的情形下，对参数λ的估计在各子域分别进行。因此，对于来自于子域a的λ估计量而言，记：

下面，针对各模型，分别给出λ的极大似然估计量的迭代过程。在模型1的情形下：

    显然，上式是一个封闭的形式，无需实施迭代计算，即可获得估计量的简单表达式。
    在模型3的情形下，为了求得参数λ的MLE，Elizabeth A. Stasny（1986）[15]提出了如下迭代计算过程：

在模型7的情形下，我们提出的迭代过程如下：

    四、结语及研究展望
    本文将多重抽样框方法引入连续性抽样调查领域，利用连续性抽样调查中传统的总体结构变动估计方法，对多重抽样框下的连续性抽样估计方法进行研究。文中假定对于所有抽样框均实施简单随机抽样，重点针对轮换样本调查，利用参数缩减模型给出了极大似然估计量，本文不仅将3种已有的参数缩减模型扩展到双重抽样框调查的情形，还创新性地增加了另外4种参数缩减模型，并结合双重抽样框的两个假定模式，合计14种情况，分别给出了有关参数的极大似然估计量。值得注意的是，对于连续性抽样的另外三类调查，即重复样本调查、固定样本调查和分裂样本调查并未展开分析，这主要是由于重复样本调查的估计方法与一次性抽样调查下的情形一致，固定样本调查可采用一次性调查的横截面估计方法，而分裂样本调查是固定样本调查与轮换样本调查的组合，故可以在本文的分析基础上进行类推。
    本文的研究内容主要是针对双重抽样框的情形，而且假定对所有的抽样框均实行简单随机抽样，针对总体结构变动进行纵向估计的理论研究。由于本文篇幅的限制，文中未深入讨论估计方法的实际应用效果，如何在现实中更好地应用本文的理论，主要在于依据实际情况如何正确选择参数缩减模型以及双重抽样框的构建模式，对于这些问题，笔者将在以后开展研究。此外，还有以下几点问题值得开展研究：其一，可以将本文的研究成果推广到抽样框重数大于2的多重抽样框调查情形；其二，利用抽样设计效应等工具放宽本文基于简单随机抽样的假定，将估计方法推广到更为一般的复杂抽样设计情形；最后，对于总体特征在连续时间上变化的估计也是值得深入研究的难题。

      参考文献：
      [1]Patterson H. D. Sampling on successive occasions with partial replacement of units[J]. Journal of the Royal Statistical Society Series B, 1950,12: 241-255.
    [2]Eckler A. R. Rotation sampling[J]. Annals of mathematical Statistics, 1955,26: 664-685.
    [3]Hansen M. H. et al. The redesign of the census current population survey[J]. Journal of the American Statistical Association, 1955,50: 701-719.
    [4]Fuller W. A. Analysis of repeated surveys[J]. Survey Methodology, 1990,16: 167-180.
    [5]孙山泽，姜涛.PPS样本的轮换抽样[J].数理统计与管理,2002，21(4)：61-63.
    [6]张荷观.连续调查的整群抽样[J].数理统计与管理，2006,25(1):47-51.
    [7]Hartley H. O. Multiple Frame Surveys, in Proceedings of the Social Statistical Section, ASA, 1962; 203-206.
    [8]Lund, R. E. Estimators in multiple frame surveys[J].Proceedings of the Social Statistics Sections, American Statistical Association, 1968,282-288.
    [9]Fuller, W. A., and Burmeister, L. F.(1972), "Estimators for Samples Selected from Two Overlapping Frames," in Proceedings of the Social Statistics Section, American Statistical Association, pp. 245-249.
    [10]Skinner, C. J. and Rao, J. N. K. Estimation in dual frame surveys with complex designs[J]. Journal of the American Statistical Association, 1996,91: 349-356.
    [11]金勇进.非抽样误差分析[M].北京：中国统计出版社.1996.
    [12]贺建风，刘建平.基于双重抽样框的二阶段抽样调查方法研究[J].统计与信息论坛.2011(5)：7-12.
    [13]贺建风.基于双重抽样框的抽样估计方法研究[J]统计研究.2011(12)：89-96.
    [14]Chen, T., and Fienberg, S. E. Two-dimensional contingency tables with both completely and partially cross-classified data[J]. Biometrics, 1974,30: 629-642.
    [15]Elizabeth A. Stasny estimating gross flows using panel data with nonresponse: An example from the canadian labour Force survey[J]. Journal of the American Statistical Association, 1986,81:42-47.

Tags：基于多重抽样框的连续性抽样估计方法研究

责任编辑：admin

上一篇文章：社会福利刚性低水平管制的变动趋势研究

下一篇文章：我国城乡社会保障均匀度的衡量方法与测度评价