黄荣清
【内容提要】
在以往对中国人口普查数据准确性评估的研究中,都认为中国人口普查的人口数据质量是高的,没有特定的年龄尾数指向。但两次普查的存活率观测值却显示,人口数据存在系统性误差,年龄尾数指向是存在的。文章提出了检验人口年龄报告准确性的新方法,在详细介绍这种检验方法的基础上,检验了中国人口普查数据,发现人口数据的年龄尾数指向的确是存在的,但在各次普查中人口集聚与散失的年龄尾数并不相同,误差程度也不相同。五次人口普查中,第一次(1953年)和第五次(2000年)人口普查的数据准确性要比其它几次普查差一些。
【关 键 词】人口普查/人口数据准确性检验/年龄尾数
1引言
人口年龄数据是人口分析的基础数据,它的准确与否,关系到人口分析的结论是否可靠,所以,人口学者特别重视人口年龄数据的质量。从1982年第三次人口普查以来,每次人口普查结束,都有学者对人口普查中年龄报告的准确性做专门研究(马安,1984;查瑞传等,1996;王广州,2004),结论都是中国人口的年龄报告没有出现明显的年龄堆积,数据质量是好的。当然也有学者研究发现,个别地区,如新疆,年龄报告有严重堆积,数据质量不高。
既然学者们的研究都已证明中国人口普查中人口年龄报告没问题,那么,再来讨论数据的报告误差,是不是多此一举?但从科学角度看,旧内容不一定就没有新发现,原有的结论也不是不可推翻和修正的。在本文中,笔者将从一个新角度来审视中国人口普查的数据,用新的方法来判断人口年龄数据的质量,从而得出了与以往研究并不完全相同的结果。
1.1简单回顾与讨论
这里说的中国人口数据质量的评估,并不包括人口的重报和漏报,只是人口年龄的误报。
在这以前学者们使用的关于人口年龄数据的质量评估方法,本文称之为指数方法,通常使用的有惠普尔指数(Whipple's Index)、迈耶尔指数(Myer's Index)和联合国综合指数。指数方法的特点是先构建一个变化均匀的人口,以这个人口的年龄结构为标准,把研究的对象人口和标准人口的年龄结构做比较,以两者离差的大小为尺度,判别对象人口的年龄数据是否准确,对质量不高数据,可指出在哪些年龄尾数上人口存在“集聚”或“散失”。关于这三种指数的计算方法,人口统计的教科书中都有介绍,这里就不再重复。联合国综合指数是在总体上判断人口的性别年龄变化是否平稳,并不能检验在某个尾数年龄上的堆积问题,所以我们在这里不加讨论①,我们这里只考察惠普尔指数和迈耶尔指数。根据我国五次人口普查数据计算出的惠普尔指数和迈耶尔指数见表1。惠普尔指数取值范围应在100~500之间,越接近100数据质量越高。一般可以认为,惠普尔指数在100~110范围内,数据质量属于较高,若大于110,则表明在被验证的年龄尾数上人口多报;若小于100,则可能有漏报。迈耶尔指数取值范围在0~90之间,指数值越接近0数据质量越高。从表1的数据我们可以知道,五次人口普查人口数据的惠普尔指数都非常接近100,而迈耶尔指数都接近于0;所以可以认为人口数据的质量是高的。按照同样的方法,我们也可以用来检验几次全国1%人口抽样调查的数据,得出的结论是质量也是很高的。例如,对最近一次的2005年全国1%人口抽样调查数据计算,男性人口数据的惠普尔指数为102.06,迈耶尔指数为1.35;而女性人口数据的惠普尔指数为101.96,迈耶尔指数为1.32,都可以判定为质量很高。
关于用惠普尔指数和迈耶尔指数作为人口年龄数据准确性的判断是否普遍适用,中国学者们也有许多研究。他们的看法是,上述的检验指数是在人口变动比较平稳的条件下,对应的人口年龄结构比较均匀得出的;而实际的年龄结构,譬如我国的情况,由于在历史上人口变化有多次大起大落,人口年龄结构极其不规则,所以在使用上述指数做判定时要谨慎(乔晓春,1992;翟振武等,1993)。但是笔者认为,对实际人口来说,由于各种(出生、死亡、迁移)因素的作用,理论上的均匀变化人口年龄结构应该是少见的,更多的应该是有起伏和波动的人口年龄结构。关键是要知道这种年龄结构的起伏达到多大程度,上述检验标准才失效?或者换句话说,上述检验标准在多大范围内的波动可使用?再进一步,如果不能使用上述检验方法,是否有其它方法来替代?关于这些,迄今为止,我们还没有看到很好的研究。
关于年龄结构的检验,这里需要补充几点:
即使是均匀变化人口年龄结构,只有呈直线形式,惠普尔指数才等于100,但实际上,人口年龄结构是直线的形式很少,大多数情形为曲线形状。当曲线的形状呈“凸”(或称“下凹”)时,惠普尔指数应大于100(如图1)的情形,当曲线的形状呈“凹”(或称“上凹”)时,惠普尔指数应小于100。
图1人口年龄曲线变化图
Figure 1Changes in Age Curve
(2)人口年龄曲线的形状最常见的情况为“凹”形(如理论上增长型稳定人口的年龄结构曲线就是凹形),如果算出实际数据值等于100,说明在“
当人口随年龄变化的曲线呈直线时,直线AB的中值点等于平均值点,当人口年龄变化曲线为“凸”时,曲线ACB的中点应该在平均值点上方。变化曲线为“凹”时,曲线ACB的中点应该在平均值点下方。
(3)正是因为实际的人口年龄结构的复杂性,作为评判标准的临界值就很难确定。定得太大,就会把存在“堆积”和“回避”的数据判定为没问题;定得太小,就会误判,把本来质量高的数据判定为有问题。
1.2实际数据的检验
尽管学者们提出了在使用指数检验法时下结论要谨慎,但是迄今的研究却一致认为,我国的人口普查(不管哪次)数据的年龄报告是准确的,不存在特定尾数年龄指向的堆积。这个结论是否适当,我们来观察实际数据:
设T是上次普查,T+N是这次普查(或抽样调查)的时间,
上述现象表明,1953年、1964年两次普查数据和2000年人口普查、2005年1%人口抽样数据算出的(x,x+N)的存活率的观测值,在奇数年龄时大于存活率的真值,在偶数年龄小于存活率的真值。这种情况的产生,可以设想两次人口调查至少有一次调查在某些年龄尾数上有人口集聚或散失,可能是两次调查中都存在人口集聚(散失),也可能只是其中一次;如果只是其中一次调查质量有问题,那么,还需要知道是上一次调查还是后面的调查。
存活率观测数据表明,指数法判定的结论是不够准确的。
2人口函数的年龄变动符号分布检验方法
这里,我们将提出判别人口年龄数据质量的新方法:用人口函数的年龄变动符号分布来检验年龄数据的准确性。这种方法可简称为符号分布检验法。
2.1人口函数的年龄变动符号
2.2年龄尾数指向存在的检验
一般来说,除非在纯理论情况下,实际的人口函数曲线在全年龄区间内不会总保持一个方向和一个形状,而会出现波动,即在不同的年龄或年龄段会出现与“正向”和“主形”不同的方向和不同的形状。这种异常情况的出现,虽然并不一定是数据误差造成的,可能是由于实际的人口变动造成的。但不管是数据误差或实际的人口变动,对出现“异常”的年龄,总是值得我们特别加以关注的。
符号的分布检验是基于这样的推理:如果“异常”符号的出现是由于实际的人口变动造成的,只要人口变动不是周期现象,当异常符号的出现有一定数量时,我们可以认为出现异常的年龄是随机的,或者说它出现在各年龄尾数上的可能性是相等的。反过来,它在某些特定年龄尾数出现的可能性比其它年龄尾数大,则我们认为是由于报告的误差造成的,由于人们对这些年龄尾数的“喜好”或“排斥”,导致了在这些年龄的尾数上人口数的“集聚”或“散失”。这样,要判断是否存在在人口年龄尾数的“集聚”和“散失”,我们只需检验“异常”符号的出现是否在各年龄尾数上概率相等即可。
在统计学中,卡方检验常用来对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布作检验,这里也采用卡方检验方法来检验异常符号在各年龄尾数上分布相等的假设。由于共有10个年龄尾数,每个尾数看成是1个组,共分10个组,理论分布的频率是个估计数,所以卡方分布的自由度为
2.3特定的年龄尾数指向的检验
以上,我们介绍了判定人口的年龄数据是否存在年龄尾数指向的问题,但还未解决指向哪一个年龄尾数的问题。另外,在利用人口年龄数据的一阶差分ΔPx的符号的分布来判断人们在年龄申报上是否存在着特定年龄尾数的指向时,常常难于判别在特定年龄尾数上出现的异常,到底是“堆积”还是“回避”造成的。例如,对ΔPx=P(x+1)-P(x)>0,如果它的数据不准确,既可能是由于在x+1年龄上的堆积,也可能是由于在x年龄回避上造成的。所以,在判断特定的年龄尾数申报的准确性时,我们用DPx的符号分布。
t在不同显著性水平下的临界点值见表3。
3对人口普查中人口年龄数据的检验
利用上面的方法,我们来检验中国五次人口普查的年龄数据质量。
3.1尾数指向
按照式(1)和(2),如果每个年龄尾数的观测数相等,则式(1)和(2)的计算可以简化。公布的第一、第二和第三次人口普查的分年龄数据资料,有100岁以上的分年龄数,所以,在每个年龄尾数上,ΔPx和DPx都可保证取到10个。公布的第四和第五次人口普查的分年龄数据资料中,在100岁和100岁以上的年龄人口只有合计数,没有分年龄数,所以△x在年龄尾数“
通过计算可以知道,五次人口普查数据,ΔPx和DPx的符号数都是以“-”号居多,这说明中国人口年龄函数曲线以递减,凹状为主。“+”号的ΔPx和DPx的年龄尾数的分布见表4。
由表4可以知道,用ΔPx符号分布检验五次人口普查数据,我们不能否定假设,即可以认为ΔPx的同种符号在不同年龄尾数的分布无明显区别,或者说,报告无明显的特定年龄尾数指向。
表5是用DPx的符号分布来检验五次人口普查数据,检验结果表明,在10%的水平上,1953年的女性、男女合计人口,2000年男性和男女合计人口的数据可以否定假设,从而我们可以判定人口报告有特定的年龄尾数指向。如果把显著水平再放宽一些,譬如定在25%的水平上,则可以认为1953年和2000年人口普查,无论是男性人口还是女性人口,都有年龄尾数指向。而第二、第三和第四次人口普查数据可以认为无年龄尾数指向。
由表4和表5的结果,我们得出两个有所不同的判断结果。那么,我们到底相信哪个判断,或者说哪个判断更正确呢?下面,我们对此做一些解释。
对某一现象(事物)属性做正确判断,取决于判断标准的内容和尺度。例如,学校要从100个孩子中挑选篮球运动员的培养对象。我们可以把身高做标准,也可以以学习成绩做标准。从篮球运动员的培养上说,肯定以身高做标准比学习成绩高低做标准更合适一些。如果仅仅规定了身高标准,可能有80个人合格,如果除了身高外,还要有体重、弹跳力等要求,可能就只有50个人合格。随着条件增加,标准提高,符合要求的人就会减少。但如果条件苛刻,标准太高,可能一个培养对象也挑选不出来。在实际中,对于一个复杂的现象,选择合适的标准内容和把握适当的尺度并不是容易的事。结合本文的讨论,在判别人口报告中有无特定的年龄尾数指向时,我们把用指数法中实际人口年龄结构和标准的人口年龄结构的差作为判别标准改为用差分Δx和DPx的符号分布来判断,是判别内容的变化。而ΔPx和DPx的判别结果不同,则是因为判别尺度发生了变化。设想在x-1,x和x+1三个年龄,如果没有人口误报,有P(x-1)>P(x)>P(x+1),且P(x)<0.5·(P(x-1)+P(x+1))。如果在x年龄人口有集聚,即x-1或x+1年龄有部分人口报告到x年龄上去,如果是少量的,P(x)的曲线方向和凹凸形状没有改变,当集聚达到一定程度时,P(x)>0.5·(P(x-1)+P(x+1)),曲线的形状发生了改变,即从凹状变成了凸状,DPx的符号随之发生了改变,但这时P(x-1)还是大于P(X),所以曲线的方向没有改变,即ΔPx的符号没有变。如果集聚再增加,这时就会出现P(x-1)<P(X),即出现ΔPx符号的改变,即是说,P(x)在向某一年龄集聚过程中,先是曲线形状的改变,然后才是方向的改变,导致方向改变要比形状的改变的偏离要严重。在判别时,DPx的符号是表示形状特征的,ΔPx的符号是表示方向特征的,ΔPx判别要比DPx要求高,所以就会出现用ΔPx来判别,人口没有年龄指向,但用DPx来判别,却出现了有年龄指向。我们完全可以推想到,当用Δx判别出人口有年龄指向时,DPx判别肯定能表明出人口有年龄指向。
既然ΔPx能判别出的问题用DPx也能判别出,而用DPx判别出的问题,ΔPx却可能判别不出,那么我们为什么还要作两种判定呢?这是因为ΔPx和DPx实际上反映了数据误差的程度。用ΔPx判别人口无年龄指向,DPx判别表明人口有年龄指向,说明数据虽然有偏离,但并不严重,如果ΔPx判别也有年龄指向,这说明人口年龄的积聚(或散失)已经达到较高程度了。
3.2特定年龄尾数的指向
在统计检验中,肯定或者否定假设,取决于显著性水平α的设定。譬如我们设定α=0.025,在假定如果报告未向特定的年龄尾数积聚时,出现在DPx在各年龄的“+”号是随机分布的,各年龄尾数的“+”次数应该是接近相等的。但用尾数为“
当然,由于判断是建立在概率统计基础上的,随着显著性水平α的增大,拒绝域会扩大,犯第一类(即“弃真”)的错误就会加大。对实际人口,把α控制到适当水平,在不同场合可能会有所不同,有时,我们还需参考其它数据资料。
对其它人口调查数据,我们可以用同样方法来检验调查数据中人口是否有向特定的年龄尾数指向的倾向。例如,对2005年全国1%人口抽样调查数据检验可以发现,在α=0.025水平上,我们可以判定出在年龄尾数“
3.3进一步验证
中国人口普查中的年龄人口数据中有无特定的年龄尾数指向,经过上面的讨论,我们得出了以往用指数方法得出的不同结论,哪一种判断结论更准确呢?还需要进一步讨论。
我们设想用两次普查的人口数据来验证。如果两次普查的年龄报告都很准确,则在一定年龄以后,同年出生队列的存活率曲线应该是年龄的单调下降函数。现在我们来观察两次普查的留存率数据的差分,
同样,根据本文的判断,2000年人口普查在年龄尾数“
无论是指数法还是符号分布法,要检验出在某个年龄尾数上是否有人口集聚和散失,其条件是人口集聚和散失要达到一定程度。从理论上说,如果人口总量数据无误,则在一些年龄人口集聚,肯定在其它年龄有人口散失。但检验结果却只能表明一个或少数几个存在尾数指向,不能显示出全部年龄尾数的集聚和散失的情况。只是因为在一个或少数几个年龄尾数上集聚(或散失)的程度高,而散失(或集聚)分散到其它年龄上而不显著罢了,但散失(或集聚)的现象肯定是存在的。
从本文的检验结果看,中国人口集聚大多发生在尾数为“
4小结
利用人口函数的年龄变动符号分布来检验人口数据质量的方法,最初是作者在研究中国少数民族人口的数据质量时提出来的,以后又用在检验全国人口的年龄数据质量中(黄荣清,1993、2009)②。但以往的研究,由于作者考虑尚不成熟,表述不够清晰,有些地方还存有缺陷。本文在过去研究的基础上有了很大的改进。
本文的方法是建立在这样的基础上:表示人口年龄曲线变动方向和形状特征的符号在各年龄是随机分布的假定下,对观测数据作检验,如果假定成立,则数据无特定的年龄尾数指向,如果假定不成立,则认为有尾数指向。熟悉人口统计的读者一定知道,这个方法完全不同于以往人口普查数据质量的检验方法。作者曾用许多实际数据作过验证,凡是以往用指数法能判别出人口数据有年龄积聚和散失的,用本文的方法完全同样能判别出,而用指数法未能判别出有年龄积聚和散失的人口数据,用本文的方法却可以判别出,本文所举的中国人口普查的数据就是例子,说明这种检验方法比以往的方法更有效。
本文的研究表明,中国人口普查中人口年龄数据,总的来说,质量是好的,用ΔPx的符号检验表明无明显的年龄尾数指向,但也不是完全没有问题,用DPx的符号检验可发现一些普查中有年龄尾数指向。同时,我们还注意到,各次人口普查的数据质量有所不同,1953年第一次人口普查和2000年第五次人口普查问题相对较多,结合2005年人口抽样调查的数据质量,说明人口调查的质量近年没有提高,反而有所变差。
由于人口数据改变程度不同,对人口年龄曲线的形状和方向的影响并不一样,一般来说,在人口数据发生改变(如在某个年龄积聚或散失)时,先改变形状,后改变方向,所以,DPx检验要比用ΔPx的检验结果犯第一类(“弃真”)错误的可能性大,用ΔPx检验要比用DPx的检验结果犯第二类(“存伪”)错误的可能性大。
由于符号分布法是建立在概率判断基础上,在用于实际数据检验时,存在着误判的风险,为了防止误判,使判别错误尽可能减少,我们还需了解人口数据的性质并结合其它数据一起来考虑。
注释:
①从实际效果看,由于我国的性别年龄变化特别异常,所以用联合国综合指数来检验我国人口数据质量,会得出数据质量并不太好的结果。
②最早提出时,作者称之为差分(符号)检验法。由于
【参考文献】
[1]马安.对中国1982年人口普查资料质量的评价.十亿人口的普查.中国1982年人口普查北京国际讨论会论文集,1984:277~290.Ma An. Evaluation of the quality of the
[2]查瑞传等.中国第四次全国人口普查资料分析.高等教育出版社,1996:50~56.Zha Ruichuan, et al.. Analysia of
[3]王广州.对第五次人口普查年龄结构数据评估.人口与经济,2004;4.Wang Guangzhou. Evaluation and Adjustment on Age Structure Data in Fifth Census. Population & Economics, 2004; 5.
[4]乔晓春.试论年龄结构检验指数在中国使用的局限性.人口数据分析方法及其应用.中国外文出版社,1992:13~27.Qiao Xiaochun. Limitation of Test Index of Age Structure in
[5]翟振武等.常用人口统计公式手册.中国人口出版社,1993:28~32.Zhai Zhenwu, et al.. Handbook of Common Formulas in Population Statistics. China Population Publishing House, 1993: 28~32.
[6]黄荣清.中国百万人口以上的民族年龄申报的准确性.中国人口科学,1993;5.Huang Rongqing. Accuracy of Age Reporting in the Census Regarding the Nationalities of a Million or More Population in
[7]黄荣清,肖周燕.人口年龄结构数据异常的检验.人口与经济,2009;2Huang Rongqing and Xiao Zhouyan. Test on Abnormality of Data of Age Structure of Population. Population & Economics, 2009; 2.^
【原文出处】《人口研究》(京)2009年6期第30~41页
【作者简介】黄荣清,首都经济贸易大学人口所教授,北京100026