教育频道，考生的精神家园。祝大家考试成功梦想成真！

关于中国基尼系数的讨论

http://www.newdu.com 2018/3/15 社科院经济研究所佚名参加讨论

                          经济走势跟踪
                   The  Pursuit  of  Economic  Trends
         中国社会科学院宏观经济运行与政策模拟实验室
         中国社会科学院经济所《国内外经济动态》课题组
         2013年第9期（总第1329期）      2013年1月30日（星期三）
    经济热点分析
    关于中国基尼系数的讨论
     [导读：2013年1月18日，国家统计局公布了2003年至2012年全国居民收入的基尼系数──2003年为0.479，之后逐年连续上升，到2008年达到最高点0.491，其后几年有所回落，到2012年降为0.474。2012年12月,  西南财经大学中国家庭金融调查中心根据其住户调查计算并公布了2010年全国居民收入的基尼系数，数值为0.61。对于这两组结果不同的基尼系数，理论界展开了热烈的讨论。]
     岳希明和李实：我们更应该相信谁的基尼系数？
     国家统计局的基尼系数公布后，在社会上受到了一定的质疑，岳希明和李实两位学者对此撰文提出，我们究竟更应该相信谁的基尼系数？
     岳希明和李实分析到，从总体上来说，如果在两个机构公布的基尼系数之间加以选择的话，我们更加相信国家统计局公布的结果。从估计的误差上看，我们认为国家统计局基尼系数的误差会更小一些，因而也是基本可信的。
     基尼系数估计得是否准确，主要取决于样本是否具有代表性和收入指标的统计是否全面和准确。保证样本的代表性，除了抽样要有科学方法之外，同时要保持足够大的样本量。无论在抽样上，还是在样本量上，国家统计局的住户调查都占有比较优势。国家统计局的样本量是西南财大的10倍以上,  而且前者的样本覆盖了中国大陆的所有省份和超过1/3的市县。
     从收入指标统计上的全面性和准确性上看，国家统计局通过日记账方式收集样本户收入和支出信息，比西南财大采取的一次性回忆的数据收集方法更为准确。更重要的是，统计局住户调查详细地收集了农户各种粮食作物产量等信息，因此对农户自产自用农产品收入的估计十分准确，这一点是以往其他住户收支调查难以做到的。
     岳希明和李实同时表示，统计局的住户调查主要的问题是在样本代表性和收入指标统计上。由于高收入人群的不配合，统计局城镇住户样本缺少有代表性的高收入住户样本，住户样本中高收入户的代表性偏低。且由于城镇住户收入来源的多样化和某些收入的隐蔽性，城镇住户样本的收入可能被低估，而且越是高收入户，低估的程度可能越高。城镇住户样本中高收入户的缺失以及现有样本中收入的低估，直接导致城镇内部收入差距的低估、城乡之间收入差距的低估和全国收入差距的低估。这是世界各国都面临的一个问题，只不过中国的问题比其他国家更为复杂和严重。
     这次国家统计局在估计基尼系数时使用了国家税务总局年所得12万以上纳税人个人所得税自行纳税申报信息来修正高收入人群样本偏低的问题，但它在多大程度上能够反映高收入人群收入水平还有待于考证。
     尽管统计局住户调查数据仍然存在一定的缺陷，也带来了基尼系数估计的偏差（尤其是低估）。但是，与其他住户调查数据相比，无论是样本的代表性方面，还是收入指标的测量上，统计局住户调查都具有明显的优势，因此得到的基尼系数相对更可信。
     对于基尼系数变化的趋势，岳希明和李实的文章指出，此次统计局公布的数据显示，全国居民收入不平等在2008年之前处于上升的趋势，之后转升为降。这一点也是引质疑之处。对此，我们也是持谨慎的态度。当然，2009年以来出现了各种各样的有利于收入差距缩小的因素，也出现了导致收入差距扩大的因素。对这两类因素相互作用的结果有待于进一步的测算和研究。
     从缩小的因素来说，常规调查中城乡之间收入差距的缩小是重要的一个。城乡收入倍数（即城镇人均可支配收入与农村人均纯收入的比率）从2003年开始出现新一轮上升，直到2009年达到3.33，之后开始缓慢下降，2010年为3.23、2011年为3.13、2012年为3.10。中国城乡分割以及城乡收入差距是全国居民收入差距的最大组成部分，根据岳希明和李实提供的测算结果，全国居民收入差距的40-50%是由城乡收入差距带来的，因此城乡差距的缩小是近年来全国居民收入差距缩小的主要推力。近年来农民收入快速增长的源泉主要有农产品价格上升、农村社会保障政府投入力度的加大以及劳动力市场中农民工工资的上升。这些都是有可靠数据为支撑的。
     如果一些扩大收入差距的推动因素，如房价上涨，垄断行业收入的过快上升，没有在调查数据中得到体现，那么现在估计出来的收入差距的变动趋势也就不具有说服力。
     岳希明和李实认为，西南财大的基尼系数被大大高估了。该基尼系数估计所基于的住户调查，无论在样本抽样上，还是在住户收入的收集上，都存在明显的缺陷。
     首先在抽样上，全国8000户的样本量过小，抽样误差较大。第二在样本抽样过程中存在明显的偏差。县市样本主要集中在东部，村/居委会样本明显偏重落后地区的村委会和发达地区的居委会，由此严重忽略了处于中等收入水平的村/居委会样本（落后地区的居委会和发达地区的村委会样本）。住户样本的选择给予高房价居委会以更大的权重，与此同时低估了农村住户的样本。在收入信息收集上，该调查仅仅收集了每户受访者及其配偶的收入，而没有收集家庭其他从业人员的收入。第三，在收集计算农业生产经营和非农生产经营收入所需信息上，问卷也存在明显的缺陷。根据问卷收集的相关信息，很难准确地计算农户自产自用农产品收入以及非农经营收入。正是由于样本偏差和收入指标统计上的问题，让该调查对很多家庭给出了不现实的低收入，居民收入差距被高估的原因之一也在于此。
     同时，西南财大的基尼系数并不是由于解决了上述国家统计局高收入样本缺失以及非法收入统计问题之后得到的。相反，无论在样本抽样上，还是收入指标的取得上，西南财大的住户调查都存在明显的缺陷，因此其基尼系数不足以作为衡量统计局基尼系数偏差的证据。相反，由于统计局农村样本和农户收入统计的相对可信性，统计局的住户调查结果倒可以用来衡量西南财大基尼系数是否存在偏差。比如，2010年农村居民收入基尼系数，统计局的估计是0.378，而西南财大的估计是0.60。
     根据以上阐述，岳希明和李实的结论是，统计局此次公布的全国居民收入基尼系数基本是可以接受的，同时，其也存在局限性，主要包括以下几个方面：
     首先，统计局的基尼系数没有反映各种各样的非法收入。很显然，不能把非法收入纳入基尼系数估计显然低估了中国的居民收入差距。
     其次，即使抛开非法收入不谈，基本接受统计局基尼系数并不意味着全国基尼系数在2012年一定是统计局公布的0.474。数据收集工作的进一步完善和估计方法的不断改善都有可能使得现在公布的基尼系数出现上下二到三个百分点（即在0.444-0.504之间）的波动。这实属正常，但我们并不因此改变我们的基本判断。
     最重要的是，国家统计局应当对此基尼系数的估算过程给出详细的解释，也有必要公开原始调查数据，允许民间研究机构对数据的可靠性进行验证，否则公众的质疑无法消失。这次社会公众对国家统计局公布的基尼系数强烈质疑的现象应该引起我们更多的思考。这个现象的问题不在于这个数字本身的准确性，而在这个数字之外，意味着统计制度的改革是必须的,以使得官方的统计数据能够取信于民。
     西南财大甘犁回应相关疑问
     岳希明和李实的文章发表以后，西南财经大学中国家庭金融调查与研究中心（CHFS）主任甘犁撰文回应，认为《我们更应该相信谁的基尼系数？》一文（简称《我》文）作者没有很好地了解中国家庭金融调查的实施过程，对西南财大的基尼系数存在明显缺陷的结论是完全站不住脚的。其质疑主要集中在抽样方案设计是否合理，以及住户收入收集是否准确两个方面。并对此做出说明。
     关于抽样设计中样本量太小和样本的地区分布问题，甘犁解释，首先为了保证受访户的隐私和私人信息，西南财大并没有公开受访户的个人信息和所属的县市。其次，虽然CHFS抽取出县市样本中东部样本比重较总体高，但是“村委会偏重于落后地区，忽略中等收入的地区”的说法显然是错误的。最后，根据CHFS的研究目的，我们在抽样设计中希望多抽取富裕地区和富裕家庭，这肯定会造成样本中富裕地区和富裕家庭的比重相对较大。但是，在推断总体时针对抽样设计进行了权重的调整，由此得到的结论不存在因为抽样设计造成的偏差。
     对于8438户的样本量是否能很好地反映总体情况的问题，甘犁认为这是一个统计学基础问题。在严格随机抽样的前提下，抽样误差随样本量的增加以几何级数递减。如果用8438户来推断总体均值，抽样误差约是总体标准差的1%，已经可以比较精确地推断总体。甘犁表示其抽样严格按照随机抽样过程进行设计，调查实施过程也严格按照随机抽样原则更换样本。样本量的数量大小并不能作为衡量一个调查准确与否的依据，这一点从国内外的其他调查就能看出。而在合理、随机的抽样方案设计和严格的调查实施过程下，8000多户样本完全能够准确反映全国的总体水平。
     甘犁还指出，《我》文中提到：“住户样本的选择给予高房价居委会更大的权重，同时低估的农村住户的样本”。这样的论断完全混淆了样本分配和权重的概念。在城市地区，CHFS收集了各社区的平均住房价格信息，以此作为社区富裕程度的衡量指标。在此基础上，根据住房价格由高到低将各社区分成四个组，在住房价格最高的组分配50户样本；而在住房价格最低的组分配25个样本。对于富裕社区多分配样本，并不是给予富裕社区更大权重，而是为了保证以更大的可能性获得高收入的样本，进而能够更加准确的反映家庭收入与财富的分布。
     同时，在计算相关指标时，都根据抽样设计进行了权重调整。这一权重是根据抽样设计中，每户家庭被抽取的概率进行计算的。换言之，抽样时多投放富裕家庭样本，在计算中富裕家庭的相对重要性就减少，其所代表的家庭户数也就相应低于其他收入层次的家庭。以此类推，每个收入层次的家庭都有对应的权重，反映了其能够代表的全国家庭数量。这一调整，能更准确地从样本推断总体的信息。在完全随机抽样下，由于富裕家庭的比例很低，其被抽中的概率也很低，而采取了偏向富裕家庭的样本分配，就能够保证样本中包含相当部分富裕家庭，进而可以通过权重的调整来反映总体的实际情况。
     而对于收入数据准确与否的问题，甘犁指出，CHFS数据全面地收集了受访家庭的每一项收入，包含所有家庭成员全年的税后现金收入和实物收入。具体包括五部分：工资薪金收入、农业生产净收入、工商业生产经营净收入、投资性收入和转移性收入。CHFS关于受访家庭的收入信息是非常细致而准确的。
     首先，在2011年的调查访问中，由于CHFS调查问卷较长，出于调查时间成本和数据质量的考虑，CHFS只询问了受访者（最了解家庭财务信息的成员）及其配偶的收入信息。但在随后进行的短问卷季度回访中，CHFS补充询问了受访家庭所有家庭成员的工资薪金收入及家庭总收入，并据此对2011年调查访问的收入数据进行了校准。通过与季度回访问卷数据的比较和校准，我们有充分的理由相信，CHFS关于家庭收入的数据是可靠的。据此计算得到的城镇居民人均工资薪金收入为1.08万，略低于国家统计局公布的城镇居民人均工资薪金收入1.37万。
     其次，CHFS调查很明确地询问了受访家庭在上一年所有农业生产项目生产的农产品按市场价格计算的总价值，以及上一年从事农业生产经营的总成本，并据此计算农业生产的净收入。在工商业生产经营项目部分，问卷明确询问了受访家庭在上一年的项目净利润，以及受访家庭在这些工商业生产经营项目中所占的份额，并据此计算受访家庭的工商业生产经营项目净收入。根据CHFS数据推算，2011年全国拥有工商业生产经营项目的家庭总数约为5840万，这与国家工商行政管理总局公布的“企业与个体工商户总数”5010万相当接近。
     而针对记账数据比一次性回忆数据更加准确的观点，甘犁表示，从收入指标统计的全面性和准确性上看，国家统计局的日记账数据收集方式与CHFS的回忆式问卷数据收集方式孰好孰坏并无定论，也没有研究对二者的优劣进行系统论证。相反，在调查和统计领域中，回忆性数据收集方法是主流，而日记账的方式很少采用的原因除了成本问题外，还在于日记账方式存在如下缺陷：
     第一，记账式调查的拒访率高，引起很大的样本偏差。年轻家庭和高收入家庭群体的自我保护意识较强，不愿接受或没时间进行日记账调查的比例非常高。同样，干部家庭、私营企业主等收入信息隐密性较强的家庭，更是难以接受日记账式的调查。此外，也很难想象高收入家庭会很好的配合日记账的调查方式。因此，以日记账为调查方式的住户调查往往将高收入群体排除在外，其样本代表性存在很大的问题。
     第二，对记账指标的理解不一致会造成较大的数据偏差。由于日记账的方式没有访员在现场对指标进行讲解和梳理，也没有计算机系统对前后不一致的信息进行自动提示，因此受访者很容易出现理解偏差，进而引起指标的不准确。而对于文化程度较低的农村居民，该现象会更为严重。
     第三，日记账的数据缺乏监督机制，更容易产生数据错报。由于记账指标繁杂且记账时间较长，受访户往往由于记账负担过重而少报或胡乱报，严重影响数据收集的质量。
     国内外绝大部分主流调研都采取了回忆式的数据收集方式。以美国为例，消费者金融数据调查（SCF）和消费者消费情况调查（CEX）以及有追踪调查“标杆”的美国收入动态跟踪调查（PSID），均采用了回忆式数据收集方式。而中国的大部分社会调查，如中国家庭动态跟踪调查（CFPS）、中国综合社会调查（CGSS）和中国健康与养老跟踪调查（CHARLS）同样采用了回忆式的数据收集方式。
     与上述国内外颇具影响力的大型社会调查相似，CHFS选用了回忆式数据收集方式收集样本户收入和支出信息，从而确保得到更准确更具代表性的数据。
     治愈CHFS数据是否高估基尼系数的问题，甘犁指出，根据CHFS数据，家庭年可支配收入超过55.9万，则位居前1%；超过17.5万，则位居前5%；超过10.7万，则位居前10%。这样的收入分布大致反应了中国社会收入的真实情况，CHFS数据并未高估基尼系数。
     王小鲁：如何看待中国官方的基尼系数？
     中国改革基金会国民经济研究所副所长王小鲁最近发表文章参加关于基尼系数的理论探讨。他认为，到目前为止，国家统计局拥有全国最大、覆盖面最全的城镇居民和农村居民调查样本，这两个样本的抽样工作是根据随机抽样调查方法进行的，可以相信是符合统计规范的，在反映中、低收入居民的收入方面是基本可信的。基于该样本计算的基尼系数有一定的参考价值。而且，由于样本稳定可比，在反映历年变动趋势方面也有意义。
     但是迄今为止，国家统计局的城乡住户调查数据也存在明显的缺点，即高收入居民的收入被大大低估了，因此没有能够如实反映中国目前的收入分布状况。例如根据该城镇住户调查数据，2008年城镇10%最高收入家庭的人均可支配年收入仅为4.3万元，而王小鲁推算为13.9万元，相差3倍以上。2011年，根据该样本的城镇10%最高收入家庭的人均可支配收入也还不到5.9万元。最高收入居民这样低的年收入水平，根本无法解释房价居高不下、汽车市场火爆、银行的个人存款高达35万亿元（2012年已超过41万亿元）、中国居民的大量海外存款和在海外奢侈品市场上的巨额采购等等一系列现象。
     国家统计局长马建堂前不久也明确表示：“我们经过认真研究评估，感觉到靠我们现在的城镇住户调查计算出来的城镇居民收入基尼系数偏低，原因主要是难以获取高收入阶层居民的真实收入信息”。这一态度是客观的。
     数据偏差主要是两个原因导致的。其一，很多高收入居民都不愿意接受调查，而更替的样本不能保证处于同样的收入水平，因此在样本的抽样过程中会导致高收入样本的遗失，使样本的覆盖面发生偏差。其二，纳入样本的高收入居民有很多人不愿意提供他们真实的家庭收入情况，报告的数据严重偏低，尤其是当他们拥有大量灰色收入时更是如此。这种情况在高收入居民中相当普遍。
     很自然，由于存在上述问题，根据该样本计算的基尼系数也必然是显著偏低的。尽管如此，目前0.474的基尼系数也还是反映了相当大的收入差距。根据世界银行2011年公布的全世界162个国家和地区的收入或消费基尼系数（不同年份），基尼系数超过0.47的国家和地区只有34个。收入数据不真实的情况在中国很严重，但可能在不同程度上也存在于很多国家。如果我们假设世界各国都和中国一样存在低估收入差距的问题，而且程度相同，仍然可以判断中国目前处于世界上20%的收入差距最大国家的行列，说明中国的收入分配问题相当严重。
     面对统计数据存在偏差的情况，自然会引出这样一个问题：统计部门能做什么，不能做什么？
     解决数据偏差问题是一个困难的挑战，但仍然可以采取一些补救措施。例如，既然在调查中存在遗漏高收入样本的问题，就有可能对遗漏的程度进行推算，据此在精心设计的基础上增补高收入样本。
     对一个随机抽样形成的调查样本来说，要纠正收入数据不真实的问题更加困难，但也可以考虑补充额外信息进行检验和校正的方法。例如，统计部门可以与其他政府部门协作，利用私人住房登记、家用汽车注册、实名银行存款等信息对某些高收入样本的收入数据进行推算和交叉检验，在此基础上对调查数据的偏差进行校正。也可以考虑采取不同的调查方法或根据某些可信程度较高的宏观层面数据进行推算，以取得更真实的居民收入数据，据此对原有样本的数据进行校正。
     当然，靠统计方法、调查方法的改进，不可能改变一个更基本的事实，即目前腐败现象严重，某些高收入居民拥有大量来自隐秘途径的灰色收入。这是导致目前数据偏差的主要原因。产生这一现象的根源是体制方面的缺陷，例如公共资金大量流失、土地市场、金融市场、资本市场和垄断行业收益的不当分配等等。解决这些根本性的问题不是统计部门的责任，而只能靠推进体制改革、完善制度，提高政府、要素市场和垄断部门的透明度，把权力关进笼子，靠公众监督来消除制度隐患。
     （完）
    （整理、责任编辑：王砚峰）
    2013年第7期（总第1329期）                2013年1月30日（星期三）
    地址：北京阜外月坛北小街2号        E-mail：tsg-jjs@cass?org?cn
    中国社会科学院经济研究所          kingwyf@263?net
    邮编：100836
    电话：（010）68034160                传真：（010）68032473
     下载或查看文档附件

Tags：关于中国基尼系数的讨论

责任编辑：admin

上一篇文章：中国工业形势将继续向好

下一篇文章：央行启用短期流动性调节工具

经济学

关于中国基尼系数的讨论

Tags：关于中国基尼系数的讨论