甘犁:有了故事,数据才有价值
学者简介:甘犁,西南财经大学教授,现任西南财经大学经经济与管理研究院院长、中国家庭金融调查与研究中心主任。主要从事应用微观经济学和计量经济学等研究。
数据本身远不是调查研究的最终目的
中国的学者,尤其是研究社会科学的学者,往往重逻辑、重思辨,习惯引用案例,提出观点。而西方人相对更重数据。置身这个多元化的世界,你举一个案例,我讲一个故事,很难找到可比性,也不易相互借鉴。这种情况下,大规模的统计数据就成了大家讨论的基础,这以后才是思辨的过程。今天,我国经济发展的地域性差异客观存在,用上海、拉萨或者成都的情况来类推全国的状况都是片面的,只有统计数据才能够在一定程度上实现整体状况的呈现。
以美国为例,各调查机构出具的海量调查数据力图在各个维度上还原属于那个国度的真实,所以西方学者在谈问题的时候,几乎不谈基本情况,因为数据都摆在那里。今天,中国经济学界迫切需要的恰恰就是这个讨论问题的基础。
我们谈以房养老,很多人认为这是养老方式的一种选择。可是如果我告诉你,城市普通老年家庭资产配置中房产的比例是91%,或许很多人就不会就以房养老政策是否要推广争得面红耳赤了,而是把时间花在探讨如何去推广的问题之上。
可喜的是,以高校为主,现在全国各地很多团队都在做各个领域的调查统计工作,相信很快就会形成一支浩浩荡荡的社会调查的洪流。大家各有侧重,并行不悖。眼下暨南大学正与我们合作,进行针对就业市场的调查;南京审计大学计划与我们合作,专门针对城乡治理展开调查;北大老龄化调查也取得了很大的成果;北师大的真实进步调查为公众打开了一个GDP以外的视角,去打量中国家庭的柴米油盐。
通过严密的抽样调查,科学统计得来的数据是对现实的整体把握。学者的责任则是依据这些数据去还原现实发生的故事,搞清楚事情的来龙去脉,而非陈列一系列的阿拉伯数字,数据本身远不是调查研究的最终目的。所以,我们的口号是“让中国了解自己,让世界认识中国”,这也是包括我们这些“生产”数据的人在内,每一个使用数据的人的使命。大家在不同的层面去探究,并彼此借鉴,分享发掘的快乐。
事实上,直到今天我们还没有公布2015年中国住房空置率的调查报告。因为空置率的数字本身并没有什么意义,我们还在不断地分析它,试图更加充分地理解它,厘清它的社会学与经济学含义。上个月,我在浙大举办的一个学术会议上作了关于土地流转调查的报告,一来是学术交流,二来我是希望聆听业内学者的意见,因为中国土地流转的情况复杂,不同学者直觉的差异能够帮助找到那些可能被我们忽略的问题,丰富研究的内容。
数据究竟做给谁看?我们最初的想法是做给自己,因为我们要研究中国。后来发现数据的意义早已超越了学术界,它可能对政府的政策制定、行业发展,甚至老百姓的柴米油盐提供引索,我们也就越走越远了。
执着于数据绝对值的大小是条歧路
2012年12月,西南财经大学中国家庭金融调查报告显示,2010年中国家庭基尼系数为0.61,这个数字远远高于而后国家统计局公布的0.481,由此引起广泛的争论和质疑。作为一个学术研究机构,我们有责任公布这样的数字,只要是以充分的社会调研与严谨科学的评估为前提。更重要的是,我觉得长久以来我们审视数据的视角存在偏差,过于执着其绝对值的大小,而非判断它从何处来,又当去往哪里。直至今天,我都认为基尼系数看起来较“高”并非全然坏事,完全没有必要为之大惊失色。
就数据本身而言,此基尼系数非彼基尼系数。在美国、日本、德国等发达国家,其公布的基尼系数往往在0.3左右,看似其收入差距要小很多,然而需要注意的是这个基尼系数是在转移支付之后得来的。在转移支付和税的调节之前,市场初次分配时其基尼系数大致应该在0.5上下。而我国几乎没有转移支付,我们的收入税调节作用也是非常有限的,中等收入群体更多地扮演了纳税主体的角色。在这种情况下,较“低”的基尼系数反而说明了市场经济的欠发达程度,偏“高”的基尼系数则在某种程度上肯定了市场分配资源的程度。毋庸置疑的是,不论东、西部的差异,还是农村、城市的差异,不论教育资源的差异,还是医疗资源的差异,我国的不平衡状况是客观存在的,且显著高于西方。而资源分布差异与收入差异往往同时存在,它是市场调节的正常结果。
我们常常纠结,为什么经济转型“转”了这么多年却还是“转”不过去?调查后我们发现,近年来我国养老保险、医疗保险的覆盖率大幅增加,基本上做到了人人有医保,百姓对于未来的不确定性正在一天天减少,那么为什么大家还会捂着钱袋子不肯消费呢?事实上,我们只是看到我国总体宏观储蓄率很高,家庭平均储蓄率为30%,然而并非家家户户都是把30%的资产放进了银行,资产排名前20%的家庭或许把80%的收入存进了银行,而后1/3的家庭可能是入不敷出的。他们是没有消费的条件,而非没有消费的动机。所以,这些年来我们千方百计去刺激消费,却收效甚微,这才是我们应该透过基尼系数读出的内容。
我们国家对于低收入居民的保护更多体现在“低保”上,对于大多数地区人均徘徊在三四百元上下的“低保”水平而言,难怪这部分家庭对于消费“刺激”无感。在此,我陈列一下美国的数据,最贫困的20%美国家庭,平均收入是7500美元,转移支付后达到3万美元(包括社保在内),因而基尼系数从0.49降到0.39。个人认为,我们应该像大多数国家那样,进行转移支付,进行大规模的二次分配。美国所得税的“以奖代补”制度具有一定的借鉴意义——在美国30%的家庭所得税税率是负值,可以是-30%,这就是说部分低收入家庭每赚1000美元,不但不用纳税给国家,还会收到国家奖励的300美元。
长久以来一直有种说法,讲收入差距大了以后会影响社会稳定,并给出了一个所谓“0.4”的警戒线,我认为这种提法纯属子虚乌有,因为它没有任何的学术研究、文献做支撑。似乎仅仅有这样一个联合国报告,但是没有人知道它出自谁之手。事实上,今天大量的实实在在的主流学术研究并没有过分关注收入差异本身,而是不约而同地把目光聚焦在了“机会的平等”之上,如就业的平等、教育资源的平等、医疗资源的平等,等等。值得庆幸的是,在我国“机会的平等”具有传统优势——高考制度,它在相当程度上确保了代际流动性。近年来,我国代际流动性有所下降,但是横向比较仍具一定优势。
越来越多的人引用中国家庭金融调查的数据是对我们的信任与认可,但是我并不希望数据只是被简单地引用,而是希望使用者可以通过数据厘清我们当前的生活。比如有人对中国的改革开放政策不满,就搬出了我的基尼系数,而抛弃其真正的社会学、经济学含义,这就是典型的本末倒置、断章取义。
数据量大和信息量大其实是两件事
前国家统计局局长马建堂曾指出:“规范的民间调查,应该是官方统计的重要的、有益的补充。”官方调查不可能包罗万象,自然需要民间调查的补充与验证。官方统计机构与民间调查机构之间的有益交流才能让数据呈现更加趋于全面与真实。现在,我们跟统计部门交流很多,整体上双方还是可以相互理解的,当然统计部门也不是铁板一块,其内部也有不同的意见,对于我们调查数据的不同意见自然不可避免,对于这一点我是完全理解的。
维克托•迈尔-舍恩伯格在《大数据时代》中指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。而新媒体的出现彻底改变了信息传递的方向与方式。新媒体可以让访谈变得更为便捷,但是传统的面访优势依然显著。此外,面访可以有效避免样本流失,甚至进一步进行样本扩充、更新等等。
有时,想要接近真实就没有办法顾及成本,因为最后几步只能靠脚去丈量。今天,把问题的解决推给大数据似乎是一件很是时髦的事情。然而遗憾的是,很多时候那只是我们的一厢情愿。因为,数据量大和信息量大其实是两件事情。
百度的数据、阿里巴巴的数据、腾讯的数据,乃至一些交易数据,数据量可以很大,但是变量往往很少。换句话说,阿里有海量的网上交易数据,百度地图可以即时掌握手机用户的位置,但是这些大数据背后没有故事,它不知道是谁在交易,更不知道交易者的资产结构、家庭结构,不知道他或她的收入情况。人的行为受很多因素影响,但是这些因素在线上是找不到的。反过来看,如果我们的家庭信息都可以在线上找到了,那么私密性就没有了,那才是真的是噩梦一场。区别于大数据,我自称中国家庭金融调查的数据为“厚数据”。只有大数据和厚数据相结合,才能讲出一个完整的故事。有了故事,数据才有价值。因为我们对于问题的分析在于故事发展的脉络,而非仅仅是一个宏观的简单的变量。
一家互联网公司可能在大数据上做得非常成功,因为它有手机位置,并以此判断你在哪里工作、住在哪个区域。但问题在于这些信息是需要核实的,这时候我们的“厚数据”就该登场了。因为,“厚数据”知道这个社区住着多少人,知道这个社区居民的收入状况和资产状况。
为什么“厚数据”需要大数据?因为,及时更新是“厚数据”的软肋。不论是两年一次的大调查,还是一个季度一次的小调查,相对而言成本都太高,及时性也无法得到满足,大数据不断更新的海量数据刚好补足我们的短板。凡事只要双方都有需求,就一定能够结合。
Tags:甘犁,有了故事,数据才有价值
责任编辑:admin