大数据固然是数据,也是技术、能力和价值,也正因为如此,人们都是从这些方面来认识大数据特征的,即通常用4个V(即Volume,Variety,Value,Velocity)来概括大数据的特征。
1.数据体量巨大(Volume)。据估计,人类生产的所有印刷材料的数据量是200PB(1PB=2[10]TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=2[10]PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级②。
2.数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出更高的要求。
3.价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,成为目前大数据背景下亟待解决的难题[7]。由于数据多、总量大、价值密度低,因此,人们对数据(信息)的关注度就非常低。正如约瑟夫·奈所说:“丰富的信息导致关注的贫乏。当我们被大量的信息淹没在其中之时,我们难以确定关注什么。注意力取代信息成为稀有资源,而可以将有价值的信号与白噪音区分开来的人就获得了权力。”[8]奈所说的“将有价值的信号与白噪音区分开来”,在大数据中就是数据挖掘;而“获得了权力”的意思在大数据中就是指获得价值。另外,Value还有一层意思是指大数据所蕴含的巨大价值。大数据虽然因信息超大规模而导致关注度降低,进而使数据的价值密度降低,但是,大数据之大在于数据具有“再生性”,数据的价值具有巨大的增值效应。大数据的使用者并非停留在对表层数据的使用和发现表层数据的价值,而是通过表层数据不断挖掘,既可挖掘更深层次的数据,也可通过深层次的各种数据(包括结构性数据和非结构性数据),从而挖掘出更大的价值。
4.速度快(Velocity)。大数据框架内的速度包括两个方面:一方面,指如何加快数据的导入;另一方面,指如何加快分析和利用新导入的数据。前者的一个重要原因是大数据时代数据产生迅速,而大数据本身要求的是全数据,如果没有快速导入数据的技术,那么就很难做到全数据,不是全数据就不能成为大数据。后者则是由大数据的目标所决定的。大数据的目标是利用大数据进行科学分析和科学预测,新数据不断产生,那就意味着新问题、新情况也迅速产生。没有快速分析和利用新数据的能力,那么,所有的预测都是滞后的。滞后的预测会导致大数据丧失其预测功能。因此,在如此海量的数据面前,处理数据的效率就是一个机构的生命力所在。
除了上述四个特征,大数据更重要的还是提供一种独特的思维,即大数据思维。什么是大数据思维呢?(1)开放性思维。由于大数据的来源是多源性、多路径的,也就是说,数据本身是开放性的。因此,在分析数据和基于大数据进行预测的时候也需要一种开放性的思维来进行分析和预测。(2)非线性思维。这种思维要求我们在分析问题的时候不能仅仅凭几个要素来进行决策,而是要把所有相关性因素都要纳入分析框架。尤其是不能用简单的因果关系来进行决策,要充分考虑问题的复杂性。(3)价值思维,不能把数据仅仅看作数据,要认识到数据背后的巨大价值。传统的数据思维是数理统计思维,认为数据的本质在于统计,统计的目的是揭示历史过往中的基本特征和基本规律,根本没有通过数据来获得价值的思维。大数据思维就是通过数据的导人、分析,挖掘出巨大的价值。这种思维是完全不同于传统思维的全新思维。这种思维奠定了我们的学习创新(深度学习)、科技创新和管理创新。
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页