大数据与统计变革_曾鸿
当前,对大数据的表述虽有不同,但一个普遍的观点是,大数据与“海量数据”和“大规模数据”的概念一脉相承,其在数据规模、数据复杂性和产生速度等方面均大大超出了传统的统计数据形态,也超出了现有统计手段的处理能力。
需要特别注意的是,大数据时代不再抽取样本、不再追求精确,不再追寻因果关系,这都和传统的统计思维背道而驰。大数据时代的到来,统计工作者有必要思考我们面临的挑战和必须实施的变革。
大
数据与统计变革
单笔交易统计额出错的可能性也随之增加,但总体所增加的准确性收益远远超出单个的精确性。实际上语言翻译、地图导航等许多大数据例子已经证明了,优化数学模型所带来的好处远没有扩大数据库带来得多。
2. 不再依赖随机抽样。大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个现象相关的所有数据,而不再依赖于随机抽样。传统的统计工作中,当面临大量数据时,往往依赖随机抽样。统计学家证明,抽样分析的准确性随着抽样随机性的增加而大幅提高,但与样本数量的增加关系不大。样本选择的随机性比样本数量更重要,这是抽样调查的基石,这一方法也取得了巨大的成功。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,更何况现实中实现随机性并不容易。
大数据时代,储存和处理数据不再像过去一样困难,几乎所有的交易信息均会被数字化,储存在计算机上,这使得全数据变成可能。全数据模式,也就是分析所有相关数据,令样本等于总体的统计手法。大数据分析不用抽样分析这样的捷径,而采用所有数据的方法。全数据能为我们带来更高的精确性,也能让我们看到一些以前无法发现的细节。大数据分析能让统计分析更清楚的看到样本无法揭示的细节信息。
3. 不再必须寻找因果关系。传统的统计工作中,寻找因果关系是长久以来的习惯,即使确定因果关系很困难我们还是习惯性的寻找缘由。但是,有学者认为,严格来讲,统计学无法检验逻辑上的因果关系。如,根据统计结果,可以说吸烟的人群肺癌发病率比不吸烟的人群高几倍,但统计结果无法得出吸烟致癌的逻辑结论。
在大数据时代,我们无须再紧盯事物之间的因果关系,而更多的是寻找事物之间的相关关系。虽然传统的
文曾
鸿
丰敏轩 \
比较传统的数据库和大数据的区别,有人认为用“池塘捕鱼”和“大海捕鱼”是个很好的类比。“池塘捕鱼”代表着传统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式,“鱼”是待处理的数据,“捕鱼”环境条件的变化导致了“捕鱼”方式的根本性差异。
随着各种信息工具的发展,网络演变的数据种类越来越多。网页、图片、视频、录音等各种数据种类庞杂。大数据的多层结构,决定了大数据会具有多变的形式和类型。和传统数据比较,大数据存在不规则和模糊不清的特性。传统数据的收集方式(如问卷调查、报表收集等)不再适用,甚至连处理和分析都无法用传统的应用软件进行。以电子商务统计为例,在大数据背景下,分析员有能力分析每一单交易,将每笔交易的交易额都进行一次计算。虽然随着数据量的增加,
大数据与统计变革
大数据时代将改变我们理解和组建统计信息的方法。
1. 数据收集方式将大为不同。传统数据的收集方式通常采用以下几种﹕问卷调查、报表收集、用户访谈、集体讨论等。然后对访问的数据进行整理录用。在大数据时代,社会信息处于大爆炸的状态,互联网的发展更是使数据量的级别与复杂性远高于传统数据。传统的数据收集方法具有很大的局限性,已不能满足新时期的需求。
49
统计工作也研究相关关系,但大数据相关关系分析的本质在于出发点并非“假设中的因果关系”,而是来自于事实存在的大数据库,通过分析数据之间相关关系,排除人为的假设,发掘出数据深处的意义。大数据时代很重要的一点就是社交网络的数据化。社交关系在过去一直被视作信息而存在,但从未被正式界定为数据。直到FACEBOOK 网站的出现,让人们能轻易分享、记录他们零散的想法,使得情绪数据化得以实现。微博、微信、FACEBOOK 等社交网络工具不仅实现了人们想法、情绪和沟通的数据化,还能将其内容进行语法分析,挖掘深处的数据价值。已有很多公司通过分析微博来判断营销活动的成效。国内外还有对冲基金将微博文本作为股市投资的信号。
调查单位边界是基本清晰的,或者至少在统计人员心目中认为是清晰的。而大数据时代则有很大不同,大数据系统的数据主要通过物联网、移动网、人际关系网、互联网采集,统计人员面对的不光是以往熟悉的实体经济领域的调查对象,更要面对不熟悉的或更加复杂的互联网虚拟经济,在成千上万的互联网平台,需要的数据以各种形式非结构化呈现出来,传统的报表调查、抽样调查、问卷调查等手段都显得无能为力。网民活跃在各大门户网站、电子商务网站、移动互联网平台等,留下活动踪迹也留下活动数据,统计工作者亟须研究如何采用相应方法获得大数据,并进行相应处理,挖掘出有价值的信息。因此,统计调查体系除了传统的普查、报表调查、抽样调查、重点调查、典型调查外,需要把大数据获取方法纳入统计调查体系。
2. 传统的统计整理是将统计调查收集到的原始数据进行分类、汇总,使其条理化系统化,从而得到综合说明所研究总体数量特征的统计资料的工作过程。在大数据时代,上述理论和方法可能会面临无法实施的尴尬。大数据的复杂性不仅体现在数据本身,更体现在多元异构、多实体和多空间之间的相互动态性,难以用传统的方法描述与度量,处理的难度很大,需要将各种多媒体数据降维后利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容,这和传统的统计数据整理已是天壤之别。
3. 统计数据结果的可视化呈现。传统的统计数据可视化指的是将数据用统计图表方式呈现,用于形象地传递信息。我们熟悉的统计饼图、直方图、散点图、柱状图等,它们是数据可视化的最基础和常见应用。作为一种统计工具,用于创建一条快速认识数据的捷径,并成为一种令人信服的沟通手段,传达存在于数据中的基本信息。因此可以在大量PPT 、报表、新闻中见到统计图表。但统计图表只能呈现基本的信息,发现数据之中的
结构,可视化定量的结构化数据结果。大数据时代,面对复杂或大规模异型数据集,比如网民活动踪迹、网民网络购物偏好、网民网络游戏路径、企业电子商务商业分析、网民分布、新媒体效果反馈、网站用户行为数据等,这时需要将这些非数字的信息进行可视化,用于表现抽象或复杂的概念、技术和信息,数据可视化面临处理的状况将复杂得多。面对大数据的海量、数据的多层次和变化的数据环境等特点,数据之间错综复杂的关系使传统的可视化方法和路径被打破。
大数据的出现对统计工作既是一项挑战,更是一次机会。统计理论体系和统计实践都面临一次升级换代的机遇。正如有人所说:“数据已成为一种新型的经济资产,就像货币或者黄金。”然而享受这种资源并非易事,大数据的各种特点对统计工作提出了新标准、新要求、新境界。统计工作只有跟上信息时代日新月异的发展,才能真正发挥其信息、咨询、监督职能。也许,大数据时代或将才会真正迎来大统计时代。
参考文献:
[1]于艳华、宋美娜. 大数据[J].中兴通讯技术,2013(1).
[2]方方. 大数据时代的到来[J] .新科幻,2013(4).
[3]邬贺铨. 大数据时代的机遇与挑战[J],求实杂志,2013(4).
[4]曾凡斌. 大数据:一场管理革命[J] .中
国传媒科技,2013(1).
构建大数据背景下新的统计
理论与实践体系
传统的统计理论体系诞生于工业经济时代,与工业经济时代发展特点相适应。调查对象清晰、调查单位可数、时间序列明显,在此背景下的统计学经典教科书被深深烙上工业经济的印记。而大数据时代,传统的统计理论体系中的不少理论和方法需要改进和充实。
传统的统计工作实践体系,包括数据收集、整理、分析、咨询各个环节,有较为成熟的统计调查体系,有规范的统计数据整理方法,更有若干指标来对数据分布特征进行描述。统计人员习惯了统计抽样、相关与回归分析、编制统计指数等。在大数据时代,这一切都可能被颠覆,无论从统计理论体系还是统计实践都面临前所未有的挑战。
1. 大数据时代的数据收集理论。在传统的统计教科书中,数据收集方式以报表调查、抽样调查和问卷调查为主,通过层层布置报表获取有关信息,或根据调查目的设计相关问卷从被访者那里获得数据,或通过设计抽样方案抽取样本,以样本推算总体。也就是说传统统计工作的调查对象和
作者单位:成都信息工程学院
50