2013被称为大数据元年。
关于大数据的图书市面上就有20多种,其中最突出的是维克托·迈尔-舍恩伯格的《大数据时代——生活、工作与思维的大变革》(浙江人民出版社出版)。
舍恩伯格是最早洞见大数据时代发展趋势的数据科学家之一,早在2010年就在《经济学人》上发布了对大数据应用的前瞻性研究,他的咨询客户包括微软、惠普和IBM等全球顶级企业,被誉为“大数据商业应用第一人”。
下面,我们循着舍恩伯格《大数据时代》的脉络,了解一下大数据究竟意味着什么。
世界的本质是数据
2009年,甲型H1N1流感爆发的前几周,谷歌的工程师在《自然》杂志上预测大型流感传播即将到来。不需分发口腔试纸或调查医生,他们建立了一个系统,在每天收到的数十亿条搜索指令中关注特定检索词条(如“哪些是治疗咳嗽和发热的药物”等)的频繁使用与流感传播之间的联系,及时判断流感从哪里传出。而疾控中心要到流感爆发一两周后才能确定。
谷歌的判断就建立在大数据基础上:即以一种特定方式,对海量数据进行分析,获得有巨大价值的产品和服务或深刻的洞见。
传统经济统计原则是以抽样表征总体,人类对世界的认识,很像打着手电筒,清晰地看到脚下的某一块石头;而大数据时代的信息统计包含的样本量是如此之大,如同一盏灯笼,可能细部不够准确,但能照出整个环境和道路通向哪里。那些不很准确的最原始、看似平凡无用的信息,经过恰当的分析,让我们越来越接近正确——
中英人寿通过分析爱好、常浏览的网页、常看的节目、收入估计等好几百种生活方式数据,找出更有可能患高血压、糖尿病和抑郁症的人。申请者不必提供血液和尿样,这个纯数据分析法只需5美元,可使保险公司在每人身上节省125美元;
网站内容设置依赖于数据而不是编辑的新闻敏感度,数据比有经验的记者更能揭示哪些是符合大众口味的新闻;
网上教育公司深度研究它收集的所有数据,比如学生重放讲座视频的哪个片断,从而找出不明晰或很吸引人的地方反馈给设计课程的团队……
这很像一场寻宝游戏,通过数据科学家的巧手,这些数据的潜在价值被挖掘出来,远超其最基本的用途。数据发出了自己的声音,带给我们惊喜。有了大数据的帮助,我们会意识到本质上世界是由信息构成的。
挖掘处理数据是“大数据”的真谛
一个男人冲进塔吉特商店,气愤地对经理说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”几天后,当经理打电话致歉时,男人语气变平和了:“我女儿的预产期是8月份,是我完全没有意识到这个事件的发生,该说抱歉的是我。”原来,塔吉特的分析团队发现,怀孕3个月的女性会买无香乳液,之后会买镁、钙、锌等营养品,有20多种关联物能使零售商较准确地预测预产期,寄出相应的优惠券招徕顾客。
在大数据时代我们可以预测未来。古代能够预言天气的人,往往被视为通神,而今需要的只是海量信息的占有和分析。
大数据不仅仅在于数据之大,挖掘处理才是大数据关键所在。一要有收集及开发数据的特定工具,二要有集黑客和定量分析员优长于一身的数据科学家。
随着相关技术的成熟,公共部门和私人企业过去积累的大量“垃圾”数据有可能重焕光彩。比如用微观居民和企业用电量数据指导智能电网建设、用交通事故和犯罪数据指导警力布局、用消费和税收数据指导收入分配、用客流量数据指导铁路和民航调配、用互联网关键词传播数据进行流行病预防等等。
沃尔玛可谓是大数据的玩家。在对每个顾客购物篮中的物品、具体购买时间甚至购买日的天气分析后,研究人员发现,跟尿布一起搭配购买最多的竟是啤酒,而季节性飓风到来之前,POP-Tarts蛋挞被大量买走。于是沃尔玛把啤酒和尿布捆绑销售;在飓风警报