作为一个生活平淡的人,你是否设想过在完成了某一天的无聊工作后,会在自家的厨房里听到警察的敲门声,然后被告知你可能跟一周后即将发生的一起凶杀案件相关? 在汤姆·克鲁斯主演的电影《少数派报告》(MinorityReport)中,神秘的“先知”计算机系统能够预知犯罪活动,甚至可以精确到时间、地点及卷入其中的人物,让警方能够提前行动加以阻止。 而在现实中,这并非小说家的凭空想象。美国洛杉矶因警员比例过低,一直是全美犯罪率最高的地区之一。2012年,该警察局开始进行了一项尝试,由加州大学人类学与数学系联合组成的一个实验室,为该局提供了一套类似“先知”的计算器系统。这套系统把洛杉矶市发案最高的福德希尔地区划分为几个区域,通过分析过去的1300多万起案件,找到了发案与日期、天气、交通状况以及其他相关事件之间的某种关系,进而能够预测出哪个区域在未来数小时内可能发生案件。 现在,洛杉矶警察局有一组专门的警员每天会驾驶着警车按照计算器发出的巡逻指令前往不同的区域。尽管这些熟练的经验丰富的警员仍然不适应被一堆二进制的代码所指挥,但是在不增加警员的前提下,“先知”已经使该地区财产犯罪下降了12%,盗窃案件下降了26%。 美国的另外一所大学——麻省理工学院正在进行另外一项研究,他们与当地一家妇女医院合作,把该医院所有心脏病患者的病例和心电图录入计算机,从而创建了一个计算器程序。当有病人来这里看病时,这个程序可利用心脏病患者的心电图,预测在未来一年内患者心脏病发作的机率。美国咨询界的翘楚麦肯锡咨询公司将这些现象总结为一个概念——大数据(BigData),并预言这项技术将成为人类未来生产力的指向标。随后,英国牛津大学教授维克托·迈尔-舍恩伯(ViktorMayer-Schonberger)的著作《大数据时代》在全球畅销,让大数据这个概念开始深入人心。 “很难准确地描述什么是大数据。”维克托教授说:“它应该是一种思维方式,这也是一个新的改变,从因果性到相关性的转变,也就是不问原因,而是直接由数据得出结果。” 他说,在过去我们问的更多的是“为什么”,对人类来说,这其实是一个很大的挑战。比如心脏病发作这项研究,尽管医学界已经研究了几十年,但是仍然很难找出发病的具体因果关系,但是现在,只需要建立一个足够大的心电图数据库,并且找到数据与心脏病发作的对应关系,就可以作出准确的预测。 “搜集和分析数据,从表面上看,这就是大数据的开发者们正在做的工作,这并不是什么新的技术。”北京缔元信公司CEO秦雯说:“但是互联网的发展使我们在过去的数年内制造的数据超过了人类历史上的数据总量,更重要的是,随着全息摄影技术、传感技术以及谷歌眼镜这样的新技术的诞生,我们收集数据的能力变得前所未有地强大,数据的爆炸性增长为更全面和精确的分析工作提供了可能性,这正是这个时代的价值。” 整合无序的资源 6300多年以前,古埃及人通过太阳升起和下落之间的时间规律制做了太阳历,预测太阳在某一天何时会升起,将单向前进的时间划分为365天为一个周期。2200多年以前,中国人通过观察候鸟迁徙和植物发芽制作了二十四节气,大致预测了一年之中的天气变化情况,让农业的播种和收割时间变得有规律可循。 北京缔元信数据公司CEO秦雯认为,从广义上看,这些都是根据过去的数据进行的预测,但是与现在大数据的含义相比,这些预测显得过于广泛,而且规律更容易掌握。现在的大数据更多的是分析由人类行为所构成的现象,比如华尔街的股票走势、洛杉矶的犯罪发生情况、淘宝网上即将热销的商品,而在过去这些都是不可预测的。 1966年,美国交通事故死亡人数高达5万人,达到了历史的峰值。美国国会要求联邦政府立即建立一套有效的交通事故记录系统,分析确定交通事故及其造成死亡的原因,以期望找到最能够避免事故的交通规划方式。 这在当时看起来仅仅是一种前途未知的尝试,因为一起交通事故的数据可能是完全独立且无序的,一年的数据、一个地区的数据也看不出太多章法。然而随着跨年度、跨地区的数据越来越多,群体的行为特点就会在数据上呈现一种“秩序、关联、稳定”,更多规律就会浮出水面。现在,美国的汽车保有量是中国的3倍,而交通事故死亡人数仅仅是中国的一半。 这种做法最符合现在的大数据含义,而且也是人类最早在大数据方面获得的甜头。 英特尔中国研究院首席工程师吴甘沙说,大数据并不仅仅是大量的数据,而是在看似无序和不关联的数据之间找到某种关联,发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能的机会,也正是大数据最主要的特点。 “比如,你如果知道人们在晨洗之后多长时间会走出家门,再从供水系统的数据中找到用水的高峰时间,就能准确地预测到今天早晨哪个区域哪个时间路上的交通最拥挤,同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出堵车时点。”他说。 “数”中自有黄金屋 缔元信是一家网络监测公司,其主要业务是为互联网站的站长提供访问量统计报告。自2008年开始,他们致力于开发一套数据分析系统,希望通过关键词设置分析人们在互联网上浏览的内容,以获知他们的审美取向和使用偏好,进而知道他们正在成为哪种商品的潜在购买者。 “这项工作并不像它看起来那样容易。”秦雯说,“因为你并非要刻意地监视某一个人,全中国有5亿多网民,每天他们要在网页上点击上百亿次鼠标,每一次鼠目标点击对你的监测服务器来说都是一样的,它并不知道这是坐在高档写字楼里的公司白领还是书房里的中学生操作了这一次点击。” 这项服务现在正变得炙手可热,无论是在淘宝、京东还是亚马逊,你都会在打开网页的的同时,看到那些你似乎很需要的广告,而并非过去那样毫无指向的信息。 “尽管如此,无论是缔元信还是淘宝或者美国的亚马逊,现在对于大数据的开发都非常初级,大数据的开发远远不是为了做广告。”秦雯说:“大数据是人类刚刚获得的一个富矿,而我们目前只开发了它表面的一小层。” 的确有更多的人在利用这一思路淘金。保罗?霍廷是英国的一名80后外汇交易员,他从三位信息学教授那里获得灵感,认为Twitter上每天两亿多条信息能直接反映人们的情绪,而这种情绪将是宏观经济走向的晴雨表。 霍廷依据分析结果决定如何处理手中数以百万美元计的股票。原则很简单:如果所有人似乎都高兴,买入;如果大家的焦虑情绪上升,抛售。随后他推出了一款利用Twitter关键词检索来预测公众情绪进而判断股票走势的对冲基金DerwentCapital,并大胆承诺,公司推出的交易策略可以获得的年回报率高达15~20%。结果表明,人们在网上的情绪变化会在2~6天后影响到指数的变化,霍廷的公司今年第一季度获得7%的收益率。 在国家层面,2012年,尚在经济危机阴影下的英国政府就拨款10万英镑,并邀请英国股市排名前100的大企业共同出资,建立一个国家级的公开数据研究组织。英国内阁部长弗朗西斯?莫德证实说,其实英国政府早有意带头建立“英国数据银行”,政府想算清楚究竟这个国家或政府创造了什么。他表示,英国不只是要成为世界首个完全公布政府数据的国家,英国还应该成为一个国际榜样,去探索那些公开数据在商业创新和刺激经济增长方面的潜力。 被忽视的个人价值 数据的产生变得更加个人化,无论是亚马逊、谷歌还是那些尚隐藏在大学里的实验室,他们研究的数据组都是由个人创造的。每当我们打电话、发短信,在互联网上使用搜索工具或者旅行、购物,这些行为都在为这个世界提供着新的数据。这些内容使得这个世界上的数据正在以每天250万TB的速度增加。 互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的渗透。有资料显示,1998年全球网民平均每月使用流量是1MB(兆字节),2003年是100MB,2008年是1GB(1GB等于1024MB),2014年将是10GB。 你使用餐具是用左手还是右手?吃饭的时候习惯喝汤吗?在加油站等待时是否会下车?你在早晨洗脸之后多久会走出家门?这些看起来毫无意义的问题正在变成一种有形的价值。因为当千万个甚至更多的如“你”一样的人被制作成为统计数字和图表之后,这些数学符号就有可能被其他的个人、企业甚至是政府有效使用。 正如吴甘沙所说,普通人早晨的洗漱习惯很有可能成为那些导航地图生产者所需要的数据,而这些产品则会反过来让每个人的生活变得更便捷、更可支配。 来自麦肯锡的报告显示:互联网产生的数据量将伴随着安装在汽车、零售、物流、安全、应用工具领域传感器数量的增加而增长。此外,报告还指出,在今后的五年里,全世界互联网传感器的部署将以30%的速度增加。到2020年,在美国,基于地理位置服务LBS将催生8000亿美元的市场空间,其中,个人的位置应用服务将产生7000亿美元的市场,基于位置的移动游戏、方位共享及出于社交网络安全考虑的定位跟踪是个人市场的主要应用。另一方面,企业将拥有1000亿美元的市场,主要应用聚焦于移动端的广告推送、基于手机位置的自动收费及基于位置的商业智能服务。 秦雯坚信,未来的数据会像现在的石油或者其他金属那样成为一种商品,在世界各地会诞生数据交易所。 “你会看到这样的场景,一个小公司的经营者拿着信用卡走进交易所说,我想要购买香港地区所有人刷牙习惯的数据。”秦雯说。