外媒称,科学家通常对大量数据的可利用性表示欢迎。大多数科学家都在赞美规模庞大的数据库所带来的科研机遇,但或许这是因为大家并不真正了解大数据的情况。不时会听到一些专家提醒说,大数据也有其不利的一面。
据美国《科学新闻》双周刊网站报道,普林斯顿大学的统计学家范剑青及其同事写道:“科学进步越来越多地由数据来推动。海量数据给数据分析既带来了机遇,也构成了新的挑战。”
首先,大规模的数据集很有诱惑力,能促使人们展开积极的分析,而且分析者希望能够从中获取有获奖可能性的科学发现。但有时,利用大数据意味着最终得到的是糟糕的数据。要从大数据中得出高见,给计算机科学、统计推断方法甚至科学方法本身带来了巨大的挑战。
当然,计算机领域的科学家通过开发出卓越的计算能力和信息存储技术,让大数据的积累成为可能。但是收集数据及存储信息与理解这些内容并不是一回事。了解大数据的真正意义并不等同于对小数据进行解读,就像明白鸟群的行为特征并不能解释一只孤独的海鸥所发出的叫声一样。
文章指出,标准的统计检验和计算程序原本是要分析从大的群体中提取的小样本,从而得出科学推断。但是大数据提供的样本极大,有时甚至包括整个群体或者群体的大部分。任务之艰巨会给实施计算过程从而完成统计检验带来问题。
加利福尼亚大学伯克利分校的迈克尔·乔丹说:“许多统计程序要么是有未知的运行时刻,要么是运行时刻让该程序无法用于大规模的数据。面对这种局面,大规模数据的收集者往往不得不求助于临时的程序,而这种程序有可能具有糟糕的甚至灾难性的统计特性。”
听起来很糟糕。不过还有更糟的。大数据样本不仅需要更多的时间去分析,它们往往还包含被抽样的所有个体的许多不同信息,从统计学的角度讲,这意味着这些样本是“高维的”。更多的维度增加了发现欺骗性关联的风险。比如,在医学研究中,可能会将某种药物的疗效与病人的身高联系在一起。但是这可能仅仅是因为大数据包含方方面面的信息,从身高、体重到眼睛的颜色,再到鞋子的尺码和最喜欢的棒球队。需要考虑的维度如此之多,有些维度显得重要似乎只是出于偶然。
范剑青和合作者说:“高维度可能会导致错误的统计推断和错误的科学结论。”
除此之外,范剑青和合作者指出,大数据往往是利用众多技术和方法,综合源自多个渠道、不同时间的信息而获得的。“为了应对大数据带来的挑战,我们需要新的统计思路和计算方法。”