“当前,大数据已成为社会热潮。这股热潮的主要驱动力来自网络服务公司,各地政府投资大数据的主要目的则是增加GDP,但其实发展大数据的意义不仅仅体现在经济上。”日前,在清华大学举行的大数据时代高端论坛上,中国工程院院士李国杰表示,发展大数据技术的另一个重要意义是促进社会公平正义,促进国家治理的现代化。“大数据的挖掘分析还能促进科学研究,尤其是基础科学研究的发展。面对大数据浪潮,我们的科学研究也需要作出一定的调整。”
“大数据就如同蜜蜂,其主要价值是传播花粉,自己生产的蜂蜜价值并不大。”李国杰介绍说,2013年世界范围内狭义的大数据产业产值只有186亿美元,但广义的大数据应用几乎覆盖所有产业。据麦肯锡公司预测,开放数据仅在教育、保健等7个行业便可释放3.2万亿~5.4万亿美元的经济价值。
然而,在李国杰看来,大数据对社会的贡献并不仅限于经济领域。“大数据分析是认识客观世界的新工具,将开拓计算机科学的新领域——数据科学,同时基于大数据分析的科学研究第四范式必将给全球科技发展带来深刻影响。”
当前,大数据的发展已给传统计算机科学带来挑战。李国杰坦言,计算机科学是关于算法的科学,传统的图灵计算把“输出值”当成“输入值”的函数,假定输入的数据是随意的,并不关心输入数据之间的相互关系。然而,现在的研究发现,其实输入数据本身也是值得研究的对象。“这就是数据科学要研究的内容。”
“在某些情况下,小数据条件下好的算法在大数据条件下可能不再适用。反过来,也有一些问题,数据多了反而更容易解决。大数据的兴起导致计算机科学的重点从算法研究向数据科学转移。”李国杰说,目前的大数据技术大多是针对专门应用开发的,其实应研发更加通用的大数据分析和管理技术,发展像关系数据库这样的理论指导海量非结构化Web数据的处理。
与此同时,越来越多的研究人员开始在数据不断涌现的科学领域摸索,数据驱动型发现也将成为科研的主要形式,熟练应付大数据将很快成为必备技能。对此,李国杰表示,伴随着所有科学都迅速变成“数据科学”,需要在各领域培养既有专业知识又熟悉数据分析的人才,使之拥有分属于不同领域的“双腿”支撑前进。
此外,李国杰强调,为顺应大数据时代潮流,我们需要重新构建一张以大数据为基础的“门捷列夫周期表”。
“‘门捷列夫周期表’的发现,为化学成为一门独立科学奠定了重要基础。而在很多学科中,我们也需要对某些基本元素进行系统分析。”李国杰表示,目前生物领域有基因组学,生理学、病理学、制药、干细胞等领域都在研究“基因组”,也有人在讨论人类语言的“基因组”,这些基因组其实都是构成学科整体的基本元素。而发现这些“基因组”需要通过计算机对海量数据进行分析,这导致各学科领域纷纷出现“某某信息学”的分支学科,凸显了大数据在许多学科中的基础性作用。
“从上世纪70年代开始,围绕计算复杂性,已形成了以算法研究为中心的计算机科学。但随着计算机科学与其他科学的交叉融合,其研究重点将逐步转移到以研究各种基因组学为重点的数据科学。从这个角度来说,现在已经到了发现一张新的‘门捷列夫周期表’的时候了。”李国杰说。(中国工程院院士 李国杰)