5月29日消息,2014第十八届中国国际软件博览会在北京展览馆开幕。本届软博会以“软件引领信息消费,助力经济转型升级”为主题,充分展示软件业在促进信息消费、提高百姓生活质量、提升社会各行各业信息化水平等方面的最新成果。中国工程院院士李德毅做了题为《大数据挖掘带动的变迁》的主题演讲。
中国工程院院士 李德毅
以下是演讲实录:
各位来宾、各位同仁、我们工程院在大数据时代面对着挑战,今天我就讲讲这个问题!我们的数据要有一定的结构,我们来看看在大数据时代软件工程遇到了什么挑战?软件工程师来说,数据是按照数据结构来写的,大数据时代有没有可能程序绕着数据转呢?科学应该怎么做,在这个大数据时代软件科学应该怎么做,数据挖掘应该怎么做?数据挖掘是软件的代名词,大数据通常来自三个方向,总体来说是自然界大数据,很大很大,我们那么多卫星围着地球转,每天下来的数据很多。第二生命大数据。最重要的是人们尤其关心的是社交大数据。今天一个报告在3分钟之内就可能被全世界的人们所知道。PB时代是对科学的挑战,更是对包括数据挖掘在内的任职科学的挑战,也是对软件工程的挑战。
我们看奥巴马就职的社交场所,这么多面孔,每一个面孔下都有一个故事,这个故事正在发生着,如果我们可以走便天下的话,我们可以找到奥巴马的人际关系,一个人在社会上生存有很多方方面面,这些方面我们是技术无法做到的,人脸是数据安全的很重要的识别器,怎么识别呢?人们想了很多办法,就人脸我们就想到了摄像头,北京市80万个摄像头,我们每天都在摄像头的监督下开车、购物。身份认证、年龄识别、情感计算、亲缘发现、性别识别、地区和民族识别。如果我有一家全家福,你能通过这个发现谁是女婿,谁是儿媳妇吗?人脸之间的相似形,人脸的易变性,图像本身的质量,特征提取中需要提取的特征属性和数量,我们能用传统的结构化数据表征吗?谁是他?这是社交网络中基本的问题,计算机在发展过程中我们是怎样对付这样的数据的?我起了一个题目叫做山不转,水在转。早间图形给我们提出了很好的计算模型,当时我们把计算机分了三档,第一是CPU加上操作系统,这是计算机的命根子,还有一个是内存和外存,全球的虚拟化,在操作系统里很重要,当时我们叫做输入输出,这就构成了我们计算时代,构成了我们IT时代。这个龙头是CPU和操作系统,这些计算的虚拟化我们要关心具体的计算。所以就是早期计算的虚拟化,导致现在的云计算。把内外存储叫做存储,在交互单元里有技术存储、呼叫的迭代关系,因此我们现在的交换机、服务器等等都叫计算机。
计算对软件付出了很大的努力,尤其是高性能计算机。我们认为计算在前20年中起到了主导作用,它的标志速度就是摩尔速度。跟这个时代相对应的是结构化数据,软件加程序加数据加存档,这个数据应该是结构化数据才能被运行起来。我们想到伟大的科学家,埃德加佛兰克,提出关系模型,以关系代数为核心运算,用二维表形式表示实体和实体间的联系。只要谈到数据库没有不谈关系数据库的。关系数据库有严格的顶层设计,为构建良式关系!几个关系结合成一个关系,对这样的关系进行运算,只要在关系数据中总可以通过SQL语言满足条件的结果唯一挖掘出来。关系代数是关系数据库的形式化理论和约束。先有顶层设计和数据结构,后填入清洗后的数据。数据围绕结构转,数据围绕程序转。用户无需关心数据的获取、存储、分析以及提取过程,更无需关心数据结构的内部组织形式。我曾经是国际上数据库小组的成员。如果有一个TD级的管理,甚至要50个小时为时间点,结构化数据面临着挑战,挑战一,过于刻苦,无法表示原生态的大数据怎么办!挑战二,随着数据的增大,关系代数运转的性能急剧下降!