5月29日消息,2014第十八届中国国际软件博览会在北京展览馆开幕。本届软博会以“软件引领信息消费,助力经济转型升级”为主题,充分展示软件业在促进信息消费、提高百姓生活质量、提升社会各行各业信息化水平等方面的最新成果。浪潮集团副总裁谈绍兴做了题为《迎接数据为王的新时代》的主题演讲。
浪潮集团副总裁 谈绍兴
以下是演讲实录:
尊敬的领导大家下午好,我报告的题目是“迎接数据为王的新时代”,大家知道云计算和大数据是当前IT行业最热门的话题,也是公认的未来新技术发展的方向。政府领导从宏观产业的角度,互联网精神和大数据方面做了高屋建瓴的演讲,我是从IT角度如何看待大数据,如何看待大数据在我们行业的应用。
我的报告分三个部分;第一是大数据的概述;第二是浪潮在大数据方面的实践;第三,介绍一下大数据的价值。为了更系统阐述大数据,我们简单回顾一下信息产业发展的历史,1945年大型机出现,我们1945到1980年我们称之为大型机时代,1980到1995年是个人电脑时代,1995到2010是互联网时代,2010到现在是云计算时代。我们可以预见在2025年信息产业会产生新的模式,我们现在还说不清楚。从数据处理的角度,我们分成了两个时代;前两个时代,我们可以称之为大型机时代,我们更关注计算机的速度和性能。到互联网的时代,我们进入半数据化的时代,我们更注重搜索,到了云计算时代,我们进入数据为王的时代。从数据技术的发展角度来看,数据结构总共经历了4个阶段;第一个阶段是数据的层次模型,和关系网络模型的时代。第二个时代是结构化数据时代;第三是半结构化数据时代,现在是非结构化数据时代。
什么是大数据概述?结构大数据和非结构大数据,结构大数据是用二维表示实体之间的关系。自然界人与人之间的关系我们可以通过二维码把他们之间的关系表达出来。这是2007年埃德加提出来的,当时大家并不重视他的意见,他的特点所有运算都用关系运算实现结构化查询。用户无需关心数据的获取、存储、数据结构,得到的是符合查询条件的结果。
计算机发展到今天,我们有视频、邮件、聊天,互联网上一分钟每分钟全球产生7.5PB数据,2.04亿封邮件,27.7万人登陆。结构化数据有一个前提,所有的数据都要有顶层设计和数据结构,后填入数据。第二,当数据量大到一定程度的时候,到了T级或者PB级的时候基本上几个小时才能查询出一个结果来。如果我们平常日常讲话我有一段语音和视频,这种数据的处理用结构化数据处理是不可以的。后来诞生非结构化数据,不方便用数据库二维逻辑表来表现的数据称之为非结构化数据。数据反映的是自然界原生态的数据,这种数据是鲜货的,是碎片化的,同时是移动化的。第二,它没有统一的数据结构。依靠标准和规范彼此约束。第三,没有死板的查询方式,也不是唯一的结果,允许带有不确定性,重视搜索的统计性质。
大数据的定义大家都比较清楚了,大数据是相对传统的结构化数据,无法在容许的时间内用常规软件工具对其进行抓取。大数据最后有四个特点,有四个V,其中最重要的是价值,单一的数据价值比较低,大数据的目的在普通翻转的数据中找到有价值的数据。大数据处理和我们传统的数据处理在计算机上是不一样的,这个图就表示了传统模式和分布式计算的区别。如果我在一万本书中统计“浪潮”单词出现的次数,原来你就要一本本书去查,要查一万本书。那么现在分布式计算,一台计算机需要一秒钟,那么我一万台计算机查询出来的时间还是一秒钟,结果是一样的,没有任何变化。
刚才把大数据给大家做了概述,下面介绍一下浪潮在大数据中的实践。现在网上开店基本是不收税的,浪潮现在做了一个产品对网上的网店的交易额进行统计,因为大数据互联网它的数据是公平的,去年双十一,整个阿里巴巴官方公布当天交易额是350.19亿,但是我们抓取的数据额是350.4亿元!这是我们在大数据方面,网上纳税方面的应用。每天监控的酒店住宿信息2亿,上网信息每天10万,航空信息100亿,火车信息每天30万。这个是大数据个案的真实故事,山东淄博发生了一起凶杀案,杀人时间和地点知道,但是原因不清楚,动机和罪犯在哪里都不清楚,通过网上大数据分析,在网上搜索,因为杀人的信息已经新闻披露了,很多网民在看,成千上万的网民在看这个信息,同时有的网民在看杀人自首判几年,杀人不自首判几年?这个范围我们就在缩小,公安局会把上百万人缩小到几十个人,重点排查几十个人,最后在一个网吧就找到了这样的嫌疑犯,实施抓捕。最后对流串作案,在一个地方发生了抢劫案,过了一段时间在另外一个城市又发生了抢劫案,这是一个人流串作案,犯罪分子的信息一定在网上、住宿、银行留出线索!我们最后把嫌疑范围缩得非常小,然后找到相应的犯罪分子。
再是警务千度,千度有什么特点呢?每一个老百姓你的信息现在在公安局里都是实时跟踪的,比如要查一个人,这个人叫张金栋,当你查出这个人的时候,你这个人有没有跟你长相相似的?是不是有常用的名字?你有没有犯前科?你整个亲属关系?你的上级下级同事,这是一个居民的关系,你曾经住过什么酒店?你去过哪些地方?这些信息都在警务千度里查到。
另外是群体事件的预防,现在我们QQ、微信、微博如此发达,社区里的信息化被称之为社会的传感器,每个小区里给开发商发生纠纷了,小区业主利用QQ、微信等跟公安联系!另外是车辆管理,套牌车,假牌子,如果在同一时间里出现了两个相同牌照的车,肯定有一个牌子是假的!我们可以通过这种方式缩小查询范围。
我们单位里有一些邮件,如果把这些邮件整合了,我们在不改变原有信息的基础上,通过大数据平台,我们可以把数据做整合,在不改变原有应用系统情况下,我们也可以实现数据的共享和挖掘。这是大数据应用的特点。
最后介绍一下大数据的价值。张主任也讲过大数据是具有很高的价值的,数据和我们生产资料和我们的资金,和我们人才一样,大数据生产价值保健品潜在的数据价值有3000多亿美元,欧洲公共管理的潜在年度价值2500亿欧元。汪洋同志在2012年10月到广东省财政厅进行调研时说,今天大数据在中国的地位相当于30年前的土地,30年前土地是的很便宜,今天的土地很值钱!今天的数据就相当于30年前的土地,我们将正式进入一个数据为王的时代!今天数据很便宜,大家可以随便抓,30年后这种数据可能就不能随便抓了,可能国家会立法,对居民的隐私等范围,包括技术的手段不允许抓数据了。现在是最好的时机。
最后结语:云计算、大数据代表着当今信息技术的发展方向,是未来信息化的关键,浪潮愿与各界朋友紧密合作,创新应用,为中国信息化发展贡献力量。谢谢大家!