以“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”于2013年7月21日在北京大学英杰交流中心阳光大厅隆重举办。本次活动由北京大学信息化与信息管理研究中心和北京大学CIO班教务办公室主办,北达软协办,CIO时代网承办。各企事业单位信息化负责人、北大CIO班学员及有关媒体代表200多人荟萃于此,对大数据的众多议题进行了热烈讨论。
中国工程院副院长、院士、国家信息化专家咨询委员会委员 邬贺铨
中国工程院副院长、院士、国家信息化专家咨询委员会委员邬贺铨先生首先以“大数据时代的发展趋势”为主题发表了精彩的演讲。邬院士的精彩观点包括:大数据必然催生大带宽;云计算将改变互联网流量和流向,大数据将驱动大量部署的对等连接,网络节点位置从信源中心向能源中心扩展;大数据呼唤智能化的处理和分析。以下为演讲实录:
尊敬的北大的各位老师、各位专家、各位CIO,很高兴来参加这次论坛。最近这几天好像有点“CIO热”,上个礼拜Gartner在北京有CIO论坛,明天在上海也有CIO论坛,大数据论坛也是到处在开。今天的标题是“大数据应用”,我知道今天后面的几位报告人会讲到大数据在教育、医疗、商业等等方面的应用,所以我这里就只讲一下大数据时代的ICT趋势,会讲到四个方面的问题:大数据浪潮的到来、大带宽发展的趋势、大网络布局的演变、大数据挖掘的挑战。
第一,大数据浪潮的到来。绿色图表示每个网民人均每个月下载流量,1998年每个网民一个月只需要一兆流量,2003年就需要一百兆,2008年就是1G,到2014年每个月要10个G的下载量。右边的图是讲全世界互联网流量累计达到1EB所需要的时间,2001年需要一年,2004年需要一个月,而今年只需要一天。2012年去年全世界互联网一天的信息量大概是1EB,可以刻满1.68亿张DVD,。现在全世界新产生的数据量每年增加40%,每两年数据翻一番。2012年、2013年产生数据量总和是人类有历史以来到2011年产生数据量的总和,两年的数据量等于一万年的总和,这个数据规模为1.8ZB,假如把这个数据装在32G的IPad上,要装575亿个,把这些iPad摞起来,可以摞起两座中国的长城。2020年全球数据将达到40ZB,如果将数据装在光盘上,这些光盘总重量等于424艘尼米兹号航母。所以说,大数据时代到来了。
大数据有网络数据、企事业单位数据、政府数据,网络数据自媒体数据(比如社交网络、博客、微博等),有日志数据(比如搜索引擎,大家上网等等都会留下很多足迹),还有富媒体数据(视频、音频等等),每天的数据量很大。比如淘宝每天数据量就超过50个TB;新浪微博晚上高峰的时候一秒钟就要接收100万以上的响应请求;百度每天大概处理60亿次搜索请求,几十PB;中国联通每天记录用户上网条数,一秒钟记录83万条,一个月大概是300TB;国家电网信息中心目前累计收集了2PB的数据;北京公交一卡通,每天用公交一卡通的旅客有4000万刷卡记录,而北京地铁每天乘客1000万,把这些数据每天收集起来分析数据可以用于改善北京的交通状况,优化北京的公交线路。
最大的流量是视频。美国TouTube网站一分钟有72小时的视频上载,到2016年互联网上的忙时流量是720Tbps,相当于全世界有6亿人同时看不一样的高清电影。到2016年每3分钟互联网传送360万小时视频,相当于全球已经生产的全部电影。这个电影用什么量衡量呢?如果一个人要看3分钟所传送的电影,需要34年不吃饭、不睡觉才能看完。最近两个月在TouTube上载的视频量是美国三大电视台--ABC、NBC、CBS自1948年以来24/7/365连续播出的内容,可以看到视频流量非常大。
大数据无所不在。图中是美国的一家医院(UPMC),一年能收500TB数据;伦敦有200个交通摄像头,每天是8TB数据;伦敦才200个,北京有八十万个摄像头,数据量要比伦敦大得多了。还有其他方面的数据量,大数据无所不在。就监控而言,很多城市的摄像头多达几十万个,一个月的数据就达到数十个PB。北京公安局规定,所有超市,只要有开放食品架的,全都要装高清摄像头,能清晰的拍摄到走在架前人的脸部,以防投毒,防用针管装艾滋病毒、传染病毒打到液体
中国工程院副院长、院士、国家信息化专家咨询委员会委员 邬贺铨
中国工程院副院长、院士、国家信息化专家咨询委员会委员邬贺铨先生首先以“大数据时代的发展趋势”为主题发表了精彩的演讲。邬院士的精彩观点包括:大数据必然催生大带宽;云计算将改变互联网流量和流向,大数据将驱动大量部署的对等连接,网络节点位置从信源中心向能源中心扩展;大数据呼唤智能化的处理和分析。以下为演讲实录:
尊敬的北大的各位老师、各位专家、各位CIO,很高兴来参加这次论坛。最近这几天好像有点“CIO热”,上个礼拜Gartner在北京有CIO论坛,明天在上海也有CIO论坛,大数据论坛也是到处在开。今天的标题是“大数据应用”,我知道今天后面的几位报告人会讲到大数据在教育、医疗、商业等等方面的应用,所以我这里就只讲一下大数据时代的ICT趋势,会讲到四个方面的问题:大数据浪潮的到来、大带宽发展的趋势、大网络布局的演变、大数据挖掘的挑战。
第一,大数据浪潮的到来。绿色图表示每个网民人均每个月下载流量,1998年每个网民一个月只需要一兆流量,2003年就需要一百兆,2008年就是1G,到2014年每个月要10个G的下载量。右边的图是讲全世界互联网流量累计达到1EB所需要的时间,2001年需要一年,2004年需要一个月,而今年只需要一天。2012年去年全世界互联网一天的信息量大概是1EB,可以刻满1.68亿张DVD,。现在全世界新产生的数据量每年增加40%,每两年数据翻一番。2012年、2013年产生数据量总和是人类有历史以来到2011年产生数据量的总和,两年的数据量等于一万年的总和,这个数据规模为1.8ZB,假如把这个数据装在32G的IPad上,要装575亿个,把这些iPad摞起来,可以摞起两座中国的长城。2020年全球数据将达到40ZB,如果将数据装在光盘上,这些光盘总重量等于424艘尼米兹号航母。所以说,大数据时代到来了。
大数据有网络数据、企事业单位数据、政府数据,网络数据自媒体数据(比如社交网络、博客、微博等),有日志数据(比如搜索引擎,大家上网等等都会留下很多足迹),还有富媒体数据(视频、音频等等),每天的数据量很大。比如淘宝每天数据量就超过50个TB;新浪微博晚上高峰的时候一秒钟就要接收100万以上的响应请求;百度每天大概处理60亿次搜索请求,几十PB;中国联通每天记录用户上网条数,一秒钟记录83万条,一个月大概是300TB;国家电网信息中心目前累计收集了2PB的数据;北京公交一卡通,每天用公交一卡通的旅客有4000万刷卡记录,而北京地铁每天乘客1000万,把这些数据每天收集起来分析数据可以用于改善北京的交通状况,优化北京的公交线路。
最大的流量是视频。美国TouTube网站一分钟有72小时的视频上载,到2016年互联网上的忙时流量是720Tbps,相当于全世界有6亿人同时看不一样的高清电影。到2016年每3分钟互联网传送360万小时视频,相当于全球已经生产的全部电影。这个电影用什么量衡量呢?如果一个人要看3分钟所传送的电影,需要34年不吃饭、不睡觉才能看完。最近两个月在TouTube上载的视频量是美国三大电视台--ABC、NBC、CBS自1948年以来24/7/365连续播出的内容,可以看到视频流量非常大。
大数据无所不在。图中是美国的一家医院(UPMC),一年能收500TB数据;伦敦有200个交通摄像头,每天是8TB数据;伦敦才200个,北京有八十万个摄像头,数据量要比伦敦大得多了。还有其他方面的数据量,大数据无所不在。就监控而言,很多城市的摄像头多达几十万个,一个月的数据就达到数十个PB。北京公安局规定,所有超市,只要有开放食品架的,全都要装高清摄像头,能清晰的拍摄到走在架前人的脸部,以防投毒,防用针管装艾滋病毒、传染病毒打到液体