大数据这个术语最早期的引用可追溯到Apache软件基金会的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。
早在2008 年Nature就出版了专刊“Big Data”,从网络经济学、超级计算、互联网技术、生物医药、环境科学等多个方面介绍了海量数据带来的挑战;2011年Science推出数据处理的专刊“Dealing With Data”,深入讨论了数据洪流(datadeluge,DD)所带来的挑战,并指出如果能够更有效地组织和利用这些海量数据,人们将得到更多的机会发挥科学技术对推动社会发展的巨大作用;2012年奥巴马宣布美国政府投资2亿美元启动“大数据研究和发展计划”,将大数据比喻为“未来的新石油”,将对大数据的研究上升为国家意志,掀起了世界各国大数据的研究热潮。
大数据的定义,业界虽然有一些共识,但是并未有统一的定义。麦肯锡认为“大数据是指其大小超出典型数据软件抓取、储存、管理和分析范围的数据集合”;Gartner认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。
在对大数据的定义中,比较有代表性的定义是3V定义,即规模性(Volume),多样性(Variety)和高速性(Velocity),规模性是指数据量庞大,数据洪流已经从GB、TB级上升到PB、EB、ZB级;多样性是指数据类型繁多,并且包含结构化、半结构化和非结构化的数据;高速性则是指数据以数据流的形态快速、动态的产生,数据处理的速度也必须达到高速实时处理。
另外大数据第4V的讨论并没有取得一致的结论,国际数据公司(international data corporation, IDC)认为大数据应该具有价值性(Value),且价值密度稀疏;IBM则认为大数据的第4V特性是真实性(Veracity)。大数据的这些特点决定了在大数据时代,传统的数据处理技术必需有革命性的提升。
电力系统作为经济发展和人类生活依赖的能量供给系统,也具有大数据的典型特征。电力系统是最复杂的人造系统之一,其具有地理位置分布广泛、发电用电实时平衡、传输能量数量庞大、电能传输光速可达、通讯调度高度可靠、实时运行从不停止、重大故障瞬间扩大等特点,这些特点决定了电力系统运行时产生的数据数量庞大、增长快速、类型丰富,完全符合大数据的所有特征,是典型的大数据。
在智能电网深入推进的形势下,电力系统的数字化、信息化、智能化不断发展,带来了更多的数据源,例如智能电表从数以亿计的家庭和企业终端带来的数据,电力设备状态监测系统从数以万计的发电机、变压器、开关设备、架空线路、高压电缆等设备中获取的高速增长的监测数据,光伏和风电功率预测所需的大量的历史运行数据、气象观测数据等。
因此在电力系统数据爆炸式增长的新形势下,传统的数据处理技术遇到瓶颈,不能满足电力行业从海量数据中快速获取知识与信息的分析需求,电力大数据技术的应用是电力行业信息化、智能化发展的必然要求。
中国电机工程学会信息化专委会在2013年3月发布了《中国电力大数据发展白皮书》,将2013 年定为“中国大数据元年”,掀起了电力大数据的研究热潮。根据白皮书描述,电力大数据的特征可概括为3V和3E。3V为体量大(Volume)、速度快(Velocity)和类型多(Variety) ; 3E 为数据即能量(Energy) 、数据即交互(Exchange)和数据即共情(Empathy)。
其3V的描述和其他行业的描述比较接近,3E的描述具有典型的电力行业特征,体现了大数据在电力系统应用中的巨大价值。数据即能量简而言之,就是指通过大数据分析达到节能的目的,电力大数据应用的过程,就是电力数据能量释放的过程;数据即交互是指电力大数据与国民经济其他领域数据进行交互融合,才能发挥其更大价值;数据即共情是指电力大数据紧密联系千家万户、厂矿企业,只有情系用电客户,满足客户需求,电力企业方能以数据取胜。
电力大数据贯穿发、输、变、配、用等电力生产及管理的各个环节,是能源变革中电力工业技术革新的必然过程,不仅是技术上的进步,更是涉及电力系统管理体制、发展理念和技术路线等方面的重大变革,是下一代电力系统在大数据时代下价值形态的跃升。对建设坚强智能电网而言,亟需开展大数据相关技术的研究,为电力大数据时代的到来奠定理论基础和技术积累。
1 智能电网、云计算和大数据的关系
1.1 智能电网与大数据的关系
智能电网就是将信息技术、计算机技术、通信技术和原有输、配电基础设施高度集成而形成的新型电网,具有提高能源效率、提高供电安全性、减少环境影响、提高供电可靠性、减少输电网电能损耗等优点。
智能电网的理念是通过获取更多的用户如何用电、怎样用电的信息,来优化电的生产、分配及消耗,利用现代网络、通信和信息技术进行信息海量交互,来实现电网设备间信息交换,并自动完成信息采集、测量、控制、保护、计量和监测等基本功能,可根据需要支持电网实时自动化控制、智能调节、在线分析决策和协同互动等高级功能,因此相关研究者指出:可以抽象的认为,智能电网就是大数据这个概念在电力行业中的应用。
1.2 大数据与云计算的关系
根据美国国家标准与技术研究院的定义,云计算是一种利用互联网实现随时、随地、按需、便捷地访问共享资源池(如计算设施、应用程序、存储设备等)的计算模式。