核心提示: 智能电网大数据处理技术现状与挑战宋亚奇'周国亮\朱永利2(1.华北电力大学控制与计算机学院,河北省保定市071003;2新能源电力系统国家重点。需要指出的是,鉴于目前云平台接收智能电网监测数据的实
智能电网大数据处理技术现状与挑战宋亚奇'周国亮\朱永利2(1.华北电力大学控制与计算机学院,河北省保定市071003;2新能源电力系统国家重点。需要指出的是,鉴于目前云平台接收智能电网监测数据的实时性不能保证,可以在的数据接入与信息集成前面设置若干前置机,负责实时接收通信网中送来的报警信息或监测数据,并在云平台不能响应时负责暂存。
智能电网各类应用生产控制系统电力经营管理电力营状态检风险评销系统测系统估系统任务管理、调度与监控Hadoop云计算系统并行数据仓库实时数据库数据接入与信息集成智能电网大数据多级存储系统另外,智能电网中的数据格式与传统商业数据具有很大的不同,拥有自己的特点。比如在故障录波及输变电设备状态监测中,波形数据较多,而波形数据与传统商业数据具有本质的不同,具有数据生成速度快等特点。因此需要研究面向智能电网大数据存储的格式,从而有利于后续的数据分析和计算。
智能电网环境下各类数据异构,不能用已有的简单数据结构来描述,而计算机算法在处理复杂结构数据方面相对低效,但处理同质的数据则非常高效。因此,如何将数据组织成合理的同质结构,是大数据存储处理中的一个重要问题。另外,智能电网中存在大量的非结构化和半结构化数据,如何将这些数据转化为一个结构化的格式,是一项重大挑战。
3.2实时数据处理技术3.2.1数据处理的时效性对大数据而言,数据处理速度十分重要。一般情况下,数据规模越大,分析处理的时间就会越长。
传统的数据存储方案是为一定大小的数据量而设计的,在其设计范围内处理速度可能非常快,但不能适应大数据的要求。未来智能电网环境下,从发电、输变电环节,到用电环节,都需要实时数据处理。目前的云计算系统可以提供快速的服务,但有可能会受到短暂的网络拥塞,甚至是单台服务器故障的影响,而不能保证响应时间。
基于内存的数据库越来越受到关注。内存数据库就是将数据放在内存中直接操作的数据库。相对于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存中比从磁盘上访问能够极大地提高应用的性能。目前电力系统已经开始使用内存数据库,以提高实时性。例如,针对去年我国部分地区出现用电荒,而另一部分地区呈现电能过剩的状态,SAP推出了基于HANA内存数据库的智能电表分析解决方案,希望能够将智能电网涉及的环节和电力大用户的数据进行集成和整合分析,以实现各地电能消费情况的分析,以做好相应的预防措施。
在大数据集中进行关键字的查询也是一个重要挑战。通过对整个数据集进行扫描来找到符合要求的记录的方法显然不可行,即使通过类似MapReduce这样的并行处理技术加快扫描,也不是很合理。而通过事先为数据建立索引结构来帮助查找是一种比较快速同时节省系统资源的方法。目前一般索引结构的设计仅支持一些简单数据类型,大数据则要求为复杂结构数据建立合适的索引结构,这也是一个巨大的挑战。例如,物联网采集的多维数据,其数据量不断增长,同时对查询时限有要求,需要不断更新索引结构,索引的设计就非常具有挑战性。下面分别从发电、输变电和用电环节分析智能电网大数据在数据处理方面带来的挑战。
3.2.2发电环节发电企业的特点是生产过程连续、自动化程度高,要求全过程的实时监控、高速的实时数据处理、长期的历史数据存储以及生产信息的集成与共享。有研究表明,正常运行的SCADA系统接收到监测数据延时如果超过50 ms,就会导致错误的控制策略;还有研究表明,SCADA系统在使用Internet环境下最普遍的TCP/IP协议时出现故障,主要原因是TCP协议在进行流量控制和数据纠错,而造成数据延迟。未来的智能电网解决方案将需要实时响应,即使出现节点故障的情况。目前的关系数据库系统和云计算系统被设计为是处理永久、稳定的数据。关系数据库强调维护数据的完整性、一致性;云计算系统强调可靠性和可扩展性,但很难顾及有关数据及其处理的定时限制,不能满足工业生产管理实时应用的需要。
3.2.3输变电环节状态监测对数据存储与处理平台的性能或实时性具有较高的要求,而云计算技术虽然可以有效地处理大数据,但需要进一步提升云平台对海量监测数据的存取性能,以满足实时性的要求。以往的大规模停电事故,最初是由一些环境因素引起的,比如大风导致的线路跳闸等。现有SCADA系统的监控范围仅限于系统的主参数,对构成系统的各重要设备的健康状况的信息缺失,致使运行人员在事故面前难以做出正确的处理。未来智能电网要求具有故障自愈功能,其SCADA系统须拥有全网的监测数据,需要将电力设备的状态数据纳入其中,这对平台的实时处理提出了更高的要求。
新型绿色能源发电功率的不稳定造成电网的波动,对整个电网调度形成很大的压力。目前电网调度与控制模型不能够处理这种大量的小型发电系统产生的波动和不可预知的行为。最新的研究表明,为支持这种情况,需要创建一种新型的电网状态监控系统,能够更加细粒度地跟踪电网实时状态。因此未来的SCADA系统需要实时处理比目前多几个数量级的监控数据。
3.2.4用电环节未来智能电网环境下,家庭可能配备多种电能、电量监测设备,用以实现低成本的用电,并与电网的负载相匹配。例如,电热水器可能会选择夜间这种用电量低谷时段运行;空调会根据用户舒适度、电价以及电网负荷等参数实时自动调整。某种程度上,我们可以认为SCADA系统进入了普通家庭,用电环节的实时数据处理变得越来越重要。
3.3异构多数据源处理技术3.3.1异构信息的整合未来智能电网要求贯通发电、输电、变电、配电、用电、调度等多个环节,实现信息的全面采集、流畅传输和高效处理,支撑电力流、信息流、业务流的高度一体化。因此,首要功能是实现大规模多源异构信息的整合,为智能电网提供资源集约化配置的数据中心。针对海量异构数据,如何构建一个模型来对其进行规范表达,如何基于该模型来实现数据融合,以及对其进行有效的存储和高效查询是亟需解决的问题。
电网各信息系统大多是基于本业务或本部门的需求,存在不同的平台、应用系统和数据格式,导致信息与资源分散,异构性严重,横向不能共享,上下级间纵向贯通困难,例如:电力系统中存在监控、能量管理、配电管理、市场运营等各类信息系统,大多相互独立,数据信息不能共享。使用云平台实现各独立系统的集成,可实现这些分散孤立系统之间的信息互通。
另外,智能电网的基础设施规模庞大,数量众多且分布在不同地点。例如:国家电网公司的信息化平台在公司总部与各个网省公司建立2级数据中心,实现公司总部、网省公司、地市县公司的3层应用。如何有效管理这些基础设施、减少数据中心的运营成本是一个巨大的挑战。
3.3.2各类电网数据的高效管理在智能电网异构多源信息融合和管理中,建立61970的信息互操作模型是很有必要的。由于智能电网中的数据类型比IEC61850所涉及的类型要多,所以应用多层知识结构和语义的方法、建立面向领域的分析模型与基于语义的服务模型是一种可选的方法。综合运用统计学习、支持向量机、相关向量机和关联规则挖掘等理论,研究异构数据融合与挖掘的集成方案以及实时挖掘算法。由于设备状态的劣化是一个由量变到质变的过程,像多年积累的油色谱这样的时序数据的挖掘更有意义,目前这种大数据挖掘虽有一些研究成果,但实用化程度不高。
3.4大数据可视化化分析技术面对海量的智能电网数据,如何在有限的屏幕空间下,以一种直观、容易理解的方式展现给用户,是一项非常有挑战性的工作。可视化方法已被证明为一种解决大规模数据分析的有效方法,并在实践中得到广泛应用。智能电网各类应用产生的大规模数据集,其中包含高精度、高分辨率数据,时变数据和多变量数据等。一个典型的数据集可达TB数量集。如何从这些庞大复杂的数据中快速而有效地提取有用的信息,成为智能电网应用中的一个关键技术难点。可视化通过一系列复杂的算法将数据绘制成高精度、高分辨率的图片,并提供交互工具,有效利用人的视觉系统,并允许实时改变数据处理和算法参数,对数据进行观察和定性及定量分析。
这方面的挑战主要包括可视化算法的可扩展性、并行图像合成算法、重要信息的提取和显示等方面。
4结论未来的智能电网将是依托大数据处理分析技术的全景实时电网。云计算为这种异构且多样化的数据提供了存储和分析的平台。平台运行一段后必然产生大数据,云平台和大数据分析将会为电力设备的状态检修、电网自愈、孤立信息系统的互通提供支持,并成为重要的候选方案,具有低成本、好的系统扩展性(存储容量无限)、高可靠性、并行分析等优势,在国际上已有几例系统投入实际运行,但在实时性、数据一致性、隐私性和安全性方面仍有不少的挑战,需要找出相应的解决方法。大数据的处理技术还很欠缺,有待人们去探索。