2.2 电力大数据技术体系
2.2.2 电力大数据关键技术
大数据所涉及的关键技术主要包括:数据集成管理技术、数据存储管理技术、高性能计算技术和分析挖掘技术,具体技术内涵以及范畴见表2-1。
表 2 - 1 大数据的关琎技术及其内涵与范畴
(1 ) 数据集成管理技术
是指将不同数据源的大数据(结构化、半结构化、非结构化)收集、整理、清洗、转换以后加载到一个新的数据源中,并对这些数据源实行集中管理,对外部访问统一提供服务的数据集成方式。数据集成管理技术包括数据融合和集成技术、数据抽取技术、数据消洗和过滤技术,具体是指电力数据ETL( Extract、Transfer和Load,即提取、转换和装载 )、电力数据统一公共模型等技术。电力数据质量本身不高,准确性、及时性均有所欠缺,这也对数据处理技术提出了更高的要求。
(2 ) 数据存储管理技术
数据存储管理是指将大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问。电网数据结构各异,结构化与非结构化数据并存,在应用实时性需求上存在着非实时性和实时性需求的数据。因此,需要协调不同功能需求的数据库协同存储管理海量电网数据。
(3 )高性能计算技术
包括分布式计算技术、内存计算技术、流处理技术,具体是指电力云、电力数据中心软硬件资源虚拟化等技术。近几年电力数据的海量增长使得电力企业需要通过新型数据处理技术来更有效地利用软硬件资源,在降低IT 投入、维护成本和物理能耗的同时,为电力大数据的发展提供更为稳定、强大的数据处理能力。
( 4 ) 分析挖掘技术包括数据挖掘、机器学习等人工智能技术,具体是指电网安全在线分析、间歇性电源发电预测、设施线路运行状态分析等技术,由于电力系统安全稳定运行的重要性以及电力发输变配用的瞬时性,比其他行业,电力大数据对分析结果的准确度要求更高。当然,大数据技术是一系列技术的集合。在电力大数据事业推的过程中,电力企业可以借鉴图表中所示不同大数据技术的成熟程度以及成熟时间,并结合自身实际需求,合理开展电力大数据实践,使大数据在电力行业中其正落地。