2.2 电力大数据技术体系
前面所述的国内外各个厂商均在大数据技术的发展过程中做出了突出的贡献。其中,涉及大数据存储、计算的具体技术,诸如 NoSQL数据库技术、HDFS 分布式文件存储系统、MapReduce分布式计算技术等,这些技术将成为大数据技术在电力领域中应用的典型技术基础。涉及大数据分析平台开发技术的,诸如 Hadoop 平台、HANA平台等的架构,将是开发适用于电网公司大数据分析处理平台的蓝本。而大数据技术在工商业领域应用的案例,如中国移动公司投诉智能识别系统、百度疾病预测、阿里巴巴淘宝客户行为分析平台等的应用,将为电力领域高级应用的开发提供宝贵经验。因此,电网公司大数据技术的架构将依托这些国内外厂商的技术集合开发而成。
2.2.1电力大数据技术架构
电力大数据技术架构不是面向具体功能的,而是面向全部需求的需求(元需求),关注设计的设汁(元设计). 解决开发之共性,简化开发之过程,提供应用之舞台,可谓应用之母。架构是体系化的,完备的。能够满足一类软件全部元需求的运行平台和构建平台,具体功能运行于其上,可以做到一通百通。大数据技术通过近些年在各行各业的普及和发展,逐渐形成了各具特色的技术架构。例如,Oracle 的大数据一体用的是以 Hadoop分布式数据库为基础,通过大数据连接器在 HDFS 与Oracle 的 NoSQL 数据库之间建立链接,形成数据捕获、数椐组织、数据分 析的三层技术架构。而对于IBM 公司的大数椐架构则是以数据整合与治理层为信息集成层,Hadoo生态系统、流式计算、数据仓库为相互协作的数据处理分析层,再往上为数据可视发现、流计算、系统管理的应用基础层,最上方则是具体的分析应用层。
通过对这些典型大数据厂商所采用技术架构的分析和研究,我们总结出了典型的大数据技术架构,即以 Hadoop 生态系统为蓝本的,包含数据存储层、数据管理层、数据计算层、数据应用分析层的四层典型技术架构。
图 2 - 1 大数据的四层典型技术架构
在最底层的数据存储层中,通常包含HDFS分布式文件存储系统、非关系型数据库,若有实时性的数据需求,在此层中还可以配置具有极高数据处理速率的内存数据库。
对干数据管理层,其目的是为了协调下层各种类型数据库间的数据流动和协调配合问题. 例如大数据连接器技术用于在传统关系数据库和分布式处理系统之间相互传输信息,从而实现大数据数椐源的相互转化,并为大数据分析提供便利。
对于数据计算层,则主要包含实时计算、批量计算和流式计算三种主要的计算模式,以满足各种计算需求。
最上层的应用分析层则包含数据可视化技木、数据分析挖掘技术、模式识別技术和图像处理技术等。
书名:电力大数据:能源互联网时代的电力企业转型与价值创造
ISBN:978-7-111-51693-4
作者:赖征田
出版日期:2016-01
出版社:机械工业出版社