2.2 电力大数据技术体系
2.2.3 数据集成管理技术
数据集成管理是把不同数据源的大数据 (包括结构化、半结化和非结构化的数据 )收集、整理、清洗、转换后,加载到一个新的数据源,并对这些数据源实行集中管理 ,对外统一提供服务的大数据集成方式。数据集成管理技术包括大数据连接器技术和 SQL-MapRcduce 技术。
(1 )大数据连接器技术
大数据连接器技术是用于在传统关系数据库和分布式处理系统之问相互传输信息,从而实现大数据数据源的相互转化并为大数据分析提供便利的一种数据集成管理技术。
大数据连接器技术的技术优势主要体现在以下五个方面:
1)将关系数据库服务器的压力转移至分布式处理系统集群,加大数据分析处理速度。
2)充分利用分布式处理系统集群进行数据分析处理,提高系统资源利用率。
3)为大数据数据源提供统一的转化方式,改进开发和集成效率。
4)海量非结构化的数据经分布式处理系统处理后形成少量结构化的分析信息并加我至关系数据库,形成报表和智能分析。
5)技术成熟度比较高,各大数据库厂商、数据仓库厂商都有相关的研发产品。
(2 )SQI-MapReduce技术
SQL- MapReduce技术是指将传统的关系数据库处理技术SQL和并行处理枢架MapReduce集成一起,为两者提供相互转换方式,从而实现大数据源的高效、简单、快速分析的一种数据集成管理技术。
SQL-MapReduce技术的技术优势主要体现在以下五个方面:
1)将传统的关系数据 SQL 分析转化为并行处理的MapReduce任务,实现数据分析的分布式处理 ,提高了数据分析速度。
2)转换过程独立于数据库系统,对原有的数据库系统系统没有任何影响,具有很大的灵活性。
3)为海量数据的分布式处理提供一 种高效的编程模式和方法,提高了开发效率。
4)数据分析师可以直接利用熟悉的 SQL 技术来分析大规模海量数据,从而提供透明的数据分析平台。
5)支持海量数据分析,克服传统数据库和数据仓库处理数据量限制的问题。
书名:电力大数据:能源互联网时代的电力企业转型与价值创造
ISBN:978-7-111-51693-4
作者:赖征田
出版日期:2016-01
出版社:机械工业出版社