0 引言
电力信息通信网作为电力系统的专用网络,作为支撑电力系统的“三大支柱”之一,保障着电力系统生产的安全、稳定运行[1]。在电力信息通信行业中,故障风险发生具有强耦合性,当某个信息设备或者系统受到的故障破坏、恶意攻击时,会使得大量终端设备的采集功能、监测能力受到影响,进而造成电力系统物理空间设备无法正常运行[2]。
虽然目前电力信息通信技术发展迅速,近年来建设了多个电力信息运维监测和管理系统,为电力系统运维工作提供了强大的支撑,但电力信息通信网络中的运行数据采集缺乏统一有效的手段,数据全面性、准确性以及效率都有很多不足,并且各种监控告警信息非常分散,导致信息通信运行中发生的问题往往只能被动响应,无法通过基于业务系统基础架构、信息系统实时运行状况和历史运行状况的信息系统风险预警模型进行运行故障的全面监测与趋势预测,严重影响了业务的正常开展。
在大数据时代,随着电网信息系统架构的不断扩展,IT设备的数量越来越多,网络也变得更加复杂,信息通信系统中的状态数据、运行数据以及故障数据等体量越来越大,且具有典型的大数据特征[3],如果数据未经过处理,则对运维没有任何意义和价值。综合运用大数据采集技术、实时数据流处理技术、关联分析挖掘技术、状态评估技术、趋势预测及风险评估技术,建立科学的分析模型,实现信息通信风险态势全面感知、运维数据全面分析、运维风险实时预警,达到在故障发生前解决问题的主动运维效果,有助于提升信息通信故障监测和风险预警能力,对提高信息通信系统的安全性、稳定性及其服务能力具有重要的理论价值和实际意义。
1 国内外研究现状
1.1 国内外大数据技术研究现状
在学术界,《Nature》早在2008年就推出了“big data”专刊,从互联网技术、超级计算、生物医学等方面来专门探讨对大数据的研究[4];2011年5月,全球知名咨询公司麦肯锡发布了“Big data: The next frontier for innovation,competition and productivity”的报告[5],首次提出“大数据”的概念;世界经济论坛(World Economic Forum)2012年发布并指出了大数据的发展为世界带来的新机遇[6];美国政府在2012年3月29日发布了“大数据研究发展倡议”,正式启动“大数据发展计划”[7];2012年
7月,日本推出“新ICT战略研究计划”,其中重点关注大数据应用,将大数据定位为战略领域之一[8]。
在应用界,谷歌公司在2009年通过对人们在网上检索的词条与疾病中心的数据进行分析处理,及时地判断出流感的传播来源,为公共卫生机构提供了有价值的信息;美国最大的西奈山医疗中心使用来自大数据创业公司Ayasdi的技术分析大肠杆菌的全部基因序列,包括超过100万个DNA变体,来了解为什么菌株会对抗生素产生抗药性;美国俄亥俄州运输部(ODOT)利用INRIX的云计算分析处理大数据来了解和处理恶劣天气的道路状况,减少了冬季连环撞车发生的概率,方便了人们的出行。
大数据技术描述了一种新一代的技术和构架,用于以很经济的方式,以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值。国外的大数据研究工作主要集中在如何进行大数据存储、处理、分析、管理的技术及软件应用上。经过多年的研究和发展,已有很多优秀的挖掘方法,其中常见有路径分析、关联分析、序列模式、分类分析、聚类分析以及统计分析等[9]。目前的大数据平台以Hadoop为主,其可以有效解决传统日志系统无法处理海量日志数据的问题,但Hadoop并不擅长处理实时应用,主要采用离线处理方式[10]。基于Hadoop的实时处理应用目前还比较少,采用流处理数据对日志数据进行处理是未来的发展趋势[11]。
1.2 国内外信息通信数据智能分析技术研究现状
在学术界,近年来信息通信数据智能分析方面已有很多相关研究成果:文献[12]从在控制与监控方面入手建立了功能失效模型,提高了电力通信网络的可靠性;文献[13]、文献[14]分别从业务和通道段业务的风险度角度出发,构建了基于电力通信网业务风险均衡度的评估模型和相应的评估指标,以提高业务系统的可靠性。上述文献对传统网络或电力信息通信网络的风险评估、可靠性进行了研究,但均未从大数据的角度对信息通信网络风险、预警技术进行研究,该方面的研究在国内外均处于起步阶段。本文主要对电力信息通信网络风险、预警技术进行研究,结合先进的大数据相关技术,设计了一套大数据信息通信预警平台、风险预警和数据处理架构,并利用电力行业各单位之间的通信流量数据进行危险预警架构合理性及算法有效性验证。
在应用界,国外对信息通信数据智能分析的研究起步较早,包括很多行业规范和技术都是起源于各厂商。国内虽然对信息通信技术的研究起步较晚,但是由于国内软件技术水平的飞速发展和技术资源的开放性越来越高,为国内的信息通信数据管理技术发展带来了生机和活力。基于现代大数据分析技术、自动测量技术、自动控制技术、计算机应用技术及相关的专用分析软件形成的信息管理技术已经广泛应用于各行各业。目前国内比较成熟的产品包括北塔、东华、神州泰岳、摩卡、泰豪等公司的IT运维监控管理系统,其对数据中心涉及的应用服务器等设备进行数据采集和监控,结合一些安全阈值实现故障的告警。不足之处是均为被动的告警运维,缺乏主动预警效果,不满足智能电网的发展需求。
2 基于大数据的电力信息通信风险预警架构研究
2.1 基于大数据电力信息通信风险分析及预警架构
Hadoop和Spark作为开源的大数据处理平台,近年来得到了快速发展,出现了许多相关应用与解决方案。Hadoop支持大规模集群操作,在集群上可以方便地增加多至上千个节点进行并行计算,其计算速度会随着集群数量相应增加,可解决传统日志分析系统无法处理海量日志数据的问题[15],但Hadoop并不擅长处理实时应用。Spark是一种与Hadoop相似的通用并行计算框架,是对Hadoop的补充,它采用内存并行计算技术与流式处理技术,在实时处理方面表现得更加优越[16]。本文针对电力通信特点所设计的大数据分析平台架构采用了Spark的并行计算及流处理技术。电力通信大数据分析平台架构如
图1 电力通信大数据分析平台架构Fig.1 Analysis platform architecture of power communication big data
2.2 基于大数据的电力信息通信数据处理
电力信息通信大数据处理架构如
图2 电力信息通信大数据处理架构Fig.2 Big data processing architecture for power information and communication
基于大数据的信息通信风险预警架构如
图3 基于大数据的信息通信风险预警架构Fig.3 Information communication risk early warning framework based on big data
2.3 基于大数据的电力信息通信趋势预测
趋势预测可利用数据本身的变化情况以及外部需求因素的影响规律进行分析和研究,在对故障的产生原因与传播不建立复杂模型的情况下,实现对信息通信需求的估计和预测。由于信息通信网络容量具有不确定性的特点,预测工作一般必须在一定的条件下才可进行。
本文考虑了两种时间序列预测模型:ARIMA模型和Holt-Winters模型。其中ARIMA (
由公式(2)—公式(4)可得预测公式如下:
由公式(6)—公式(8)可得预测公式如下:
图4 某年7月8日-9月5日期间的总流量曲线Fig.4 Total flow curveduring from July 8th to September 5th
将原始数据中工作日的流量数据提出单独分析并做预测。工作日的流量数据曲线如
图5 工作日的流量数据曲线Fig.5 Working day traffic data curve
上述模型编程使用R语言完成
