0 引言
随着电力企业信息系统的不断增加与完善,信息化工作重心由建设阶段逐渐向运行维护阶段过渡,信息系统运维与安全压力日益显现。但是,在传统的运维方式下信息系统运维工作主要由人工完成,部分相关运维工具由于功能分散、实用性低等问题,很难实现运维自动化处理,对系统配置也不能达到及时、准确、闭环的管理要求。尤其是对于信息系统客户密集型的呼叫行业,信息系统运维工作面临设备多、系统规模大、实时性要求高、主业运维人员和运维工具少等现实情况,需投入大量的人力进行重复、繁杂的运维工作。
针对以上问题,本文提出了从数据收集自动化、维护处置自动化、辅助决策自动化等方面开展自动化运维的工作思路,以提升运维工作的效率与服务质量。
1 数据收集自动化
对于信息系统运维而言,如何有效处理和运用运维数据已成为运维工作的重要内容。早期信息运维综合监管系统(Information Management System, IMS)通过手工录入的方式进行数据的电子化管理,但随着运维工作的不断发展,数据来源不断增多,如手工填写的纸质数据、监控系统自动采集的数据、分析统计数据等,使得要做好自动化运维工作就必须要先做好运维数据管理工作[1]。本文提出的数据收集自动化方案主要包括运维监控自动化、巡检自动化及维护事件处理自动化。
1.1 功能架构
1)运维监控自动化。充分利用已部署的动环监控、BTIM、呼叫平台预警监控、运维审计等辅助支撑系统,对包括机房基础环境、网络安全设备、数据库中间件、主机服务器、应用服务等进行全面监控,重点实现监控数据存储及预警机制集中存储,利用安全接入平台、隔离装置实现不同网络区域监控数据的互联互通[2]。为实现运维自动化,需对现有监控系统的数据进行集中存储,建立安全的网络互联环境和统一预警机制,并实现对监控数据的二次利用和分析。
2)巡检自动化。现阶段电力企业信息系统巡检工作主要通过纸质巡检表单进行日常及深度巡检,且巡检数据没有得到有效分析和利用。针对这种情况,应开展巡检无纸化、移动化及数据电子化工作,通过移动终端实现巡检,并对巡检数据进行电子化存储,提高巡检质量,降低资源消耗,充分利用巡检数据进行分析,为故障预判做好数据积累。
3)维护事件提醒自动化。目前电力行业信息系统维护事件提醒主要利用各类监控系统通过声光报警的方式在各自系统页面给出,值班人员确认后短信通知相关人员。为降低人工劳动强度,应建立统一管理平台对维护事件进行统一提醒,并以邮件、短信、电话等方式自动发送通知,减少人为干预。
1.2 关键技术
运维数据处置包括数据采集、汇总、存储等环节,由于电力系统各单位运维工作信息化水平不一,数据来源不同,因此运维数据必须遵循多源独立收集、格式统一整理、数据集中存储的处置思路。数据处置结构如
数据采集的关注点是通过服务收集各类格式数据,并进行电子化存储,因此针对不同的数据存储场景应采用可扩展的、标准的数据收集组件,通过数据收集组件将各个监控系统不同类型数据进行统一汇总,采用以下思路进行数据收集自动化建设工作。
通过商业软件和定制开发的方式对运维范围内信息系统进行监控,各监控系统均有一套数据存储系统[3]。为实现数据的统一存储和综合利用,需具备一套数据收集组件进行存储数据的格式转换、抽取,同时该组件支持抽取规则定制,可对抽取数据的数据量、数据种类、转换格式、源端、目标端进行复制。数据收集组件如
由于存在监控系统未完全覆盖所有应用、服务和设备的情况,应提供数据采集Agent对专用设备和服务进行监控及数据采集,提供移动巡检应用,实现巡检工作的无纸化和移动化,利用现有安全接入平台进行移动终端接入,确保应用安全可靠。
在运维数据全采集后,形成的数据将会是海量数据,数据库必须具备高可扩展性、高并发性、高可用性等特点,传统数据库存在性能瓶颈,不能有效支撑对运维数据的集中分析和运算,因此需采用分布式数据库[4]。分布式模式如
运维事件提醒主要是告警提醒,以声光、邮件、短信、电话等方式自动发送,减少人为干预。部分系统自带通知功能,但存在误报情况,且发送内容不能集中管理,需通过人工编制发送短信。因此,本文通过开发运维事件处理集中提醒处置功能,可对告警事件进行集中管理,创建标准事件库,实现通知内容的自动生成功能[5]。集中处置流程如
2 维护处置自动化
维护处置自动化主要包括现场事件处置自动化、配置变更自动化监测和故障诊断自动化,可以节省大量人力成本。
2.1 现场事件处置自动化
现有系统多采用B/S结构,缺少灵活、强大的自动信息采集策略,不能适应新技术发展的需求,且与大部分应用系统存在冲突,运行维护容易导致服务中断,影响服务的持续开展;缺少可视化运维支撑手段,不利于服务受理人员第一时间分析处理问题;通过电话沟通事件情况,导致沟通成本高,不能满足对实时性的要求。目前,通过桌面异常上报工具进行问题的收集及处理,可有效推动桌面异常处置的效率和水平,但存在对桌面工程师个人能力水平依赖性较高的问题。针对以上情况,建立现场异常处置知识库并与现有工具及应用进行有效结合,通过知识库自动关联给出问题的解决方案,可减少对人员素质的过度依赖,解决系统处置标准不一致的问题[6]。现场事件自动化处置过程如
现场事件处置自动化充分体现了现场运维工作的建设思路,主要涉及座席端、运维端及数据服务3个部分。现场处置模块划分如
现场处置模块涉及的主要功能如下。
1)座席端的设计充分考虑了异常事件特点,可自动完成软电话日志、系统日志、网络配置等基础环境信息收集,并进行自适应截屏,将座席人员人工工作量减少到最小。
2)在上传异常事件后,可在数据服务端自动关联展示座席人员组织、空间、业务关系等信息,自动分析历史事件,提高了运维人员信息收集的效率。
3)运维人员通过运维端可多维度查询异常事件,快速浏览截图、日志等信息,为准确定位问题、快速恢复服务提供有力支撑。
2.2 配置变更自动化监测
目前电网企业信息系统运维配置管理工作主要通过文档进行台账及配置信息管理,配置管理需要过多的人工干预,无法达到及时、准确及闭环的管理要求[7]。针对这种情况,可建立配置库管理应用,与涉及变更的检修、上下线等运维流程进行关联,同时通过代理应用实现对各类配置对象的实时监测机制,自动对配置库的变化进行监控、记录与管理。
要实现配置管理自动化,必须建立配置管理数据库(Configuration Management Database,CMDB),配置管理的粒度越细,管理难度越大[8]。要达到配置管理自动化的目标,就需建立配置管理模型,即配置管理包括哪些配置项及配置项之间的关系。配置项应包括:联系人、机房、机柜、电源、存储、主机、操作系统、授权、个人电脑、打印机、网络接口、网络设备、安全设备等。要做到配置管理自动化,首先要自动侦测IP地址范围内哪些IP需要激活,定义设备类型及依赖关系和影响范围;配置连接权限、连接协议和关键配置信息,实现关键配置(如文件、参数、程序版本)[9]定义扫描规则,定期扫描配置信息,对变更配置自动生成待处理任务,并进行确认处理;同时应支持图形可视化影响范围和依赖关系展示,通过查询历史版本,实现差异对比分析。
2.3 故障诊断自动化
目前大部分企业在故障诊断自动化方面无应用系统支撑,为实现故障诊断自动、及时、准确的目标,通过建立一套诊断处置策略,诊断代理自动分布式地收集日志信息,利用诊断策略对收集的信息进行集中分析,自动给出故障诊断情况及处置方式[9]。
故障诊断一般依赖于日志信息,一般通过日志可直观判断异常发生的原因。因此要实现故障诊断,首先要实现设备关键日志的收集、分析和存储,并通过异常代码自动关联处置方案,利用Agent执行处置脚本,实现异常的自动处置和诊断[10]。
3 辅助决策自动化
通过人工效能分析、运行健康分析、运行方式分析等方式进行辅助决策支撑,可改善目前需投入大量人力进行运行日报、周报、月报及异常分析报告等运维分析工作的现状。通过建立一套报告定制系统,可定制规则,与各监控系统进行整合,自动关联运维数据,自动生成相关运行报告,最终实现提高报告质量的目标[11-12]。
辅助决策自动化功能在运维数据集中管理和配置数据正确、完