0 引言
数据在信息化时代至关重要,价值堪比“石油”[1]。如今,一个大规模生产、分享和应用数据的时代方兴未艾。在大数据时代,要让企业在未来竞争中保持优势,务必要将数据上升到资产的高度来进行管理[2]。大数据发展的关键,在于数据的“流动性”和“可获取性”。因此,未来企业的核心竞争力将很大程度上取决于对数据的运用、处理及转换能力。
企业数据资产是指由企业产生和从外部获取的,能够记录、反映企业运营活动的各种形态的,能带来未来经济利益的数据资源[3]。结合电网企业数据特点,电网数据资产划分为结构化数据、非结构化数据、采集量测数据、地理空间数据四大类,涵盖业务系统的原始明细数据、统计汇总数据和经过分析加工形成的数据[4]。
近年来,随着企业信息化建设的稳步推进,国家电网公司已经建成企业级一体化信息系统,覆盖生产、运营等各个领域,对各类业务的支撑作用日益突显。信息系统运行产生了海量数据资源,为数据深层次分析与应用创造了良好的先决条件。
国网江苏省电力有限公司从企业全局视角重新构建了数据间的综合关联与潜在联系,在实践中探索了一套可行、高效的方法,可逐步解决企业数据管理中存在的管理盲区、数据共享与应用不足、数据价值未最大化发挥等突出问题,积累、盘活数据价值,发掘信息内在规律,全面支撑企业的战略决策[5]。
1 数据资产现状
按照国家电网公司统一规划,省级电网企业通过全业务统一数据中心管理企业数据。截至2017年9月底,江苏电力全业务统一数据中心共接入ERP、PMS 2.0、EMS、营销业务应用等19套主要业务系统。其中,结构化数据约4.2 TB,可支撑业务融合和数据共享;采集量测类数据约60 TB,主要是公专变用户、接入设备数据。
经过十多年的发展,省级电网企业数据中心建设从结构化数据中心、非结构化数据中心、GIS平台、海量平台、大数据平台共存逐步发展到全业务统一数据中心,在数据集成融合和融通应用方面取得了巨大成就。但站在服务电网公司“两个一流”建设的新高度,数据资产管理还存在可视化程度不高、开放共享不够便捷、数据资产管理难度大等问题和困难。面对海量数据,还需要形成高效的管控模式和统一的管控方法,深入推进数据质量治理、共享应用和价值发挥。
2 数据资产管控模式探索
数据资产管理的主要目标是提升资产标准化、精益化、信息化管理水平,确保资产保值增值及安全完整,使资产的效能和效用达到最优[6]。数据资产管理的主要理念和方法是统筹协调资产在规划、设计、建设、运维、改造、退役处置等全寿命周期的管理行为和技术要求,实现数据资产全寿命周期内的安全、效能、成本综合最优。
数据管理体系(Data Management Association,DAMA)是目前数据管理领域较为全面的国际理论体系,定义了数据治理、元数据管理、数据质量、数据架构、数据开发、数据操作、数据安全、参考数据与主数据、数据仓库和商务智能、文档和内容管理等10个主要的数据管理职能[7]。江苏电力在充分研究DAMA的基础上,参照企业资产管理目标和全寿命周期管理的共性方法,结合电网企业数据的个性特点,提出了数据资产“全寿命周期”的概念,将数据资产划分为规划设计、创建纳管、应用运维、备份归档4个主要寿命阶段、9个主要环节[8]。数据资产全寿命周期管理如
2.1 规划设计阶段
规划设计是数据资产管控的源头,管控重点是数据业务域、数据模型和主数据,主要方法是从全局角度设计数据主题域,规划设计企业级数据模型、数据中心数据模型,明确数据资产范围、数据属性与数据资产管理标准。
江苏电力根据SG186和SG-ERP建设成果,结合公司实际业务和国家电网公司SG-CIM模型,将公司数据资产分为11个一级主题域(包含人员、财务、物资、客户、市场、资产、电网、安全、项目、综合、信通)和77个二级主题域(见
针对数据模型,主要把控逻辑模型和物理模型。逻辑模型是关于业务对象、业务对象数据项及业务对象间关系的基本蓝图;物理模型是在逻辑模型基础上进行的数据库体系结构设计,支撑数据在数据库的存放。省级公司模型管控可按业务域重要等级,全面梳理各系统逻辑模型、对象清单及物理模型。物理模型设计的实现由国家电网公司统一组织,变更通过统一脚本执行;省级公司在此基础上进一步梳理业务系统物理模型,实现模型变更的持续管控。利用数据资源管理工具实现对物理模型的集中管理,对外提供统一的查询服务,支撑模型的快速定位、查询与应用需求。
主数据是企业内共享且一致的业务对象,是系统间的共享数据。针对主数据,国家电网公司出台了相应的管理办法,规范主数据新增、申请、使用、变更、运维等环节。省级公司可结合现有业务线条,在国家电网公司下发的管理办法基础上梳理并更新主数据清单,拓展主数据推送覆盖面,按照数据主题、数据对象的层级形成主数据资产清册,并逐步规范主数据使用,推进主数据在相关系统中的共享使用,充分发挥主数据制约、指导新系统设计的作用。
2.2 创建纳管阶段
在该阶段,省级公司可重点针对资产创建和资产纳管两部分开展工作。数据由源端业务系统产生,通过落实数据标准,保障数据在唯一源头系统创建,源端数据质量将直接影响到数据中心的数据质量及后续的数据应用效果[10]。数据创建后,全量抽取到数据中心,形成支撑业务分析应用的数据资产,并对数据模型进行登记纳管,清晰描述模型及属性的含义。
在数据资产创建过程中,省级公司重点把控源端数据质量。通过项目与系统架构管控,进行流程梳理和完善关键环节功能。通过架构管控工具固化公司业务流程、业务活动、岗位角色等内容,指导公司信息化项目建设,实现基于企业架构的信息化项目全过程闭环管控[11]。坚持数据质量源头治理,持续提升源业务系统数据质量,保障数据资产的质量。
按业务域情况,组织梳理各系统的输入数据,包含用户前端界面录入和智能装备自动采集等途径采集的数据,构建平台和机制对所有的数据输入源进行集中纳管,持续开展数据输入重复性检查,并组织整改治理。组织梳理各业务系统的逻辑模型、对象实体属性和物理模型,运用数据资源管理工具持续对生产环境数据库进行自动核查,保证数据资源管理工具数据模型设计与生产运行环境数据模型实际保持一致。同时,制定符合省级公司的数据字典管理工作规范,包括数据库各类数据描述的完整度要求,设计态、运行态数据字典的一致性要求,数据表、视图、字段等要素在命名、类型、注释等方面的规范性要求,以及数据字典在设计、维护、变更和使用各阶段的规范化流程管理,提升信息系统数据字典的标准化管理水平,促进数据资源的有效利用。
在数据资产纳管过程中,省级公司可将业务数据接入数据中心过程的管理分为两级数据级联接入管理及网省横向数据共享接入管理两类[12]。当业务数据接入时,数据中心使用国家电网公司公共信息模型进行统一存储,避免数据冗余存储及分散存储。对于标准模型尚未覆盖的业务共享需求,由省级信通公司统一反馈至国网信通公司,交由国网信通部评审并统一设计发布。
2.3 应用运维阶段
该阶段主要包含数据流转、数据应用、资产变更和质量管理4个部分,省级公司应以流程管理为抓手,建立健全数据共享流程、数据应用流程、资产变更流程及数据质量管理流程等,全面保障数据应用效果。
1)数据流转严格遵照数据共享规程执行。数据需求方分析新增或变更的数据需求,数据提供方负责审批,建立起部门间的数据对应关联关系。数据需求方设计数据接入技术路线和接入计划,明确数据接入范围,提出所需权限,形成数据接入方案。信息部门组织接入方案评审,确认接入数据范围、技术路线。完成开发测试后,将模型、集成关系和服务录入数据管理服务平台统一管理。
2)数据应用严格遵循应用规范。统筹数据应用需求,进一步规范数据中心所提供的各类服务,建立数据应用统一管理平台,推动数据应用成果的统一管理和分级共享,促进成果推广转化。
3)资产变更严格遵循变更流程。针对系统检修升级环节开展数据模型关系调整变更,由实施单位提交数据更新说明,导入数据资源管理工具。省级公司重点管控涉及核心业务数据的相关表和字段,重点审查数据相关业务及技术逻辑变更明细,确保数据模型持续可用[13]。
4)质量管理覆盖数据采集、传输、流转、运维全过程,保障数据的及时性、完整性和准确性。规范数据采集的内容、方法、步骤和质量标准,强化操作人员质量意识,建立实时核对制度和自动校核机制、比对工具、反馈改进流程。数据传输、运维环节应进行严格的校验检查,发现并解决传输过程中的问题,同时应建立质量稽核规则,开发稽核工具,保障稽核效率和效果。
2.4 备份归档阶段
该阶段主要包含备份归档和效能分析两类。备份归档又包含数据归档与资产归档,备份归档主要是高速复制与恢复,保障业务连续性;资产归档主要实现数据保留、长期访问与检索,保障数据的安全性。
省级公司通过备份容灾确保数据安全,江苏电力主要针对数据日常备份与数据灾备进行管控。对于一定期限内无任何使用记录的数据资产,将其从数据热区转移到历史区存档,供长久备查。同时,分析数据活跃性、利用程度,发现数据资产管控新的提升点,为新一轮数据资产规划设计提供依据,触发数据资产全寿命周期闭环迭代。
3 数据资产管控应用与成果
为高效利用数据资源,满足日益增长的跨专业业务协同与信息共享需求,国家电网公司组织开展了全业务统一数据中心建设[14]。江苏电力基于企业数据资产管控模式探索形成的“全寿命周期管理理论”,以全业务统一数据中心为载体,以具体实例说明了数据源头治理的有效性、数据创建纳管的规范性以及数据分析应用的广度和深度,借助信息化手段,实现公司数据资产的全量归集、全过程管控、全方位应用和数据资产效益的最大化发挥。
3.1 PMS 2.0数据资产梳理
江苏电力结合实际业务需求的紧迫性,在核心业务域探索开展从业务视角建立数据中心数据开放共享目录,以树型结构梳理系统逻辑模型、对象清单及其逻辑关系,打通数据模型从逻辑到物理的穿透,推动数据服务共建共享,提升数据中心的可视化程度,盘活全业务统一数据中心的数据资产价值。
以PMS 2.0系统为例,从业务层面对外提供数据资产目录和逻辑视图。PMS 2.0系统数据资产逻辑视图如
PMS 2.0系统由电网资源等11个一级目录组成。其中,“电网资源”包括站内设备等4类二级域;“站内设备”包含交直流设备等6个类别、电站等141个对象清单(见
3.2 营配调源头数据一致性治理
在资产创建纳管阶段,江苏电力着重把控数据源头的一致性,从业务和技术不同维度出发,进行数据跨域专项治理,识别语义的一致性。
营配调数据集成关系如
针对存在的困难和不足,江苏电力主要通过工具辅助开展数据治理工作,为后续数据应用奠定坚实基础。通过统推全方位辅助提升工具导出问题清单,对数据进行核查整改;通过图形质量管控工具全量拓扑分析检查全省图形质量及台账的完整性;通过自建营销稽查工具检查营配系统、数据中心、台账及其逻辑关系的一致性。
3.3 数据分析应用逐步深入
江苏电力持续发挥数据资产价值,基于数据中心和大数据平台构建了分类、聚类、关联规则、回归、时间序列等5个方面39个数据算法,支撑营销、财务、运检、运监等业务分析类应用,促进了公司分析应用的高效构建和数据共享利用[15]。
根据数据存储时间和使用频次分析“数据热度”,构建“以大数据平台为基础、HANA为关键”的混合型数据处理架构,有针对性地分类处理不同热度数据,进一步强化数据计算分析能力,实现对海量数据的快速计算和分析。
对于信息化建设中产生的大量历史日志数据,利用大数据平台对海量数据进行清洗、评估、协同过滤,通过数据挖掘算法建立信息系统运营价值指标衡量体系,实现数据的归整、优化以及高效综合利用,对应用情况进行全面汇集。利用流式计算等计算方案分析处理数据,借助回归预测分析算法实现系统信息安全治理。充分挖掘数据价值,以业务为核心,挖掘不同功能模块间的应用关联性,为信息系统建设和未来优化改造提供建议和参考。
4 结语
为加强数据资产管理,江苏电力积极探索数据资产管控模式,创新形成了数据资产“全寿命周期管理”概念、理论和方法,并通过实例验证了数据源头治理的有效性、数据创建纳管的规范性以及数据应用的广泛性和全面性。
电网企业数据资产管理涉及的全寿命管理环节多、产生和应用数据资产的部门多、数据种类多、数据量巨大,需要从管理和技术两个方面双管齐下,抓住需要管控的重点和薄弱环节,循序渐进,逐步深入。
1)在管理上,持续完善数据资产目录。组织业务部门梳理、发布源系统数据共享清单,建立全业务统一数据中心数据资产台账,梳理数据流转关系,从业务层面提供完整的数据资产目录和逻辑视图,多方位激活数据创新应用活力。
2)在技术上,持续完善数据支撑平台。借助大数据和数据挖掘等信息化手段,进一步丰富大数据算法库;研究存储智能化路由技术;在数据中心开辟数据自由探索实验区,开放使用权限,自由建立数据模型,支撑创新探索;完善数据监控功能和数据质量管理模块功能,持续提升数据质量和数据资产管理效率。
随着全业务统一数据中心的逐步深化应用,基于全寿命周期的省级电网企业数据资产管控机制逐步优化完善,数据资产将得到全面、统一、高效管控,面向全业务范围、全数据类型、全时间维度数据的统一存储、管理与服务将逐步实现,以满足日益增长的跨专业业务协同与信息共享需求,更好地为公司运营提供数据支撑,为电网发展提供数据服务。