说起大数据,人们并不陌生,从1981年第一个数据仓库诞生至今,近40年的历史使得大数据深入到各行各业,而国内企业数据平台的建设大概从90年代末就开始了,从第一代架构出现到现在已经经历了20年的时间。
从相关数据可以看出,大数据时代数据产生的价值越来越大,基于数据的相关技术、应用形式也在快速发展,开发基于数据的新型应用已经成为信息化建设的一个重点领域。当前各大厂商、用户都在探索与数据相关的开发技术、应用场景和商业模式,最终目的就是挖掘数据价值,推动业务发展,实现盈利。
然而,在实际应用中,很多预期目标无法达成。人们通过分析发现,问题根源在于数据的质量问题,大数据是为了挖掘数据价值,而这有一个前提条件,那就是数据必须真实有效,否则,再好技术也无济于事,用数据领域的经典话语说就是:Garbage in Garbage out(垃圾进垃圾出)。
正因如此,数据治理呼之欲出,而数据治理,正是保证数据质量的必需手段,从全球范围来看,加强数据治理提升数据质量已成为企业提升管理能力的重要任务。
难点:不可控因素众多
虽然大数据在不断发展,各行各业也无比重视数据价值的挖掘,但到目前,很多企业的现状依旧是随处可见的数据不统一,难以提升的数据质量,难以完成的数据模型梳理等,这些源源不断的基础性数据问题,限制了企业的数据价值挖掘,导致数据应用不能在商业上快速展示效果。
而单就从数据本身出发,也可以分析出为何数据治理难度巨大。
其一是数据不可知。用户不知道大数据平台中有哪些数据,也不知道这些数据和业务的关系是什么,虽然意识到了大数据的重要性,但平台中有没有能解决自己所面临业务问题的关键数据?该到哪里寻找这些数据?
其二,数据不可控。数据不可控是从传统数据平台开始就一直存在的问题,在大数据时代表现得更为明显。没有统一的数据标准导致数据难以集成和统一,没有质量控制导致海量数据因质量过低而难以被利用,没有能有效管理整个大数据平台的管理流程。
其三,数据不可取。用户即使知道自己业务所需要的是哪些数据,也不能便捷自助地拿到数据,相反,获取数据需要很长的开发过程,导致业务分析的需求难以被快速满足,而在大数据时代,业务追求的是针对某个业务问题的快速分析,这样漫长的需求响应时间是难以满足业务需求的。
最后是数据不可联。大数据时代,企业拥有着海量数据,但企业数据知识之间的关联还比较弱,没有把数据和知识体系关联起来,企业员工难以做到数据与知识之间的快速转换,不能对数据进行自助的的探索和挖掘,数据的深层价值难以体现。
这几个因素不仅是数据治理的拦路虎,也是数据治理必须解决的难题。换言之,数据治理是一项长期系统工程,贯穿于整个数据生命周期,不仅需要借助技术手段,更需要完善数据治理制度,包括规划、组织、机制、规范、流程等,只有一个组织全员重视和积极参与,逐步形成数据治理文化,数据治理才能取得成效,数据才能发挥更大的价值。
途径:管理与技术相结合
可见,数据治理并不是一个新生事物,有数据的地方就存在数据治理,只不过随着数据应用的迅猛发展将它提到了一个高度,作为一个独立的研究领域。
从目前行业发展来看,数据治理还未有标准的、严格的定义,概况地讲,所有为提高数据质量而展开的业务、技术和管理活动都属于数据治理范畴。