大数据安全背景
大数据时代,社会信息化和网络化的发展导致数据爆炸式增长,全球数据量大约每两年翻一番,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。大数据技术,悄然渗透到各个行业领域,逐渐成为一种生产要素发挥着重要作用。然而,大数据技术使得产率提高和生活方式改变的同时,随之而来的安全挑战已无法忽视。
2017年4月,全国信息安全标准化技术委员会2017年第一次工作组"会议周"在武汉召开。会上,《大数据安全标准化白皮书》正式发布。
《大数据安全标准化白皮书》由中国电子技术标准化研究院、清华大学、四川大学、阿里云计算有限公司等25家企事业单位共同编制,重点介绍了国内外的大数据安全法规政策、标准化现状,重点分析了大数据安全所面临的安全风险和挑战,给出了大数据安全标准化体系框架,规划了大数据安全标准工作重点,提出了开展大数据安全标准化工作的建议。全国信息安全标准化技术委员会将积极推动产学研用单位参与大数据安全标准化工作,开展大数据安全标准的研制,为大数据产业安全有序发展提供标准化支撑。
通过对当前典型大数据应用场景以及大数据产业发展现状进行调研分析,大数据安全挑战是由于其他差异而产生的。大数据环境和传统数据环境之间的差异包括:
大数据收集,汇总和分析
用于存储和容纳大数据的基础架构
应用于分析结构化和非结构化大数据的技术
由于优先考虑的是为大量数据提供速度,所以安全性通常放最后考虑;因为没有对数据进行特定的分类存储和传输。从而导致不同技术的整合引入了新的安全挑战,产生了安全隐患。在大数据系统支持关键基础设施的情况下,安全必须考虑在内。由于大数据系统是复杂且异构的,所以安全保障必须是整体性的,以确保服务的可用性和连续性。
在整个大数据平台建设过程,从大数据应用中产生的各种问题,我们总结了下文中的各个需求,具体情况如下:
大数据平台建设示意图
运维入口:
开发人员账号混用、操作无详细记录、高危险误操作无法控制、敏感数据泄露。
应用入口:
敏感数据泄露、数据访问无详细记录、应用冒名访问开放接口。
典型的行业大数据安全挑战
大数据技术在行业中的应用越发的广泛,所暴露出来的大数据安全问题,越发严重。以下是对部分行业调查分析。
电子政务
政务大数据覆盖行业范围广泛、数据结构多样、关联关系复杂,而且涉及大量个人隐私数据、国家敏感数据等重要数据,因此在开展政务大数据应用的同时,数据和平台安全尤为重要。电子政务大数据面临的安全风险和挑战主要包括:
1) 平台安全
大数据平台是政府使用数据资源的基础平台,平台安全是保障政府安全可靠利用数据资源的基础。大数据平台除了面临传统的恶意代码、攻击软件套件、物理损坏与丢失等安全威胁外,由于自身架构要根据政府业务需求和安全要求变化不断改进,因而产生传统的身份认证、数据加密手段适用性问题。
2) 服务安全
构建基于互联网的一体化公共服务平台,面向公众提供基于大数据的便民服务,是落实国家推进国家治理体系和治理能力现代化、建设服务型政府要求的重要任务。基于互联网建设的政务在线服务窗口,是政务大数据为社会公众服务的重要组成部分,便捷的互联网应用环境下,在提质增优公共服务的同时也为便民服务带来严峻的安全挑战,需要应对基于Web 的攻击、Web应用程序攻击/注入攻击、拒绝服务攻击、网络钓鱼、用户身份盗窃等威胁,抵御信息泄露、网络瘫痪、服务中断等安全风险。
3) 数据安全
各部门在开展业务和对政务大数据进行开发利用的同时,数据自身安全非常重要,涉及数据生命周期各阶段相关的数据采集、数据传输、数据存储、数据处理、数据交换、数据销毁等活动。政府部门数据公开、行业间以及行业内部数据平台化共享时的数据安全,是迫切需要解决的问题, 是大数据资源实现开放共享、相关"数据掘金"应用得以发展的关键。
4) 数据确权问题
政务数据的所有权、使用权、管理权涉及多个部门,特别是政府授权社会资本方搭建的公共服务系统所产生的数据,涉及个人隐私、国家经济命脉,在进行大数据分析中,必须做到权责分明,厘清数据权属关系,防止数据流通过程中的非法使用,保障数据安全流通。但是,目前数据权属仍缺乏法律支撑,数据使用尤其跨境流动所产生的安全风险日益凸显。
5) APT 攻击防御
APT是黑客针对客户所发动的网络攻击和侵袭行为,是一种蓄谋已久的"恶意网络间谍威胁"。这种行为往往经过长期的经营与策划,并具备高度的隐蔽性。APT攻击以窃取核心资料为目的,对政府部门大数据应用产生重大安全威胁,因此必须在政务大数据中高度防范此类攻击。
健康医疗
作为典型的实践科学,医学中有很多知识来源于经验积累。而目前经验积累的最直接、客观的体现就是"数据"。因此,利用健康医疗过程中产生的海量数据,开发其潜在价值,使其助力健康医疗事业的发展,成为医疗行业、技术研发领域等相关有识之士共同努力的目标。健康医疗大数据在促进业务发展的同时,面临的安全挑战主要表现在:
1) 数据权属不清
健康医疗大数据起源于个人患者本身,那么数据权属到底是属于个人、还是产生数据的医疗机构一直没有定论;另外,第三方机构在原始数据基础上挖掘延伸出的新数据,其归属权也没有明确规定。
2) 应用复杂性高
目前各地区和机构在进行健康医疗领域信息化建设时大都根据自身需求建立独立的信息系统,这些信息系统架构各异、数据格式不同,导致数据在安全共享、交换和处理时的复杂度大幅提升。
3) 个人隐私保护难
健康医疗数据中包含特别敏感的个人隐私信息,必须依法进行管控和保护;对涉及健康医疗数据的管理要以相应的法律法规做指导,在进行健康医疗数据的收集、存储、挖掘等应用时,需要解决个人隐私保护的难题。
电商行业
电商行业作为基于互联网技术衍生的新型业务,积累了大量商家数据、买家数据、商品数据,以及在买卖交易过程中产生的订单数据、交易数据和用户行为数据等。借助大数据技术发展契机,电商行业也开始了大数据时代的转型。电商行业基于长期积累的海量数据,开始在不同业务方向利用大数据技术分析、挖掘数据价值。电商行业大数据在促进业务发展的同时,相应的安全挑战也随之浮现,主要表现在:
1) 数据权属不清
电商业务的开展主要包括电商平台、商家和消费者三方,电商业务产生的数据如何划分其所有权、控制权和使用权,是在电商业务中合理使用数据的前提。当前电商业务的大数据应用中,通常利用电商平台对数据进行分析,也存在商家或商家授权独立软件提供商使用商家数据进行分析的情况,在权利归属不明确的情况下,责任的归属也难以界定,相关数据安全难以保障。
2) 大数据聚合分析风险
电商业务的大数据应用涉及对消费者相关的数据分析,虽然可以通过隐私保护政策、用户授权协议的形式获取相关数据的使用合法授权,而且在对电商业务分析的过程中也会采用匿名化处理的方式,保证用户的个人信息安全。但是,在对大数据加工计算的过程中,如何保障不会因为大数据的聚合分析而实现"去匿名化",依然是亟待解决的难题。
3) 数据版权保护
电商生态圈内的数据流动和共享较为普遍,目前主要通过法律协议方式约束对数据的使用。但由于缺乏有效的数据版权保护技术手段及措施, 难以甄别是否存在超出范围的数据扩散或使用问题。
4) 数据跨境安全
目前国家大力支持跨境电商业务,而跨境电商业务必然涉及数据的跨境问题。不同国家和地区的数据保护法规对数据跨境流动的要求存在差异性,比如俄罗斯明确提出俄罗斯公民的数据应在俄罗斯境内更新后方可传到海外进行处理;欧盟则扩大了数据保护法律适用的管辖范围。这些法规将给跨境电商企业带来高昂的合规成本,制约了跨境电子商务的发展。如何处理数据跨境安全合规与跨境电商战略发展的矛盾,是亟待解决的难题。
电信行业
电信运营商拥有大量的数据资源,如网络信息、用户终端信息、用户位置信息等,同时电信行业近年来利用大数据进行深度挖掘分析,将丰富的网络、用户等数据资源加工抽取后封装为服务,向客户提供。大数据给电信行业带来新的发展机遇,电信运营商借助已有的数据积累优势,不断发展大数据应用,但同时数据的集中管理、数据对外开放等新技术特点和业务新形态应用,也使电信行业大数据面临新的安全风险和挑战,主要包括:
1) 供应链安全
通信数据在移动网络设备中产生,而这些设备是由多家供应商提供。同时,存在大数据平台系统第三方供给代建设、代维护等问题,在特定阶段,部分设备的操作权在供应商手中,这意味着供应链的各环节存在安全风险。
2) 数据集中管理
在大数据业务应用发展的驱动下,电信运营商的数据由原来的各系统分散存储转变为大数据平台集中存储模式,大数据资源的安全风险更加集中,一旦发生安全事件将涉及海量客户信息及公司数据资产。
3) 平台组件开源
大数据平台多使用开源软件,这些软件设计初衷主要考虑高效数据处理,缺乏安全性保障,滞后于电信业务发展的安全防护能力,存在安全隐患。
4) 敏感数据共享
在电信运营商内部信息系统建设相对分散,敏感数据跨部门、跨系统共享留存比较常见,其中一旦存在系统安全防护措施不当,均可能发生敏感数据泄漏,造成"一点突破、全网皆失"的严重后果。
大数据应用安全实践
我们在推广大数据应用的同时,大数据的安全问题不容忽视。需要推动大数据安全关键技术和大数据安全解决方案的研究。从以上的各个行业分析情况来看,各个行业大数据安全问题大同小异,主要存在:认证,授权,审计,加密等方面的安全管控问题,合众大数据安全管控系统(以下简称:DSM系统),实现了可视化的大数据平台用户管理,网关代理配置及自动化部署,权限、脱敏规则配置,告警通知配置及展示,审计日志展示及报表展示功能等,实现在网关上对用户访问大数据平台组件做用户鉴权、权限控制、数据脱敏、安全审计等的功能,以满足客户大数据平台自身安全管控的需求。
DSM架构图
DSM总体目标是实现大数据平台的用户安全和数据安全,用户安全是指访问大数据平台的用户,其身份认证的安全、权限控制的安全,保证合法的用户能够访问大数据平台上指定的组件和数据。数据安全是指存储在大数据平台上的数据的安全,包括数据全生命周期的整体安全,包括数据源的安全、数据加密、数据脱敏、数据访问的审计等方面。
典型案例分析
电信,联通,移动三大运营商通过了大数据安全管控系统,实现的是Hive、HBase、Impala、Spark SQL的网关,利用代理式网关访问后端数据平台实现灵活的数据脱敏等安全防护功能:
限制了所有人员及应用程序对Hive、HBase、Impala、Spark SQL的访问,网关能够对访问行为进行鉴权及数据脱敏,防止恶意用户即程序访问大数据平台进行非法操作。
网关引擎是部署在大数据平台数据库组件与应用之间,可以将网关当作大数据平台的一层防火墙,外部攻击首先需要冲破网关的保护才能进一步攻击大数据平台,增加恶意用户的攻击难度。
在网关侧实现了对Hive、Impala、Spark SQL、HBase的实时数据脱敏功能。实时脱敏技术是通过网关解析内部协议,与应用层无关,因此不影响上层应用开发。
通过大数据管控平台DSM解决了运营商行业所面临的大数据安全管控问题,未来随着大数据安全诉求的增加,将在电力、金融、电子商务、军工等行业进行部署,实现各个行业的大数据平台得到安全管控,保护大数据系统安全,业务安全,数据安全。