一、概念--数据安全
人们对数据安全的恐慌其实非常厉害,甚至愈演愈烈。大家一听到精准营销、用户画像,甚至采集信息时,就觉得难以接受。然而,未来所有行业无一例外会走向精准营销,未来发展更会走到基于大数据、基于消费者最终需求的定制化服务上,定制化服务就需要用到个人信息分析,但是定制化服务一定意味着隐私被侵犯吗?其实并不是这样子。在现今误解非常厉害的情况下,很多人都谈数据色变。如果这个观念不能被纠正过来的话,金融的创新也不能发生。甚至大家对数字经济都越来越缺乏信心。
这些“热”体现在各个方面:立法热点、标准热点、产业热点、学术热点等。
(1)立法热点
在立法层面,2012年开始出现一些关于数据安全的法律,2016年发生的“徐玉玉事件”让全社会对数据安全高度重视,并推动政府层面、学术层面、产业界以及老百姓的高度重视。2016年欧盟发布的通用数据保护条例,其中非常重要的部分之一就是数据安全。不知道在座的对于JDPR有多了解,我简短地跟大家解释一下,JDPR对全社会全世界都有着巨大影响,假设欧盟出了一个东西,他规定不管你这家公司在全世界是什么样的公司,但是只要你的客户里包含欧盟公民的用户,欧盟公民用户所提的要求你不能满足的话,不管你公司在哪里,你都将面临罚款,罚款的数额可能是两千万欧元,也可能是你公司过去全球全年总盈收4%,这两个数哪个高取哪个作为罚款。
我们国家在做个人信息和重要数据出境安全评估,累计50万条个人信息的话就要评审,评审数据所去地方的法律环境、数据接收方的能力以及最后的合同条款等,我们在探索这样实施的可行性以及正确的实施方法。我们国家想推出个人信息保护法,调研跟踪60多个国家,其中大部分国家都在调整自己国家数据安全的政策,但是仍没有一个国家清楚到底该怎么做,中国亦如此。美国和欧盟也没有一家清楚到底该怎么做。
(2)标准热点
标准也是如此,这指全国信息安全标准化技术委员会。去年的数据我们已经看到非常多,以前,每年只有很少几项会列成国家的标准;而现在,每年会议非常之多,且这些都和安全相关,基本是与数据安全相关。所以这个圈子的概念在发生混乱,你发现它把什么东西都装进去。这就是专业的标准化组织。
(3)产业热点
产业界也是如此。现在产业界有很多产品转移到数据安全方面。我们保守估计中国大陆一年应该有1000亿左右的数据安全的产值,大家对安全可能不那么了解,从1996到2017年,按照保守且乐观的方式去估值,中国传统网络安全的产值大概是500亿人民币;从1996年到2018年,在数据安全领域,中国大陆一年有一千亿产值。
(4)学术热点
学术界亦如此。2015年Science杂志上有一期题为《The end of privacy》的文章很有意思。美国政府在官方层面、在全球政府层面多边合作会议上他们是不承认privacy这个概念的,因为他们很难定义privacy的概念。学术界在用这个时得到的结论是没有办法保护隐私。2015年1月30日的这一期内容是讲在过去很多情况下,我们很多产业界的公司把自己的数据进行脱敏处理之后去和学术界合作来挖掘东西,这是非常普通的做法。但是在今天都可以被别人把隐私透露出来。
技术颠覆传统隐私
健康医疗行业有大量的病历数据,例如:CT数据、X射线数据、核磁共振数据等,如果这些数据让学术机构研究,是造福人类的东西,可是从隐私保护的角度上讲,通过病例数据可以推测这是什么人。除此之外,现在的人脸识别技术、语音识别技术、声纹识别(声纹识别就好象你的指纹一样)技术以及政府无处不在的无人机和公共摄象头,在很远的地方就能直接高清拍下你的面部,我们的面部也代表个人身份。我们现在的住宅不好换、电话号不好换,虽有难度但依旧可以换,但是脸、声音、虹膜这些却没法换。总而言之,就是隐私没法保护。
威胁
1.防滥用。今天,隐私数据到处都是,但是隐私泄露会产生什么样的后果还未可知。这一切还是很“乱”。在“乱”的情况下,到底概念是什么,很多人会搞错。换言之,在“大数据安全”这几个字出来的时候,我们到底应该说什么。第一,很多人在说大数据安全时,会将它与防窃取混为一谈。比如Facebook事件,Facebook数据不是被人偷走的,Facebook数据是属于滥用。滥用是什么?针对某些数据正常的权限给到你的员工或者你所拥有的数据跟别人披露共享等,这时候你错误使用。
2.防误用。大数据是需要加工的,在做大数据加工的过程中,比如说我刚刚说的精准营销,正确的做法是至少一万个人一圈,这里面把敏感数据去掉,里面全部变成唯一的代号,整个过程中,最后到用户手里,但是整个全过程没有任何定位到个人的东西出现,这叫防误用。如果没有防误用技术的话,刚刚讲到的未来精准营销、定制化服务那真的就会泄露隐私、侵犯隐私。所以我们面对的威胁来自外部的攻击者,来自数据的控制者即你的数据放到某家公司,还包括公权力部门,你的数据放在这里,公权力部门是不是合法的在使用,因为公权力部门也有可能滥用,那么这些是我们担心的威胁。
3.防窃取。保护的东西里面包括企业自己的秘密、企业手里的个人信息以及涉及到国家安全、公共安全的信息,保护这三类数据,防止被内外部窃取、防止被泄露、防止被滥用,这才是正确的概念。
大数据时代下的数据安全
过去的数据安全是最左边,打上机密、秘密,每个上面有个二维码,全部有签收、登记,那是纯纸质化时代。到后来开始进入到封闭网络的隔离化的网络,现在国家保密局主要是这样的思路,我们有“三合一”,所有的计算机上面的,两个机器分开,内网机器加上USB口出来,防止你的违规外连、防止你乱插USB口。这是运行在一个封闭网络的。
但是在今天这些做法都不行,因为我们今天讲的数据安全是指融合在业务流程里的数据安全。你的数据是融在业务流程里,你的业务流程是开放在互联网上。如果不开放在互联网上,就没有定制化服务。在这样的环境下做,所以同样叫数据安全但完全不是过去的概念。真正的概念是大数据时代下的数据安全。徐玉玉的数据不是从大数据被偷走的,是潍坊教育局的一个小网站偷走的。越小的网站数据越精准,越容易直接用来危害别人。
搞了半天徐玉玉案件,结果说这不是大数据安全,所以我们不管。那我们在干什么呢。所以不是所谓的大数据安全不是传统的数据安全,也不是云计算安全。云计算是承载大数据的一个基础设施,它和大数据安全有关系,但是它并不等同于大数据安全。我刚刚讲了,云计算安全做的再好,能做到防滥用、防误用吗?做不到。
也不是用大数据做安全,我们所有的行业都在用大数据,安全也不例外,但是用大数据做安全不是说大数据本身安全,也不是只和大企业相关。我们今天要解决的是中国将近五千万企业他们手里的各位有关的个人数据、企业有关的企业数据、国家安全有关的国家数据的安全,刚才我讲到了,并不是说你数据很大才有价值,越小的公司其实它的数据更加精准。而且对于黑客来说人家是可以随便串起来,并不存在说我今天这里拿一个数据我就只有这么一个数据,正好相反,真正大型的云平台黑客拿数据还不那么容易,从那些小的平台反而更容易拿。
所以不仅仅是防范外部的攻击窃取,也不仅仅是个人信息保护。因为我们企业自己也有信息、有数据要保护,不能套用过去的标准或者经验,也不能照搬国外的做法。为什么不能照搬国外的做法呢?我刚才讲到,现在的大数据时代,数据安全是和业务模式密切相关的。全世界最丰富的业务模式是在中国。我们互联网创新走在了世界最前列。我们遇到的大量的场景,别的国家见都没见过,所以你也别指望他们出什么东西能够解决我们今天的问题。我们今天已经不可能也不能够再照抄国外的标准,翻一下就变成中国标准,一定不好使。反过来我们今天是有机会把我们的东西,真正搞出一个东西,告诉全世界应该是这样做的。所以这是大数据时代下的数据安全。
二、似是而非--误区&悖论
1.限制信息采集等同于隐私保护。我们在做大数据加工时,很多时候并不是事先列好公式,要得到这个结论然后拿哪几个数据,拿这几个数据一算就知道了,这不是大数据。我们大数据各种各样成功的案例都是不知道怎么出来的,所以严格地说这样做其实并不太符合大数据发展。
2.零信任。学术界有很多类似差分隐私这样的方法,简单说,你不给服务方任何的准确需求,他给你做准确需求。例如你打车,你不告诉滴滴车主你在什么位置,你给一堆模糊的东西,但是车主还必须找到你,这种就是建立在零信任上。这条路走到后面一定会看到问题,所以零信任并不等于更安全。这就出现了一个问题:我们要信任某个人,但是如何知道这个人是值得信任呢?隐私保护和数据安全,很多人把它们当成两件事,而我认为是一件事。从消费者角度出发,隐私保护即我的隐私保护。但是从服务提供商来讲是一样的,你保护好自己手里的个人信息,让它不被窃取、滥用和误用,其实就相当于保护了客户隐私。从用户的角度来讲这是不同性质的,但是从企业的角度来讲性质是一样,没有必要分开。
3.所有权和控制权。无论欧洲还是中国都在将未来数据选择权交给用户,我们不能替用户做决定,而且用户本身对隐私或者各种需求也不一样。现在我们认为数据是成本、是灾难,但是未来它是财富,即谁有这个数据,他就可以根据自己的情况来处理这个数据,而不是别人替他决定,
4.安全的目的。安全是为了保证可持续性发展,现在很多的东西都以安全的名义把发展扼杀掉了,甚至扼杀了安全。例如实名制信息,现在一个包裹需要明文要求实名制。如果我们包裹上的信息被别人盗取拍照,在黑市上可以卖10元。在中国据说90%以上这些东西全都被偷走。
三、何以解“忧”——数据安全
1.以组织为单位。法律上是以组织来承担法律责任,我们看数据安全的时候就应该以这个组织为单位,不管这个数据在这个组织内部经过了多少个产品、多少个业务环境、或者过了多少不同职责员工的处理,全都是看成一个整体,当你衡量它的时候应该与这个组织或单位绑定一起。现在的数据是在一个开放生态下加工,所以只做一个组织的数据安全是没有用的。
2.技术:以数据为中心。数据在一个组织内部,它的全生命周期:数据产生、传输、存储、使用,最后销毁。不管它经过哪些系统、经过多少产品等都无所谓,最后要的是全生命周期给出一个以数据为中心的安全结果。这个现在还在摸索,但是一定要走到这个方向上。即你不要再告诉我你这边的某个产品怎么样,你就告诉我数据在里面怎么样。
3.机制:以能力成熟度为抓手,即你行你上。现在我们有一个很大的误区就是有和没有的判断。未来能力成熟度是一个标准的衡量方法。
4.目标:让数据安全成为竞争力。过去,大家都在逃避数据安全,认为安全不仅需要付费还需要承担责任。现在我们的目标反过来,安全做得好就可以处理更多大量的敏感数据,意味着安全越高竞争能力越大,获得的机会越多,就会想办法提升自己的安全能力,而不是像过去那样,利用数据安全能力成熟度来决定经营范围,限制发展。