昨天发言的上海交大教授汪小帆透露,美国《科学》杂志两周前刊文提到了大数据和“棱镜门”,只需看标题就能明白它的意思:《网络科学处于监控争议的中心》。
昨天的研讨会由高级智库“中国信息化百人会”主办,主题是“大数据:挑战和机遇”。不过,讲者谈挑战比谈机遇更多;而诸多挑战中,隐私是核心关键词。
手机将“出卖”你
大数据时代,隐私空间之小,也许超出人们的想象。
电子科技大学互联网科学中心主任周涛教授介绍了今年公开的一项最新研究成果:某个手机用户只要曾出现在4个基站的服务区,利用大数据模型,研究者就能把他从百万用户中区分出来,识别他的身份,准确率为95%。此文发表在《自然》出版集团的学术刊物《科学报告》上。
周涛半开玩笑地说,这篇论文的结论就是,别让我在4个基站看到你。
周涛是舍恩伯格撰写的畅销书《大数据时代》的中文译者。他表示,大数据的“1.0版本”仅仅是分析那些与目标直接相关的数据,但到“2.0版本”后,大数据更关心“数据的外化”,也就是将更多看似无关的数据纳入视野。
周涛本人也正研究如何通过大数据识别个人信息,结论同样惊人。他告诉记者,通过分析一个人某段时间的GPS定位数据,就能知道他的性取向:“瞒了家人几十年的秘密,也许一个手机软件就能出卖你。”此外周涛还透露,他还在用类似方法发现腐败分子,识别率也很高。
无论是“4个基站”,还是“手机与性取向”的研究,说到底都提示出一点:通常被认为与隐私无甚关联的信息,在大数据时代都将发生质变。周涛透露,国外科学家已经建立了模型,通过分析人们在“脸谱”网站(Facebook)上的行为,也能判断他的性取向,所需要的只是用户添加的“喜欢”或“不喜欢”标签,大约需要100个。
当规则遭遇现实
周涛强调,他的研究被置于严格的监管之下,而且是基于同性恋者自愿提供的信息,并不侵犯隐私。但是否每个大数据从业者都如此遵守规则?
在思维世纪公司董事长章林光看来,现在的问题是根本没有完善的规则。
目前,公认的网络隐私原则,简单说是“知情同意”。某机构在获取网民信息前,必须就信息获取的范围、用途等,向网民告知并获得同意。但章林光说,大数据时代,这种知情同意失去了操作性。比如,谷歌曾尝试分析网民搜索的关键词组合,比如“感冒药”“药房”等,于是能领先政府疾控部门一个星期预测出流感疫情。但在知情同意的问题上,谷歌并非无可指摘。且不说该研究要得到亿万网民的同意是否可行,起码的一点是,用大数据分析海量的搜索行为,其研究方向本身就是不确定的――谁都不知道,看似无关的数据被整合之后,最终能挖掘出什么。因此,要网站每次都明确告知用户搜集信息的目标,基本没有可能。
章林光说,如果基于现在的原则,那么数据的采集、挖掘、处理、管理只能在法律面前徘徊。而且在他看来,目前的规则必然导致“个人信息交易的黑市”。
中国工程院院士邬贺铨昨天也明确提出,平衡信息共享与隐私保护的矛盾,是大数据发展的关键,亟需出台《信息公开法》和《信息保护法》,既要鼓励面向群体且服务社会的数据挖掘,又要防止侵犯个人隐私。
网民该让步吗?
北京邮电大学管理学院教授万岩说,她曾对自己的学生做了一个问卷:公开自己的信息从而得到更有针对性的营销,或是严格保护隐私但必须自己动手搜索商品,你会选哪一个?学生们的回答大致是五十对五十。
章林光也提出,“棱镜门”事件虽然反响恶劣,但也有调查表明,半数美国人对美国政府的做法未必持反对态度。
这些结论似乎暗示,普通人对网络隐私的态度,也许还很有宽容度。
章林光建议,公众必须接受、或者说忍受一个事实――大数据时代,人就是透明的,“个人隐私保护现在被过度解读,这窒息了数据共享