从脸书数据泄露谈起:社交中如何保护隐私
相关评论
来源:
作者:
发布时间:2018-04-04 09:42

从脸书数据泄露谈起:社交中如何保护隐私

2018年3月17日当地时间,美国纽约时报和英国观察者报(英国卫报的周日版)共同发布了深度报道,” The Cambridge Analytica Files”,称Facebook上超过5000万用户信息数据被一家名为Cambridge Analytica(剑桥分析)的公司不当获取,用于在2016年美国总统大选中对目标受众进行精准信息投放,可能影响到大选结果。这篇报道在世界范围内引发了轩然大波,并不断发酵至今,也引起人们对社交网络数据隐私保护的热切关注。

事情起因于剑桥大学的心理学讲师Aleksandr Kogan通过一款用于科研的Facebook应用(thisisyourdigitallife)收集了约27万用户的数据记录,并通过好友关系抓取了共5000万名Facebook用户数据。Facebook宣称Kogan后来将这些数据转手卖给了第三方,其中就包括剑桥分析公司。剑桥分析通过对Facebook数据挖掘获取选民的心理特点,进而有针对性地为特朗普投放竞选广告,由此辅助特朗普赢得2016美国大选,从而名声大噪。事件曝光后在媒体和网络上持续发酵,报道中遭到个人数据泄露的用户数量在不断放大,甚至有媒体宣称挖到了“通俄”线索,Facebook股价也随之大跌,一时众说纷纭,好不热闹。

在热闹与震惊背后,这一事件触及了在以社交网络为代表的大数据时代,用户数据应该被如何使用的一些关键问题。这些问题在近年来社交网络心理学研究中被不断提及,在学术界也已有若干讨论与共识。巧合的是,这次事件的起源恰恰有可能与对科研伦理的违背有关。下面我们来逐一分析。

网络上没有留下个人关键信息,隐私还可能泄露吗?

随着网络的普及,人们对于网络信息的安全性愈加关注,不会轻易把个人的关键信息放在网上。但纵然如此,隐私真的就万无一失了吗?2006年6月,Pass等人在香港举办的一个国际会议上发表了”A Picture of Search”的论文,并将文中使用的美国在线2006年3月1号到5月31号的搜索日志公开,包括1900万次搜索、1080多万搜索词以及65万余匿名化处理后的用户ID。虽然这些数据中已经将用户信息删除,但是有的搜索本身就含有个人隐私性质。一些搜索记录可能与特定的人能够相联系,纵然用户ID已经被匿名化处理,但是从某个用户ID所做的一系列搜索,仍然有可能找到这个用户的真实身份。纽约时报记者根据搜索数据轻易地找到一位62岁的老太太,这个老太太证实那些列出的搜索关键词确实是她的。事后,这个研究小组被解散,并最终导致AOL首席技术官引咎辞职。个人隐私的泄露除了自己主动放到网上被他人不当获取之外,通过对网络留痕的分析,也可以对一些比较隐私的个人关键信息(如年龄性别等)进行有效推断。

人们在社交网络上的一举一动,都是性格特点与内心状态等心理特征的某种反映。个人往往不需要在社交网络上直接写下“我是××性格的人”,1号站平台,只要对社交网络的日常使用积累到一定数量,科学家就能够运用人工智能技术,通过其在社交网络上日常展示的信息自动计算出心理特征,目前在Facebook/Twitter以及微博上相关研究也证实了这种个人心理特征自动获取的可行性。如果我们在社交网络上展示的内容足够丰富,对我们心理特征的计算可以做到很准确,甚至能超过家人对我们的了解程度。这些心理特征可能对许多应用有重要的指导作用,比如可以根据用户的心理特征来推荐他感兴趣的内容,带来更佳的用户体验;又比如可以根据这些心理特征有针对性地投放广告,提高宣传的效果,而这正是Cambridge Analytica公司据称在英国脱欧和美国大选中所做的事情。

从脸书数据泄露谈起:社交中如何保护隐私

运用类似的方法,通过社交网络行为数据还有可能识别出个体的性取向、政治倾向、价值观等通常意义上更“敏感”的个人信息。而在其他一些只反映某种特定行为的数据集上,如利用匿名之后的信用卡刷卡的地点记录,用户的身份更是很容易被定位。因此,只隐去传统意义上的个人关键信息,在人工智能和大数据的配合下,可能我们的隐私反而会以一种更深刻的形式泄露出去。

当然,利用人工智能技术算出上述个人特征的前提,是掌握了此人足够多的数据。如果此人在社交网络上留下的有效行为数据不够多,那再厉害的算法也无能为力。而且,我们可以在社交网络平台上为自己所展示的内容设定不同的私密等级,比如把有些内容设置为只有好友可见,这样一来,如果没有我们的授权,陌生人就不能获得这些数据。因此通常而言,在社交网络上获得大量用户的、足够准确计算其中每个人心理特征的数据,并不是一件容易的事。

社交网络App被允许收集用户数据,理应更好地服务于大众