刷量、买粉、伪创作…数据造假最终受伤的是谁?
相关评论
来源:
作者:
发布时间:2018-11-07 14:02

  一篇自媒体文章不仅引起了公众对旅游社区平台马蜂窝点评内容抄袭的质疑,也捅开了互联网行业数据造假的“马蜂窝”。

  在对“是否存在内容抄袭或数据造假”的质疑讳莫如深数天后,马蜂窝联合创始人兼CEO陈罡承认,其“在餐饮等点评数据方面存在部分问题,但远没有外界所表述的那么夸大”。然而,业内人士指出,互联网领域的数据造假远比想象的更严重,而且造假套路也呈现“道高一尺魔高一丈”的趋势。

  从最早的电商刷单、刷好评,到之后的微信公众号买粉、刷阅读量,再到网络直播平台买流量、App机器人用户充数据,各类数据造假的手段不断翻新,而真实数据成为难以获知的“高度机密”。

  难道没有机制可以识别、约束这些“套路”吗?事实上,一些平台企业和投资机构早已尝试通过反爬虫 、第三方数据调查等技术手段预防和应对数据造假,一号站娱乐平台,但是效果并不好。另外,部分投资机构出于种种考虑,默认一些互联网企业的数据造假行为,甚至与之合谋。技术难题也随之成为更加复杂的人性谜题。

  进步最快的是造假的方式

  在“马蜂窝事件”中,备受质疑的一个数据造假“套路”是,不少用户在其他平台的旅行攻略、点评内容,被搬运到马蜂窝上。实际上,此类做法并不新鲜。

  今年7月,生活社区小红书通过官方微博指责大众点评大量抄袭其用户的内容。具体做法是批量建立虚假账号,抄袭及搬运用户在小红书发布的原创内容。据小红书估计,抄袭的数量在百万条量级。

  一些用户专门为小红书平台创作的内容被“copy”后,依然留着原本内容的影子。小红书用户“詹小猪Coco”曾于6月6日发视频庆祝小红书创立纪念日,“copy”后,文案竟变成了“祝点评生日快乐”,但视频中用户说的仍然是“小红书”,而且6月6日也不是大众点评的“生日”。

  当时,大众点评方面对此回应称,这是因为新上线试运营的推荐栏目在未经授权的情况下对相关内容进行了违规转载,已第一时间完成所有内容排查与全部清理下线,并通过技术手段确保该类问题不再出现。

  段民(化名)从2002年开始从事数据挖掘工作,是国内最早一批大数据行业应用的开拓者。他告诉中国青年报·中青在线记者,这类搬运其他平台内容为己所用的行为,属于常见的“伪创作”造假套路,即通过网络爬虫软件,将其他平台的数据和内容复制过来,稍加修改后变成自己的内容。与其他造假手法相比,这类做法更隐蔽,需要专业人士持续跟踪 、分析 、比对才能发现。

  段民表示,除“伪创作”以外,互联网内容平台常见的数据造假“套路”还包括虚报数据、“僵尸用户”、虚假行为等。前两种“套路”因用户了解有限,平台与用户之间存在一定门槛,往往难以得知;而通过机器人冒充真实用户,访问网站或App从而增加流量或点击量的虚假行为,是离普通用户最近的一种造假“套路”。

  微博、微信等平台的“刷量”“买粉”,是其中的典型代表。2016年9月末,因微信官方的后台调整行为,屏蔽了公众号刷量工具的操作,许多自媒体大V的真实用户和阅读数量显现出来。此前一周平均阅读量上万的公众号,在当天最少的阅读量只有200;此前阅读量在10万以上的公众号,当天的阅读量只有2万左右。

  此外,一些音视频节目的播放量也出现造假。此前,在国内首起因视频网站“刷量”而引发的不正当竞争案件中,被告杭州飞益信息科技有限公司针对爱奇艺 、优酷土豆、腾讯视频等主流视频网站上的视频内容“刷量”,对某个视频节目“刷量”1万次,仅收费15元。

  上海市徐汇区人民法院公布的信息显示,飞益公司多名员工通过多个域名、不断更换访问IP地址等方式,连续访问爱奇艺网站视频,在短时间内迅速提高视频访问量,仅2017年2月1日至6月1日,飞益公司在爱奇艺网站制造了不少于9.5亿余次的虚假访问,按照该公司每万次15元的刷量收费标准,共非法获利上百万元。

  技术的发展让造假成本更低

  与“刷量”“买粉”“伪创作”等内容平台的造假手法相比,夸大用户和产品交易数据,则是互联网平台上更直接,也更难被发现的数据造假方式。

  2015年,有业内技术人员在知名社区“知乎”上爆料,通过反向编译蜻蜓FM安卓版本软件,他发现蜻蜓FM软件中隐藏有名为“普罗米修斯”和“宙斯”的强行自启代码。前者可以在用户不知情的情况下,在手机后台启动无窗口透明界面;后者则可以自主触发广告商的广告,并回传给第三方数据公司,从而完成“用户自主点击广告”的操作。