谣言止于算法：Facebook开放假新闻大数据分析平台

作者： CashCat
2018年07月12日
动态, 大数据

在这个流量为王内容为后的后社交时代，假新闻空前繁荣。而这个星球主要信息来源，正是Facebook这样的社交媒体。但问题没有看上去那么简单，很多时候真真假假的新闻并不是那么好区分和定义，尤其是当内容生产去中心化、规模化的时候，人工鉴定已经难以奏效，所谓谣言止于智者，也只是仁者见仁的说法，唯一的解决方法是大数据分析（网络谣言的传播动力学分析）。

“例如，如果有人不喜欢他们在Facebook上看到的故事，他们可能将其归类为虚假，而实际上只是反映了一种反方意识形态，”政治学家Gary King，哈佛大学数量社会科学研究所所长说道。令人憎恶的意识形态观点并不意味着它在事实上是不正确的。

所以King想要知道：聪明的研究人员是否可以制定出能够鉴别新闻真假的规则，这些规则可以与其他人，平台，算法共享并普遍应用。“这可能吗？我不知道，”King说。“但这将是网络内容生态的一次重大进步。”

King提到的“重大进步”，基于Social Science One——King与Facebook创立的独立研究委员会，为社交科学家提供前所未有的Facebook内数据访问权限。这个委员会四月份首次公布，但直到近日才公布正式名称。其首要使命是：调查Facebook上信息与谣言的传播及其对选举和民主的影响。

多年来，访问Facebook私人数据有着诸多限制：例如，无论您的研究结果是什么，在公开之前都必须事先得到Facebook公司的批准。但以中间人姿态出现的Social Science One的出现改变了这种状况。该组织深入了解Facebook可用的数据类型以及研究人员需要哪种数据。从今天开始，来自世界各地的研究人员都可以直接向Social Science One而不是Facebook申请社会科学研究资金或数据访问授权。如果研究人员想要在平台的数据中搜索“不利于平台”的信息 – 或者真的取得了不利于Facebook的研究发现 – Facebook将无法踩刹车。

Facebook开放的第一个数据集将包含大约1PB信息，包括去除隐私信息的公共Facebook帖子，以及大量指向虚假新闻的链接。数据集中信息还包括点击这些链接的人的年龄，性别和政治观点等内容的匿名信息，以及他们用什么样的设备来访问它们;，他们查看，共享和转发的假新闻链接（包括他们共享而不点击的链接）; 以及帖子获得的“点赞”，“喜爱”，和“wow”等的数量。

“你可以查询世界各地20亿人正在点击，阅读和分享的话题，”King说。

在初始审核流程开始之前，研究人员将有一个月的时间提交数据或资金申请（每项最高50,000美元）。King说，他简化了流程，使研究人员更容易申请（调查提案的描述尽量简洁不得超过五页）。社会科学研究委员会（SSRC），一个国际社会科学非营利组织和Social Science One的一个分支机构，将处理来自七个意识形态多样化的组织——从查尔斯科赫基金会到詹姆斯L.奈特基金会的资金。SSRC还将监督同行评审过程。

“我们拥有一批广泛的，全球分布的，多样化的顶级数据科学家，他们都是同行评审员，”SSRC总裁Alondra Nelson说。如果一切按计划进行，初步审核流程大约需要六周时间。在此之后，研究人员将接受为期一个月的培训来安全地访问Facebook的数据。然后是实际的研究，可能需要几天到几年才能完成。

有一点可以确信的是，获取研究Facebook内部数据和研究资金的申请审核将非常严格，SSRC委员会将对道德和隐私进行额外的审查，以避免任何类似Cambridge Analytica的灾难性丑闻。任何寻求获取资金或数据的科学家都不仅需要通过其所在机构的标准审查协议，还需要通过由Social Science One专门任命的专家进行的第二次特别审查。

“我们认为我们需要更高水平的道德和隐私标准，但不可能选择每个人都同意的标准，”金说。“所以我们通过任命新的隐私和道德问题的专家来做到最好” 。

平衡学术界、公众和像Facebook这样的私人公司的利益听起来很复杂，实际上也确实如此。耶鲁大学心理学家大卫兰德说：“从现实的角度来看，获取Facebook数据的过程极为困难。” 作为Facebook谣言传播分析专家，兰德Soical Science One并无瓜葛，但密切关注其发展。Facebook的数据存储格式非常复杂，需要大量工作才能将数据解压缩并拼接在一起，这是大多数学者无法独立完成的事情。即使对于Facebook来说，也意味着大量的工作和资源投入。

本文编译自：Wired


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    OpenAI发布人工智能文本生成系统，声称可能打开了潘多拉盒子
                                      颠覆自媒体和出版行业的八大人工智能应用
                                      房间里的大象：脸书币会是加密货币的转折点吗？
                                      条条“小道”通罗马：网络谣言的传播动力学可视化分析
                                      Facebook开源开发工具RacerD，帮助开发者消灭最顽固的软件bug
                                      硅谷科技大佬安保费用对比：小扎是库克的20倍
                                      Facebook开通新浪微博，加快入华节奏？
                                      下一代HBase，Facebook发布开源数据库HydraBase
                  



标签： facebook, 数字媒体, 数字媒体传播, 网络新闻, 网络谣言