警惕大数据的大偏差

作者：王萌
2013年04月09日
动态, 大数据

data-scientist

大数据在很多媒体的眼里是无所不能的，然而，在大数据的采集和分析中，会存在着各种偏差，哈佛商业评论博客作者Kate Crowford最近发表的一篇博文阐述了大数据的隐形偏差，

IT经理网之前的文章“大数据不能做什么”曾指出：

在左派技术管理者的眼里，大数据就像“雷神之锤”，所有与数据有关的难题看上去都像是钉子，但实际上大数据在很多方面都无法取代人类的智慧和判断。

而Crowford的观点也是需要理性看待当前大数据分析的局限性，并指出数据平等和数据鸿沟是导致大数据产生偏差的重要原因，并呼吁在大数据分析中引入传统的社会科学方法。以下是IT经理网对Crowford文章的编译整理：

这几年的IT市场， “大数据”已经成为最热的话题。从一个一个的大数据论坛，到各个媒体连篇累牍的文章，无论是商业还是科学界，都在探讨大数据如何能够得出过去所不能得出的分析。其实，这样的大数据热度存在着一个问题，那就是所谓“数据原教旨主义”，也就是认为，数据的关联性必然表示事物的因果性，而大量数据总是能够反映揭示真理。《连线》杂志的前主编Chris Anderson曾经说过：

“有了足够多的数据，数字本身就能说话。”

然而，大数据真的是这样的吗？数字本身真的就能够说话？

遗憾的是，实际情况并不是这样的。数据和数据集本身并不是客观的。他们是由人们设计的。是人们用数据来说话，从数据进行推断，以及解释数据。在数据采集和数据分析阶段，都不可避免地存在偏差。对这些风险的考量，在大数据项目中，和数据本身具有同样的重要性。参考阅读：大数据的思维陷阱以及大数据的七宗罪

比如说，如果我们在Twitter上分析飓风“桑迪”的相关数据，在2012年10月27日到11月1日期间，约有2000万条推文。有人研究了与飓风“桑迪”相关的Twitter和Foursquare的数据。发现了一些预期中的结果(如在“桑迪”来的前夜，人们去超市购物量激增)，但是也发现了一些预料外的结果（比如在“桑迪”过后的一天人们的夜生活开始增加）。然而，这些数据并不能反映问题的全貌。关于“桑迪”的推文的一大部分来自于曼哈顿地区。这一点可以理解，因为曼哈顿地区的智能手机和Twitter使用率很高。不过，这样的数据会给人们一个错觉，那就是曼哈顿是这次飓风灾难的中心。事实上，来自那些受灾更加严重地区比如说Breezy Point， Coney岛和 Rockway的推文少的可怜。而由于电力中断，来自那些受灾最严重地区的推文几乎没有。事实上，对推文的分析，并不能反映那些曼哈顿之外的地区的真实情况。我们可以把这种问题成为“信号故障”，也就是说，数据本来应该真实地反映社会的整体情况，而由于数字鸿沟，来自有些特定的群体的信号没有被接收到。

大数据听上去挺抽象，其实它们很多在本质上与物理的地域和人们的文化联系紧密。而物理的地域，像人一样，也有其自身的特点。比如说，美国的波士顿存在严重的道路坑洼的问题，每年需要修补约2万个道路坑洼。为了更有效的调配资源，波士顿市政府开发了一个名为“StreetBump”的智能手机应用，用户通过手机内置的加速度感应器和GPS，来帮助检测坑洼，并通过无线网络自动上报给市政府。市政府的这一创新无疑值得赞赏，不过，这里也存在一个所谓“信号故障”的问题。低收入人群和老年人群的智能手机渗透率很低。这样一来，对于波士顿市政府来说，智能手机收集来的数据就缺失了一块很重要的来源—从那些相对贫困和年老的人群中来的数据。

好在波士顿市政府的城市规划办公室意识到了这一点，联合了一些大学进行关于数据平等和数字鸿沟方面的研究以解决这一问题。不过，我们越来越依赖于让数据自己说话这样的方式则会给我们带来风险。比如，如果卫生部门的官员过度依赖Google Flu Trends来估计流感数据，那么就会错误地把流感高峰期的感染率估计为11%，而实际上美国疾病控制中心的估计仅为6%。尽管Google没有解释这两者不同的原因。一个可能的原因是由于媒体的大量报道，导致对“流感”的搜索量激增所造成的。另外，如果美国联邦紧急管理委员会完全依赖于推文的分析来分配飓风“桑迪”的救灾物资的话，也会导致巨大的问题。

随着智能手机和其他数字技术的应用，大数据的“信号故障”问题只会越来越严重。随着越来越多的数据从个人终端所采集，我们在面对大数据集的时候，需要问一问数据集中哪些人没有被包括进来？哪些地区的数据相对较少？如果有大数据集没有包括的情况怎么办之类的问题。

那么，如何能够填平大数据的“鸿沟”呢？在短期来说，数据科学家应该向社会科学家们学习。社会科学家们总是会问数据从哪里来，如何采集，如何分析，以及可能带来的偏差这样的问题。

从长期来说，我们必须研究如何把大数据和小数据分析结合起来。把定量的社会分析与传统的定性分析结合在一起。通过把数据分析与半结构化的访谈等传统方法结合起来，我们可以提高数据采集的“厚度”。当我们问人们“为什么”和“怎么样”的时候，我们对问题的理解会比仅仅问“有多少”要更加深入。这样的方法不是说用焦点小组之类的方法来验证你数据分析的结果，而是用定性分析的方法来为定量分析做补充。社会科学的方法的引入也许会让大数据分析变得更加复杂，然而它也会帮助我们解决类似于“信号故障”之类的问题。我们可以从仅仅关注“大数据”而转向对问题的全方位理解，也就是增加数据的“厚度”。


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    大数据的泰坦尼克号，Hadoop即将沉没了吗？
                                      MapR CEO对2016大数据的5个预测
                                      2016年大数据发展趋势的33个预测
                                      2016机器数据分析五大趋势预测
                                      数据科学家大调查：职业受挫数据多样性，吐槽Hadoop
                                      大数据分析：德国取胜巴西的”秘密武器“
                                      机器学习常见算法分类汇总
                                      图论是理解大数据的关键吗？
                  



标签： 大数据方法, 大数据趋势, 数字鸿沟

关于作者王萌

在TMT领域具有十余年的咨询和创业经验。目前主要关注信息安全，同时密切关注云计算、社会化媒体、移动、企业2.0等领域的技术创新和商业价值。拥有美国麻省理工学院MBA学位和清华大学经济管理学院学士学位，曾任BDA中国公司高级顾问，服务过美国高通、英特尔、中国网通、SK电讯、及沃达丰等公司。联系邮件：wangmeng@ctocio.com

上一篇«苹果下架AppGratis，App推荐谨防“猝死”

挑战Salesforce，Shift发布数字营销应用商店»下一篇