DataSift架构曝光：每秒实时挖掘12万条Twitter内容

作者：王萌
2012年05月18日
大数据

Twitter开放其数据管道Firehose对于社交大数据分析来说无疑是一个晴天大利好。利用Twitter实时数据你几乎能进行各种数据分析，从奥斯卡电影人气到美国总统支持率，再到产品用户满意度分析，可谓一座不设防的数据大金矿。

但是掘金Twitter“快数据”也对分析系统提出了很高要求，DataSift是少数能吃下Twitter数据的顶级社会化分析机器之一，DataSift从Twitter购买了多年的数据同步授权，能够访问所有Twitter管道数据，并将子集卖给第三方，主要是企业客户。目前只有Gnip获得了同样的授权。

DataSift的定位是实时社交数据挖掘平台，处理海量推文本身对于DataSift来说不算什么，DataSift的挑战是在互联网上向大规模用户提供Twitter数据分析服务。

要知道，是大数据概念让DataSift成为一个十亿美元俱乐部的成员。而DataSift的最大创新就是创建了一个互联网规模的关键词过滤系统，能够快速评估热门关键词（例如Lady Gaga），DataSift是如何做到这一点的呢，相信下面这个Data Sift的系统架构图能给你答案（点击查看大图）：

从上图可以看出DataSift的架构包括：

● 运行于SSD固态硬盘之上的MySQL（Percona server）
● HBase集群（目前约30个Hadoop节点，400TB存储）
● Memcashed（cache）
● Redis（依然用于一些内部队列、但也许很快将弃用）


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    五个不容忽视的“非主流”大数据技术工具
                                      一位数据科学家的私房工具清单
                                      Airbnb开源数据探查与可视化平台Caravel
                                      LinkedIn开源元数据管理工具WhereHows
                                      2016年文本、语义、社交分析十大趋势
                                      大数据时代的Google？市场智能平台Ekho获得120万美元投资
                                      NSA开源大数据分析工具Nifi
                                      超越Hadoop，Luigi打通云端大数据管道
                  



标签： datasift, 大数据工具, 社会化分析

关于作者王萌

在TMT领域具有十余年的咨询和创业经验。目前主要关注信息安全，同时密切关注云计算、社会化媒体、移动、企业2.0等领域的技术创新和商业价值。拥有美国麻省理工学院MBA学位和清华大学经济管理学院学士学位，曾任BDA中国公司高级顾问，服务过美国高通、英特尔、中国网通、SK电讯、及沃达丰等公司。联系邮件：wangmeng@ctocio.com

上一篇«普华永道：CIO如何建设企业数据分析文化

寻宝大数据：IBM的智慧地球拼图»下一篇