Infochimps推出实时大数据开发平台

streaming-data

Infochimps近日推出1.1版本,号称Hadoop的Heroku(一种支持多语言的云应用开发平台)。新版本在很多地方有所突破,包括在不启用Hadoop的情况下很容易地创建流式工作流。

Infochimps是一家位于德克萨斯州奥斯丁的创业公司,今年二月从数据市场转型为大数据平台提供商。新版本Infochimps Platform的推出标志着Infochimps具备了处理流式数据Streaming Data的能力。

虽然Infochimps将其大数据平台称为“Hadoop的Heroku”,但实际上Hadoop并非Infochimps的重点。“人们遇到大数据问题时往往会想到Hadoop,”Infochimps的首席执行官Joe Kelly说道:“实际上,他们解决大数据问题的过程中也许根本用不到Hadoop。”

infochimps-platform-diagram_how-it-works

根据Infochimps的首席战略官Dhruv Bansal介绍:更常见的情况是,客户用Infochimps的平台开发程序处理分析数据,只有在需要批量分析海量数据时才会用到Hadoop。基于这种经验,我们的新版本关注的重点是对数据的实时处理功能(而不是Hadoop)。

新的流式分析引擎Data Delivery Service基于Apache Flume,Infochimps的用户可以用它来处理进入系统的数据。通过Wukong——一个基于Ruby的命令行界面,开发者可以编写大数据应用调用Data Delivery Service或Hadoop,使用的语法也非常简单,开发者无需学习MapReduce或者Flume。

尽管如此,Infochimps平台还是支持高级Hadoop语言如Hive和Pig。Wukong是一种互动方式,但不是唯一的。

Infochimps的新平台还向开发者提供Deploy Pack功能,开发者可以在本地编写和测试代码,只需一条命令就可以推送到云端环境。这要归功于Ironfan——Infocimps的基础设施自动化工具、数据库以及Hadoop集群等应用环境,这些都最大限度减轻了开发者的工作负荷。

Infochimps可以在客户自己的选择的云基础设施中运行,同时还与Rackspace合作,支持其OpenStack云计算平台。

不过,给Infochimps打上“Hadoop的Heroku”还有些为时过早,因为Infochimps还是需要高度人工干预的平台,虽然开发和部署相对简单,但用户还不能刷完信用卡后什么也不管;他们还需要与Infochimps紧密沟通设置程序。这部分是因为客户的水平层次不齐——数据科学家们需要磨练编程技巧,而开发者则需要学习如何写出更好的数据流。

“我们正处在一个过渡阶段(从完全DIY的平台到完全托管的服务)”Kelly表示,当这个过渡阶段完成后,用户将能够付费后马上使用服务。核心将会是用户常用的服务,90%的代码已经写好了,用户可以根据自己的需要调试其余10%的代码。”

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

主要关注社会化商务时代的客户关系管理、业务流程管理、数据挖掘、商业智能和企业协作等领域的新技术、新应用和新趋势。曾长期从事信息化咨询服务和软件开发工作,服务过首都机场、国家电网公司、中国蓝星等企业。邮箱:guanzhigang@ctocio.com

X