Hadoop快速查询工具Drill将随MapR发行版问世

快数据时代,查询速度(SQL-on-Hadoop)是Hadoop的短板,因为越来越多的用户需要能够获得快速且互动的分析方法。业界将目光投向谷歌正在使用的快速分析事务工具Dremel,能够更快更好地处理动态数据集、点对点分析或者图数据结构。2012年8月,Dremel的开源版本——Apache Drill项目启动。

如今两年过去,包括Drill在内的SQL-on-Hadoop技术取得长足进步,负责推动Drill技术的Hadoop厂商MapR近日宣布在Drill的开发者预览版整合到MapR大数据平台中,向外界展示Drill这种新型SQL查询引擎到底能做什么。

在Drill问世之前,Cloudera已经发布了多个版本的Impala技术,Hortonworks正尝试为老套的Hive框架增加互动性,大量开源项目如雨后春笋冒出,例如高速增长的Spark社区。但MapR的首席市场官Jack Norris认为,姗姗来迟的Drill值得等待,因为Drill综合了其他SQL-on-Hadoop引擎的诸多功能,最主要的功能是支持用户生成模型时使用数据的原生格式,无需继续在加载到数据库时进行转换或者格式要求,大大提高了速度。当然,Drill也支持用户对于那些需要将Drill数据进行预处理,转换成其他格式。

drill

值得注意的是,虽然对Drill报以极高期望,但MapR并没有吧Drill作为其平台的唯一选择,MapR的Hadoop发行版同时也整合了Hive和Impala,甚至紧密集成了惠普的Vertica分析数据库。

显然,MapR正通过支持更多的开源技术,贡献更多的代码来修复作为私有Hadoop厂商受损的声誉。据Norris介绍,如今MapR发行版中与应用层有关的一切都已经开源(或者采用标准API),MapR还计划最大限度地拥抱开源,在本周二MapR发布Hadoop平台资源管理功能时,同时宣布将磁盘IO配置和节点任务排程等技术提交给Apache开源。

Drill项目目前有四十多个企业和机构贡献者,包括思科、LinkedIn和威斯康辛大学等。

开源模式已经证明,众包能够有效改进产品,并吸引更多优秀工程师。在炒作泛滥的Hadoop市场,打造强大的开源文化已经成了各公司的攻防利器,可以用来指责竞争对手不够开放,并防御来自对手的类似指责。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

隐私已经死去,软件正在吃掉世界,数据即将爆炸

X