Hadoop发展需要整合更多企业级特性

日期: 2013-05-20 作者:Jack Vaughan翻译:孙瑞 来源:TechTarget中国 英文

商业软件的版本更新非常快,而每次更新所添加的“新特性”是用户最为关注的,而基于Apache Hadoop的产品也是如此。想要让Hadoop真正为企业所用,并不断扩展其用例,新特性是必不可少的。

  变化并不是表面功夫而已,随着每一个版本的更新,其中添加的新特性都是来自于用户在使用Hadoop时所遇到的各种问题。Hadoop之所以能够流行起来,是因为它能够使用廉价服务器搭建分布式集群,为用户提供了一个针对非机构化数据、日志文件以及其他类型大数据的低成本存储和数据处理解决方案。然而我们需要认识到,想让Hadoop向数据仓库一样完全融入企业IT部门,还有许多工作要做。

Hadoop发展需要整合更多企业级特性

  有时候,Hadoop系统的性能会出现很大问题。作为一项相对较新的技术,Hadoop并不稳定而且在编程方面也很复杂,同时管理工具也不如其他成熟产品完善。总而言之,针对Hadoop的主要用例——分析应用,它还并不是一个开箱即用的解决方案。

  于是“Hadoop生态系统”这个词出现在我们视野当中,其实就是不同版本的Hadoop中包含的各种插件与组件,如Flume、Pig、Hive、ZooKeeper、Oozie等。当然还有HBase这一主流列式NoSQL数据库。

  让HBase与Hadoop更紧密的集成

  通过发布MapR M7,大数据公司MapR希望打通Hadoop迈向企业级应用的道路。MapR的创始人大多来自当初Google的MapReduce团队,因此他们对Hadoop的优势与限制理解颇深。MapR M7主要将HBase加入了他们的Hadoop发行版当中,但是他们的方法却很不“平常”。

  HBase通过将数据库表区域扩散到集群中的所有服务器上来实现横向扩展,用户发现在一些情况下,这种方法可能会造成性能下降,同时可用性以及数据库镜像功能等都会受到影响。MapR副总裁Jack Norris介绍,他们一直在致力于解决这些问题,而且一直在对MapR的Hadoop底层代码进行修改,以改善性能和稳定性。新的产品中,他们让Hadoop与HBase有了一个更紧密的集成,放弃了分割两层Java虚拟机的做法,而后者正是造成性能瓶颈的主要原因。

  与此同时,来自美国Palo Alto市的Continuuity公司还刚刚发布了两款工具——Developer Suite和Developer Sandbox,旨在帮助程序员降低Hadoop开发难度。Continuuity公司的创始人均来自Yahoo和Facebook,以往的经验告诉他们,开发团队往往需要更高级别的应用编程接口(API)以及实用的代码库,才能让Hadoop和HBase进入主流。

  Continuuity CEO Todd Papaioannou表示:“在Yahoo工作的时候我们发现在Hadoop上构建应用是非常困难的,甚至导入和导出数据都成问题。而使用Continuuity的软件,可能还是要用Java来编程,但其中的API能够让更多的普通程序员成为大数据应用开发者。”

  Papaioannou强调,目前如果你想要成为Hadoop开发者,你就必须学习很多分布式系统的知识。在Hadoop刚刚诞生的时候,Google、Yahoo等搜索引擎公司都有不少分布式系统专家,但在传统的企业当中却是非常少见。同其他厂商一样,Continuuity想要提供Hadoop生态系统中的组件更高效的联系,同时还要为开发者人群提升生产率做出努力。

  Papaioannou认为,Continuuity所做的是十分有意义的,否则Hadoop开发者们还需要向搭积木一样自己拼凑各个组件。

  Hadoop之路无坦途

  Hadoop最初设计就是用来在分布式系统下批量运行Web搜索的,但是随着大数据时代的到来,它的发展已经超出了最初的范畴。TechTarget商务智能分析师Wayne Eckerson建议,Hadoop技术还有很长的一段路要走,才能弥补现在的不足。

  Eckerson指出,现在的公司使用Hadoop,更多的是把它当做一个ETL工具,这本身并没有错,但是这绝不是Hadoop未来的发展方向。

  要创建新的Hadoop企业用例,就需要迈出重要的一步,这就是让用户使用基于SQL的工具来直接在Hadoop系统中对各种数据进行分析。早期Hadoop使用者往往会要求他们的供应商提供这样的能力,比如写一个新的SQL查询引擎。像Cloudera的Impala和Greenplum刚刚发布的Hawq都将对Hadoop生态系统起到非常重要的补充作用。然而Eckerson提醒用户,新的产品还有待时间的检验,它们对Hadoop数据的实时查询究竟表现如何,目前市场反馈还非常欠缺。

  当然,Hadoop的新一页已经缓缓打开,我们有理由相信在不远的未来还会出现更好用的产品和组件。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

翻译

孙瑞
孙瑞

相关推荐