进入机器学习时代,数据库何去何从?

日期: 2016-09-11 作者:Jack Vaughan翻译:张亮亮 来源:TechTarget中国 英文

Hewlett Packard Enterprise推出了Vertica分析型数据库系统的一个版本,意在对Apache Kafka管道管理以及Apache Spark和Hadoop集成进行改进。

这些更新是HPE努力适应数据管理领域的一部分,而自Vertica首次出现以来,数据管理领域已经注意到了开源大数据工具的爆发式增长。Vertica的出现导致竞争对手供应商Actian Corp近期决定退出分析型数据库市场。

Vertica之前就已经能够对Hadoop数据进行访问,但Vertica8.0分析引擎则能够与Hadoop数据适当协作,如此一来就能减少数据迁移。

这是该引擎一般趋势的一部分,IDC分析师Carl Olofson如是说。不过,他警告称,Hadoop并非是Vertica这类分析型数据库的完全替代品。“这意味着你能够对查询的数据类型进行扩展。但这并不是说Hadoop就可以接管,”Olofson说,“这并不是二选一的情况。”

相反,他继续说,Vertica和Hadoop之间更好的联系表明不同的数据处理类型能够共存。他说,Vertica的高性能查询功能可以在实质上进入Hadoop数据并将有效结果集带回到数据库环境。

针对Hadoop的现场处理更新,伴随着与Apache Spark的新型连接,它们倾向于让Vertica成为与Hadoop和Spark一起的开源工具。虽然还不成熟,但开源产品正在寻找新分析类型的用例,而那些处理大量网络数据的尤为如此。

为此,HPE Vertica 8.0支持更快的数据加载,对Apache Kafka数据流的可视监控,以及内部数据库机器学习库。新的Apache Spark连接器能够支持Vertica和Spark系统间更快的数据交换。

对Apache Parquet存储格式的支持已经可以适当补充对ORC Hadoop文件格式的支持。

竞争不再激烈

像Vertica之类的高伸缩性分析型数据库,在过去十年间作为一款代替某些数据仓库和分析数字运算类型的数据库管理系统甚嚣尘上。

除了Vertica,早期领域还包括了Netezza,Greenplum,ParAccel和其他公司,它们主要基于由大规模并行处理支持的快速柱状存储架构。它们的共同点是在通过允许更快的查询,而不是创建数据库和数据仓库(这样的工作会耗费很长时间)而在数据管理中作为标记。大型供应商迅速注意到并逐个购买了这些技术。例如,IBM收购了Netezza,EMC买下了Greenplum以及HP接管了Vertica。

但有了所有这些入口,分析型数据库领域拥挤不堪而且竞争激烈,而且作为一个整体进行销售并没有达到最初的预期。这样的组合足以让Actian淡出市场。该公司确认将终止其Actian Analytics Platform,这包括了分析数据库Actian Matrix,这是为了将其精力集中在操作数据管理和数据集成技术上。

该供应商在2013年收购了分析型DBMS初创公司ParAccel,Actian Matrix便是基于其技术的。其他产品已经连同Actian Vector一起停产,Actian Vector是另一款基于对称多处理架构的数据库;VectorH是Actian的一款SQL-on-Hadoop查询引擎;而该公司的DataFlow是一款处理引擎。Actian在一份声明中表示,它正在将资源置换到其他更具预测性的业务部门。

在Amazon Redshift云数据仓库大受欢迎的情况下,有些可称之为“ParAccel之炬”的技术正在推向前进。Amazon Redshift很大程度上是基于ParAccel技术的,当ParAccel还是一家独立公司的时候,Amazon Web Services是需要服务许可的。

数据处理多样性

Etsy Inc.是一家在线技工市场,在Etsy Inc.的快速库存中显示,像Vertica一样的分析型数据库通常会存在于Etsy Inc.的快速库存中所显示的多种数据技术之中。Rafe Colburn是Etsy的工程主管,他列出了Kafka,AWS,Scalding(用于开发机器语言例程),Hadoop MapReduce以及Parquet等该公司与Vertica一起使用的软件,而这些仅仅是其中一部分。

Colburn说,Etsy现在使用的是7.1版的Vertica,而他们正在对7.2的版本进行调研。他补充说,Vertica曾用于支持内部仪表板和财务报告,而且已经改进了用户对于在早期Postgres DB上查询Etsy客户活动的功能。

Vertica对Parquet的支持是很有价值的,Colburn说,因为他的店铺已经开始使用Parquet格式了。“Parquet将是我们未来的数据格式,”他解释说,虽然他承认将来可能会保持对更多数据格式的支持。

他说,Vertica提供的水平伸缩性大受欢迎,而Vertica在Etsy的数据中心并不难安装并且已经证明了用它来将数据录入系统相对容易。他说HPE对Spark-Vertica连接器的工程改进显示了在性能方面的承诺。

进入机器学习时代,数据库何去何从?

对于像Vertica这样的分析型数据库来说,SQL查询所需要的高并发性已是其最为有效的切入点。一些分析师表示,他们可能会在未来面临挑战,即在面向统计的机器学习方法中,如今整在某些大型网络公司取得进展。

Monash Research的总裁Curt Monash表示,分析型RDBMS曾获得成功,这是因为起初它们提出了激进的性价比,较之已有的分析型SQL中的数据库和数据仓库替代品更具优势。

“他们向外扩展了很多节点,而且一些是与柱状系统一起着手进行的,或是在早期增加了柱状功能的,”他说。但结果是,现任者削减了价格并改进了他们对分析型SQL用例的功能,Monash如是说。

Monash表示,该系统在关键的商业智能工作上仍是出类拔萃的,例如复杂的随机查询和高并发的报告和仪表板。但它还表示新型高级分析,如机器学习,可能会在Spark中找到更好的归宿。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

翻译

张亮亮
张亮亮

TechTarget特邀编辑。毕业于北京邮电大学网络技术研究院。熟悉软件开发测试的各个环节和流程,对操作系统,数据库,计算机网络等有较为深入的理解。现就职于中国电子科技集团公司下属研究所,从事软件研发工作。热衷于英文的学习交流,平时喜欢户外运动,音乐,电影。

相关推荐