进入机器学习时代,数据库何去何从?

日期:2016-9-12作者:Jack Vaughan翻译:张亮亮来源:TechTarget中国 英文

【TechTarget中国原创】

Hewlett Packard Enterprise推出了Vertica分析型数据库系统的一个版本,意在对Apache Kafka管道管理以及Apache Spark和Hadoop集成进行改进。

这些更新是HPE努力适应数据管理领域的一部分,而自Vertica首次出现以来,数据管理领域已经注意到了开源大数据工具的爆发式增长。Vertica的出现导致竞争对手供应商Actian Corp近期决定退出分析型数据库市场。

Vertica之前就已经能够对Hadoop数据进行访问,但Vertica8.0分析引擎则能够与Hadoop数据适当协作,如此一来就能减少数据迁移。

这是该引擎一般趋势的一部分,IDC分析师Carl Olofson如是说。不过,他警告称,Hadoop并非是Vertica这类分析型数据库的完全替代品。“这意味着你能够对查询的数据类型进行扩展。但这并不是说Hadoop就可以接管,”Olofson说,“这并不是二选一的情况。”

相反,他继续说,Vertica和Hadoop之间更好的联系表明不同的数据处理类型能够共存。他说,Vertica的高性能查询功能可以在实质上进入Hadoop数据并将有效结果集带回到数据库环境。

针对Hadoop的现场处理更新,伴随着与Apache Spark的新型连接,它们倾向于让Vertica成为与Hadoop和Spark一起的开源工具。虽然还不成熟,但开源产品正在寻找新分析类型的用例,而那些处理大量网络数据的尤为如此。

为此,HPE Vertica 8.0支持更快的数据加载,对Apache Kafka数据流的可视监控,以及内部数据库机器学习库。新的Apache Spark连接器能够支持Vertica和Spark系统间更快的数据交换。

对Apache Parquet存储格式的支持已经可以适当补充对ORC Hadoop文件格式的支持。

竞争不再激烈

像Vertica之类的高伸缩性分析型数据库,在过去十年间作为一款代替某些数据仓库和分析数字运算类型的数据库管理系统甚嚣尘上。

除了Vertica,早期领域还包括了Netezza,Greenplum,ParAccel和其他公司,它们主要基于由大规模并行处理支持的快速柱状存储架构。它们的共同点是在通过允许更快的查询,而不是创建数据库和数据仓库(这样的工作会耗费很长时间)而在数据管理中作为标记。大型供应商迅速注意到并逐个购买了这些技术。例如,IBM收购了Netezza,EMC买下了Greenplum以及HP接管了Vertica。

但有了所有这些入口,分析型数据库领域拥挤不堪而且竞争激烈,而且作为一个整体进行销售并没有达到最初的预期。这样的组合足以让Actian淡出市场。该公司确认将终止其Actian Analytics Platform,这包括了分析数据库Actian Matrix,这是为了将其精力集中在操作数据管理和数据集成技术上。

该供应商在2013年收购了分析型DBMS初创公司ParAccel,Actian Matrix便是基于其技术的。其他产品已经连同Actian Vector一起停产,Actian Vector是另一款基于对称多处理架构的数据库;VectorH是Actian的一款SQL-on-Hadoop查询引擎;而该公司的DataFlow是一款处理引擎。Actian在一份声明中表示,它正在将资源置换到其他更具预测性的业务部门。

在Amazon Redshift云数据仓库大受欢迎的情况下,有些可称之为“ParAccel之炬”的技术正在推向前进。Amazon Redshift很大程度上是基于ParAccel技术的,当ParAccel还是一家独立公司的时候,Amazon Web Services是需要服务许可的。

数据处理多样性

Etsy Inc.是一家在线技工市场,在Etsy Inc.的快速库存中显示,像Vertica一样的分析型数据库通常会存在于Etsy Inc.的快速库存中所显示的多种数据技术之中。Rafe Colburn是Etsy的工程主管,他列出了Kafka,AWS,Scalding(用于开发机器语言例程),Hadoop MapReduce以及Parquet等该公司与Vertica一起使用的软件,而这些仅仅是其中一部分。

Colburn说,Etsy现在使用的是7.1版的Vertica,而他们正在对7.2的版本进行调研。他补充说,Vertica曾用于支持内部仪表板和财务报告,而且已经改进了用户对于在早期Postgres DB上查询Etsy客户活动的功能。

Vertica对Parquet的支持是很有价值的,Colburn说,因为他的店铺已经开始使用Parquet格式了。“Parquet将是我们未来的数据格式,”他解释说,虽然他承认将来可能会保持对更多数据格式的支持。

他说,Vertica提供的水平伸缩性大受欢迎,而Vertica在Etsy的数据中心并不难安装并且已经证明了用它来将数据录入系统相对容易。他说HPE对Spark-Vertica连接器的工程改进显示了在性能方面的承诺。

进入机器学习时代,数据库何去何从?

对于像Vertica这样的分析型数据库来说,SQL查询所需要的高并发性已是其最为有效的切入点。一些分析师表示,他们可能会在未来面临挑战,即在面向统计的机器学习方法中,如今整在某些大型网络公司取得进展。

Monash Research的总裁Curt Monash表示,分析型RDBMS曾获得成功,这是因为起初它们提出了激进的性价比,较之已有的分析型SQL中的数据库和数据仓库替代品更具优势。

“他们向外扩展了很多节点,而且一些是与柱状系统一起着手进行的,或是在早期增加了柱状功能的,”他说。但结果是,现任者削减了价格并改进了他们对分析型SQL用例的功能,Monash如是说。

Monash表示,该系统在关键的商业智能工作上仍是出类拔萃的,例如复杂的随机查询和高并发的报告和仪表板。但它还表示新型高级分析,如机器学习,可能会在Spark中找到更好的归宿。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

云数据库>更多

相关推荐

  • Azure数据湖分析从U-SQL中获得提升

    大数据的发展已经让许多精通SQL的数据专业人员不知所措。微软的U-SQL编程语言试图让这些人回归数据查询游戏。

  • NoSQL——未来数据库家族的一员

    NoSQL是对数据库由内而外的全方位改造,从而创造出一个高容量、高速度和高可变性的架构。然而,NoSQL供应商在可变性部分却正在遭遇失败。

  • SQL和NoSQL数据库设计之争

    企业收集了很多大规模增长的松散结构化数据,Hadoop,Spark以及其他新技术处理这些数据非常有助于改善商业智能分析效率。

  • Big Data Discovery或将助力Oracle回归BI魔法象限

    Oracle在Gartner公司商业智能分析平台“魔力象限”中连续上榜十年以后,在2016年并未上榜,Oracle公司失去了在魔力象限的位置可能会影响未来的选择。

技术手册>更多

  • SQL Server 2012 T-SQL指南

    在本次的TechTarget《数据库电子书》中,我们将研究许多T-SQL新功能,并通过一些例子来展示它们如何使用。

  • 安装SQL Server 2005报告服务

    使用一门新技术有时候是属于被迫的。没有正确地安装这个技术只会导致更多的困难。这篇指南列出了正确安装SQL Server 2005报告服务的步骤,以及让你走上正确方向的当前服务包。无故障顺利安装SQLServer2005报告服务包括六个步骤:1、判断先决条件;2、系统配置和注册;3、选择组件、特性和实例类型;4、安装完成之前的最后一点;5、开始服务包装以及查看安装和日志文件。这篇文章中的详细步骤和屏幕截图是直接从SQL Server2005标准版本的媒体中安装报告服务时得来的。

  • SQL Server数据库导入/导出专家手册

    在我们建立一个数据库之后,想将分散在各处的不同类型的数据分类汇总在这个新建的数据库中时,就需要对数据进行导入与导出操作,作为数据库的基本操作之一,导入/导出对DBA来说也是一项极具挑战性的工作。

  • SQL Server Integration Services(SSIS)基础指南

    无论你是否计划将SQL Server数据库转换服务(DTS)包迁移到SQL Server集成服务(SSIS)或在SQL Server 2005里运行DTS包,都需要专家的一些建议。这一指南主要是包括SSIS的相关基础知识、技巧帮助你进行SSIS调整,还介绍了SSIS有经验的一些用户的具体信息等等。

TechTarget

最新资源
  • 安全
  • 存储
  • CIO
  • SOA
  • 云计算
  • 商务智能