数据科学家如何看待Hadoop技术和R语言

日期: 2011-10-23 作者:Nicole Laskowski翻译:曾少宁 来源:TechTarget中国 英文

接上文:数据科学家:新型事务性数据值得关注   数据科学家是如何看待软件工具的?   Driscoll:将建模从相对较小的高级汇总数据转变到大型事务日志上,您就不可能在包含数据的系统之外创建模型。所以这会造成一个结果,数据科学家越来越倾向于寻找将分析移动到数据的方法,而不是将数据移动到分析上。这是因为数据是很难移动的,而分析算法更容易移动。所以,近几年来,人们迫切需要在数据库中实现分析。

随着工具的发展,在编写数据库内运行的代码或编写可扩展代码的能力上,数据科学家必然比以前有明显提升。   最近关于Hadoop 的讨论很多,它适用于哪些方面?   Driscoll:Hadoop是一个大型数据处理……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

接上文:数据科学家:新型事务性数据值得关注

  数据科学家是如何看待软件工具的?

  Driscoll:将建模从相对较小的高级汇总数据转变到大型事务日志上,您就不可能在包含数据的系统之外创建模型。所以这会造成一个结果,数据科学家越来越倾向于寻找将分析移动到数据的方法,而不是将数据移动到分析上。这是因为数据是很难移动的,而分析算法更容易移动。所以,近几年来,人们迫切需要在数据库中实现分析。随着工具的发展,在编写数据库内运行的代码或编写可扩展代码的能力上,数据科学家必然比以前有明显提升。

  最近关于Hadoop 的讨论很多,它适用于哪些方面?

  Driscoll:Hadoop是一个大型数据处理平台,而如果您希望建立大型数据模型,那么您最终会在Hadoop平台内部找到建模方法。同时,现在出现了许多工具支持。其中一个是Mahout;它是一个开源机器学习工具套件。它可能是最受关注的工具。

  您所指的“大型数据”是什么意思?

  Driscoll:小型数据是指适合RAM(随机存取内存)、内存和桌面电脑的数据。中型数据是指适合一台主机的数据。因此,小型数据是指0至10GB;中型数据是指100GB至TB级数据,可以保存在一块硬盘上。大数据是指无法保存在一台主机的数据;它必须分布在多台主机上。最终,如果希望进行大数据分析,您必须掌握写分布式数据并支持多台主机并行处理的算法。这实际上正是Hadoop——分布式计算平台。

  我们谈到了开源工具Hadoop和Mahout,为什么数据科学家需要它们?

  Driscoll:目前数据科学领域最流行的工具(同时支持开放源码和商业源码)是R语言,它是一种支持统计计算和数据可视化的环境。有一些原因促使得数据科学家关注于开源工具。其中一个原因是,R具有一个非常广泛的社区,包括使用R语言的学术界和行业。许多用户开发了程序库,允许人们使用新的集群算法,寻找更优的逻辑回归方法,以及寻找更快速的统计异常的识别方法。所有由工具用户创建的程序库都是自由分享的。现在,R的网站CRAN (Comprehensive R Archive Network)包含有成千上万个程序库。

  我认为问题的关键在于,采用开放的模式能够使数据科学以最快的方式向前发展。因为这个领域变化很快,开源社区是一个能够传播新概念和新方法的地方,因此新技术能够在参与者之间快速流传。相反,像Matlab或SAS等工具,它们发现新算法并商业软件中实现的过程需要几个月时间。商业软件的本质决定了它的应用速度会比开源软件慢得多。

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐