Yahoo前任数据官:数据挖掘与分析技巧(下)

日期: 2011-06-28 作者:Nicole Laskowski翻译:孙瑞 来源:TechTarget中国 英文

接上文:Yahoo前任数据官:数据挖掘与分析技巧(上)   数据管理技巧   与大数据管理相关的挑战还包括数据存储与计算。Fayyad为可能遇到的困难提供了一些小技巧,并建议企业应该保持开放的心态。   比如大数据意味着在处理器上投入更多资金,有时甚至是非常昂贵的。因此,有些企业将考虑云存储解决方案,作为更加经济的选择,但是Fayyad表示,先不管云计算方案能够提供怎样的便利和经济效益,但是将数据迁移到云同样需要非常大的带宽资源,这部分成本也会不低到哪去,在维护方面也将遇到更多问题。

  Fayyad还提醒,根据他在Yahoo工作的经验来说那些昂贵的即席沙箱计算(ad hoc sandbox ……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

接上文:Yahoo前任数据官:数据挖掘与分析技巧(上)

  数据管理技巧

  与大数据管理相关的挑战还包括数据存储与计算。Fayyad为可能遇到的困难提供了一些小技巧,并建议企业应该保持开放的心态。

  比如大数据意味着在处理器上投入更多资金,有时甚至是非常昂贵的。因此,有些企业将考虑云存储解决方案,作为更加经济的选择,但是Fayyad表示,先不管云计算方案能够提供怎样的便利和经济效益,但是将数据迁移到云同样需要非常大的带宽资源,这部分成本也会不低到哪去,在维护方面也将遇到更多问题。

  Fayyad还提醒,根据他在Yahoo工作的经验来说那些昂贵的即席沙箱计算(ad hoc sandbox computation)也许并不适合HadoopHadoop是基于Google MapReduce平台的开源项目,用来分析海量数据集。Yahoo是该项目的最大贡献者之一。

  “一旦发现我们对数据的需求,人们往往会坚持使用Hadoop。网格的方式对探索新的计算是件好事,但对于长期的存储解决方案也许并不是一个好的选择。”

  数据分析技巧

  Fayyad向我们描述了某些数据仓库的恶性循环问题,虽然业务认为数据和分析是极为重要的,但是许多业务需求无法满足的现状导致进一步存储投资无法开展。

  他建议通过提取数据摘要的方式进行数据缩减,将数据快速准确地映射到分段和计算仪表盘中。通过这样的工作,你可以弄清有多少基础架构需要支持它。

  除此之外,Fayyad还简短地介绍了下数据挖掘相关的内容,他说:“数据挖掘受到越来越多人的重视,许多有趣的查询是无法由SQL来完成的。”

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

翻译

孙瑞
孙瑞

相关推荐