Yahoo前任数据官:数据挖掘与分析技巧(上)

日期: 2011-06-28 作者:Nicole Laskowski翻译:孙瑞 来源:TechTarget中国 英文

没人怀疑数据质量是一个企业商业智能的基础,但是除了质量之外如何管理数据,特别是如何管理海量数据给每一个企业提出了难题。   所谓的“Big Data”是由IBM和Gartner分析师提出的概念,我们比较时髦的称其为大数据,根据Yahoo公司前任首席数据官兼副总裁Usama Fayyad的说法,处理大数据能够测试一个企业的传统数据仓库能力,如ETL等。   为何说“分析”是大数据的未来?   Fayyad曾被视为数据挖掘领域的No.1,他演讲大多是来自于亲身经历,他向我们解释了为什么说分析是大数据未来的发展方向。   早在上世纪90年代,Fayyad就职于NASA的喷气推进实验室。

来自于Palo……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

没人怀疑数据质量是一个企业商业智能的基础,但是除了质量之外如何管理数据,特别是如何管理海量数据给每一个企业提出了难题。

  所谓的“Big Data”是由IBM和Gartner分析师提出的概念,我们比较时髦的称其为大数据,根据Yahoo公司前任首席数据官兼副总裁Usama Fayyad的说法,处理大数据能够测试一个企业的传统数据仓库能力,如ETL等。

  为何说“分析”是大数据的未来?

  Fayyad曾被视为数据挖掘领域的No.1,他演讲大多是来自于亲身经历,他向我们解释了为什么说分析是大数据未来的发展方向。

  早在上世纪90年代,Fayyad就职于NASA的喷气推进实验室。来自于Palomar天文台的科学家共管理者3个TB的数据,他们通过各种照片以及公式来试图区分银河系中的各种行星。而每张照片中都将抽取出40多个不同的变量,这使得精确预测成为不可能完成的任务。

  Fayyad说:“这个数据集意味着数十亿个看上去类似的对象。”

  Fayyad和他的团队使用了决策树算法作为数据挖掘的基础,来确定这40多个变量对不同分级的作用,他们最终找到了8个变量的集合,正是这8个变量困扰了天文学家将近30年。

  “这在天文观测领域是一件轰动的发现,而建立的数据模型能够将准确率提升到94%。” Fayyad说。

  但并不熟所有的分析技术都像天文观测这样复杂,有些时候很小的元素甚至是很明显的元素都是非常重要的。

  Fayyad和他的团队在2003年成立了DMX公司,专注于数据挖掘领域,并在2004年被互联网公司Yahoo收购。之后,Fayyad又帮助戴姆勒克莱斯勒公司进行微市场销售预测工作,除了建立一些数据集市之外,他还在报表呈现上做了一些工作。Fayyad向我们介绍,当报表以不同的方式呈现出来之后,结果变得非常明显,然而这里面的数据时没有变化的,都是他们之前的数据。

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

翻译

孙瑞
孙瑞

相关推荐