数据科学家:新型事务性数据值得关注

日期: 2011-10-23 作者:Nicole Laskowski翻译:曾少宁 来源:TechTarget中国 英文

编者按:本文是访谈的第二部分,点击阅读第一部分。   数据科学家开始在分析与商业智能领域中赢得声誉,随着数据容量、流动速度和种类的增长,它们一定会在分离信号的噪音方面发挥越来越重要的作用。分离信号的噪音是新创分析公司Metamarkets的CTO Michael Driscoll提出的。   但是Driscoll认为吸引数据科学家的不会是非结构化数据;相反,他们关注的是结构化数据的粒度——特别是事务数据流。

  TechTarget网站记者最近采访了Driscoll,对近几年的数据变化情况与数据分析工具进行了探讨。   数据业务的种类在最近几年是如何变化的?   Michael Driscol……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

编者按:本文是访谈的第二部分,点击阅读第一部分

  数据科学家开始在分析与商业智能领域中赢得声誉,随着数据容量、流动速度和种类的增长,它们一定会在分离信号的噪音方面发挥越来越重要的作用。分离信号的噪音是新创分析公司Metamarkets的CTO Michael Driscoll提出的。

  但是Driscoll认为吸引数据科学家的不会是非结构化数据;相反,他们关注的是结构化数据的粒度——特别是事务数据流。

  TechTarget网站记者最近采访了Driscoll,对近几年的数据变化情况与数据分析工具进行了探讨。

  数据业务的种类在最近几年是如何变化的?

  Michael Driscoll:这实际上包含了一些变化趋势。首先是出现了传感器技术。这其中包括手机、导航设备或现金收银销售机器。我们的汽车和房子里安装了越来越多传感器,它们负责跟踪行为和事实,以及客户的选择与购物。这是导致数据容量与速度显著增加的原因之一。以前,虽然我们拥有了数量众多的设备,但是它们都没有得到足够的监控。这是趋势的一部分——带宽、存储和计算成本的指数级下降,使得以前保存相对昂贵的数据现在都可以被保存起来。

  最大且最受关注的数据是事务数据和事务流。以前,许多系统在设计时只是对事件进行概要分析,但是现在人们越来越有可能执行数据底层分析,即事务层。事务可能发生在超市信用卡刷卡机的刷卡操作时,发生在高速公路的电子收费区,以及发起电话呼叫时。所有这些事务都拥有众多的属性,通常是指在事务发生时或发生之后向实际的服务器发送的数据。所有这些事务就构成了整个世界的变化。对于我而言,这就是最有意思的结构化数据类型。

  为什么您认为事务数据是最值得关注的?

  Driscoll:事务代表着事实,如果建立模型,那么从真实操作建立模型要比从单纯说词建立模型更容易。同样,按照我的经验,如果要从我2年前任职的北美电信公司的顾客维系建立模型,我们可以取回全部客户通话日志,对准备放弃这个供应商的客户进行数据分析。我们可能已经做了这一步,并且执行了一些情感分析。人们可能会宣称(实际上人们通常会这样做)手机的信号质量有问题,他们经常会遇到通话断线问题。因此,他们是有情绪的,这正是他们取消合约的原因。如果我们分析真实的数据,我们会发现取消合约与信号质量、通话断线次数并没有很直接的联系。而更重要的是他们的朋友(经常通话的朋友)是否在上个月取消了合约。这就是问题的区别所在。结构化数据能够反映非结构化数据很难发现的真实情况。

  这些新数据源如何影响模型的建立方式?

  Driscoll:直到现在,许多关于实际数据的统计建模通常都只是针对非常小的数据集。或者,我可以说许多统计建模都是针对汇总数据执行的。随着支持每日数十亿的成熟事务数据的出现,它改变了公司建立客户模型的方式。这些模型变得更加复杂、更加强大且更具挑战性。最终,在模型的时间粒度方面,它改变了建模范围,将客户行为分析的周期从较长的季度或月份减小为分钟。

    点击继续阅读:数据科学家如何看待Hadoop技术和R语言

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐