SQL Server 2008中九种数据挖掘算法分析(下)

 
   | |

导读:在sql server 2008中提供了9种常用的数据挖掘算法,这些算法用在不同数据挖掘的应用场景下,下面我们就各个算法逐个分析讨论。

关键词:SQL Server 2008 算法 数据挖掘

正在加载数据...

  4、关联规则算法

  关联算法规则是要发现数据库中变量和个体之间关系程度,也就是要发现大量数据中项集之间有趣的关联或相关联系。例如,在关联规则挖掘中,典型的例子就是购物篮分析,该分析过程就是通过分析顾客所购买的不同商品之间的联系,来挖掘顾客的购买习惯,并帮助销售商制定营销策略。关联规则算法中有两个重要的参数支持度和置信度。支持度就是指X项集和Y项集中,同时发生X,Y事件的概率。置信度就是指X项集和Y项集中,X事件发生的概率下,Y事件发生的概率。

  在sql server 2008中,我们可以通过挖掘模型查看器来查看关联规则模型。如图4所示

  在图4中,规则可以查看算法中产生的关联规则,我们可以通过此来了解关联规则内容以及其支持度和置信度。项集可以查看算法中产生的对象组,我们可以通过此来了解各个对象组内容及其支持。依赖关系网络可以呈现产品间的相关性,并通过图形了解产品间的相关性。

  5、顺序分析和聚类分析算法

  顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法。可以使用该算法来研究包含可通过下面的路径或顺序链接到的事件的数据。该算法通过对相同的顺序进行分组或分类来查找最常见的顺序。

  在sql server 2008中,我们可以通过挖掘模型查看器来查看顺序分析模型。如图5所示

  图5

  在图5中分类关系图可以显示挖掘模型中的所有分类,分类之间连线的明暗程度表示分类的相似程度。通过调整分类右侧的滑块,可以调整显示的连线数。分类剖面图提供算法创建的分类的总体视图,显示了分类中的每个属性以及属性的分布。分类特征可以检查分类的组成特征。分类对比可以比较两个分类的属性。状态转换可以在选中一个分类后,可在选中的分类中浏览序列状态之间的转换。

  6、时序算法

  时序算法提供了一些针对连续值预测进行了优化的回归算法,并将时间序列分解成主要趋势成分,季节变化成分,并检验理论模型是否能反应现象。

  在sql server 2008中,我们可以通过挖掘模型查看器来查看时序模型。如图6所示

  图6

  在图6中,图表栏显示预测变量个产品过去值以及预测值,以及误差区间。模型将算法以完成的模型显示为树。

  7、神经网络算法

  神经网络是一组连接的输入输出单元,其中每一个连接都与一个权相连接。在训练学习阶段,通过调整训练网络的权,使得能够预测输入样本的正确类标号。神经网络算法创建由多至三层神经元组成的网络。这些层分别是输入层、可选隐藏层和输出层。输入层:输入神经元定义数据挖掘模型的所有输入属性值及其概率。隐藏神经元接收来自输入神经元的输入,并向输出神经元提供输出。隐藏层是向各种输入概率分配权重的位置。权重说明某一特定输入对于隐藏神经元的相关性或重要性。输入所分配的权重越大,则输入的值越重要。输出神经元代表数据挖掘模型的可预测属性值。

  在sql server 2008中,我们可以通过挖掘模型查看器来查看神经网络模型。如图7所示

  图7

  在图7中,输入选择神经网络模型将用作输入的属性和属性值。输出指定使用输出的神经网络的属性。变量指定属性右侧的条表示指定输入属性状态所倾向的输出属性状态。 条的大小则表示输出状态倾向于输入状态的程度。

  8、逻辑回归算法

  逻辑回归是根据输入域值对记录进行分类的统计方法,通过建立一组方程,把输入域值与输出字段每一类的概率联系起来。模型在分析二分类或有序因变量与解释变量的关系,用自变量去预测因变量在给定某个值的概率。一旦生成模型,便可用于估计新的数据的概率。概率最大的目标类被指定为该记录的预测输出值。逻辑回归算法是神经网络算法的一种变体,用于确定多个因素对一对结果的影响。通过对输入和输出之间的关系进行建模。来测量每个输入对输出的影响,并权衡不同输入在完成的模型中的作用。

  9、线性回归算法

  线形回归算法是一种常用的用于统计并作出预测的方法,使决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,根据输入字段估计预测输出字段的最佳线形方程,然后使用该关系进行预测。使用线性回归确定两个连续列之间的关系,代表一条直线或者平面,以评估数据列之间的关系。


SQL Server 2008中九种数据挖掘算法分析
 SQL Server 2008中九种数据挖掘算法分析(上)
 SQL Server 2008中九种数据挖掘算法分析(下)

原文出处:http://tech.it168.com/a2009/0702/599/000000599741_1.shtml
 
来源:IT168    作者:it15xing    
 
 
 
 
 

SQL Server 2008

 
SQL Server 2008 有61个新特性,甚至还不包括缺陷修复和性能改进。在这里详细地说明每一个特性很困难,所以为了节省篇幅,有一些特性在这里不会讨论。
 
我们应该已经了解了Report Builder 3.0的地图功能大大地丰富其数据可视化工具集,这是一个可以使各种报表更加生动和美观的方法。
 
当创建报表和添加多边形图层后,我们几乎已经完成了地图的创建。最后的步骤包含另外2个图层来完成Report Builder 3.0地图的创建——点和块图层。
 
我们可以通过创建第一个层来插入一个新地图到报表中,而创建层的最简单方法是使用“New Map”向导。
 
在使用Report Builder 3.0创建多边形图层之后,我们必须配置其属性,这样只有关联了销售额的州才会被着色。

热门技术手册排行

 

在本次的技术手册中,我们为您提供了PL/SQL的基础知识以及专家指导,包括了PL/SQL中的数据类型简介、PL/SQL函数与触发器以及PL/SQL中的存储过程等,相信您无论是高手还是菜鸟都可以获得有帮助的信息。

 

本系列文章由三部分组成,为Oracle数据库管理员(DBA)面试成功的必备手册。本专题内容囊括从DBA最初的面试开始,从写“杀手简历”到求职信、到面试过程到Oracle认证再到上升到公司高层最后到你成为公司里的明星DBA。专家为你一一指点迷津,最终让你登上成功的宝座。

 

要成为一名DBA,你需要具备哪些素质?DBA的薪酬待遇如何?DBA的职业道路究竟可以走向何方?我们将在本次的技术手册中为您一一解答。

 

在本次技术手册中,我们将对SQL Server存储过程的调试进行详细的介绍,包括了基础的调试方法和在调试过程中出现的T-SQL性能问题和解决方法。

 

本技术专题主要围绕sql server设计这个话题展开,侧重介绍了sql server集簇索引的设计、如何创建sql server索引、如何优化索引、索引的能与不能、处理sql server 2000索引碎片技巧以及维护sql server索引以实现查询优化等等。

查看更多
 
 

登录TechTarget中国

关闭
本服务仅向TechTarget中国的会员开放,请登录或立即免费注册
电子邮件地址:
请输入您的电子邮件地址
密码:
下次自动登录