浅析SQL Server三大算法的I/O成本

 
   | |

导读:本文作者先对SQL Server三大算法的IO成本进行分析,然后提出优化原则。希望可以给读者带来帮助。

关键词:SQL Server 三种join方法 I/O成本

正在加载数据...

1. Nested Loop Join(嵌套循环联结)

算法:

其思路相当的简单和直接:对于关系R的每个元组 r 将其与关系S的每个元组 s 在JOIN条件的字段上直接比较并筛选出符合条件的元组。写成伪代码就是:

代价:

被联结的表所处内层或外层的顺序对磁盘I/O开销有着非常重要的影响。而CPU开销相对来说影响较小,主要是元组读入内存以后(in-memory)的开销,是 O (n * m)

对于I/O开销,根据 page-at-a-time 的前提条件,I/O cost = M + M * N,

翻译一下就是 I/O的开销 = 读取M页的I/O开销 + M次读取N页的I/O开销。

2. Sort-Merge Join (排序合并联结)

Nested Loop一般在两个集合都很大的情况下效率就相当差了,而Sort-Merge在这种情况下就比它要高效不少,尤其是当两个集合的JOIN字段上都有聚集索引(clustered index)存在时,Sort-Merge性能将达到最好。

算法:

基本思路也很简单(复习一下数据结构中的合并排序吧),主要有两个步骤:

a.按JOIN字段进行排序

b.对两组已排序集合进行合并排序,从来源端各自取得数据列后加以比较(需要根据是否在JOIN字段有重复值做特殊的“分区”处理)

代价:(主要是I/O开销)

有两个因素左右Sort-Merge的开销:JOIN字段是否已排序 以及 JOIN字段上的重复值有多少。

◆最好情况下(两列都已排序且至少有一列没有重复值):O (n + m) 只需要对两个集合各扫描一遍。(这里的m,n如果都能用到索引那就更好了)

◆最差情况下(两列都未排序且两列上的所有值都相同):O (n * log n + m * log m + n * m) 两次排序以及一次全部元组间的笛卡尔乘积

3. Hash Join (哈希联结)

Hash Join在本质上类似于两列都有重复值时的Sort-Merge的处理思想——分区(patitioning)。但它们也有区别:Hash Join通过哈希来分区(每一个桶就是一个分区)而Sort-Merge通过排序来分区(每一个重复值就是一个分区)。

值得注意的是,Hash Join与上述两种算法之间的较大区别同时也是一个较大限制是它只能应用于等值联结(equality join),这主要是由于哈希函数及其桶的确定性及无序性所导致的。

算法:

基本的Hash Join算法由以下两步组成:

同nested loop,在执行计划中build input位于上方,probe input位于下方。

hash join操作分两个阶段完成:build(构造)阶段和probe(探测)阶段。

a.Build Input Phase: 基于JOIN字段,使用哈希函数h2为较小的S集合构建内存中(in-memory)的哈希表,相同键值的以linked list组成一个桶(bucket)

b.Probe Input Phase: 在较大的R集合上对哈希表进行核对以完成联结。

代价:

值得注意的是对于大集合R的每个元组 r ,hash bucket中对应 r 的那个bucket中的每个元组都需要与 r 进行比较,这也是算法最耗时的地方所在。

CPU开销是O (m + n * b) b是每个bucket的平均元组数量。

总结:

三种join方法,都是拥有两个输入,优化的基本原则:

1.避免大数据的hash join,(hash join适合低并发情况,他占用内存和io是很大的);

2.尽量将其转化为高效的merge join、nested loop join。可能使用的手段有表结构设计、索引调整设计、SQL优化,以及业务设计优化。

原文出处:http://wz.csdn.net/item/2165298/
 
来源:csdn    
 
 
 
 
 

SQL Server策略与规划

 
在被问及DBA的终极目标时,有相当一部分人认为架构师才是他们理想中的工作,他们都希望在数据库领域有所建树,而工作环境和待遇最好能同Google看齐。
 
数据库工程师在所有的日常工作中,数据库占到了39%,应用程序的维护占到了20%,其它还包括了服务器、存储以及网络的维护等工作。
 
一个人的收入不仅同能力经验以及地域相关,而且所在公司情况也会有直接的影响,这也就是为什么每年都有那么多的人忙着跳槽。
 
参与本次调查的人员来自于中国大陆的13余个行业,而其中IT服务、金融以及制造业是人数最多的三个行业。
 
在中国,学历还是会和薪酬待遇直接相关。在同等条件下,学历越高薪酬就越高,而且有的硕士甚至会比大专生高出一倍还多。

热门技术手册排行

 

在本次的技术手册中,我们为您提供了PL/SQL的基础知识以及专家指导,包括了PL/SQL中的数据类型简介、PL/SQL函数与触发器以及PL/SQL中的存储过程等,相信您无论是高手还是菜鸟都可以获得有帮助的信息。

 

本系列文章由三部分组成,为Oracle数据库管理员(DBA)面试成功的必备手册。本专题内容囊括从DBA最初的面试开始,从写“杀手简历”到求职信、到面试过程到Oracle认证再到上升到公司高层最后到你成为公司里的明星DBA。专家为你一一指点迷津,最终让你登上成功的宝座。

 

要成为一名DBA,你需要具备哪些素质?DBA的薪酬待遇如何?DBA的职业道路究竟可以走向何方?我们将在本次的技术手册中为您一一解答。

 

在本次技术手册中,我们将对SQL Server存储过程的调试进行详细的介绍,包括了基础的调试方法和在调试过程中出现的T-SQL性能问题和解决方法。

 

本技术专题主要围绕sql server设计这个话题展开,侧重介绍了sql server集簇索引的设计、如何创建sql server索引、如何优化索引、索引的能与不能、处理sql server 2000索引碎片技巧以及维护sql server索引以实现查询优化等等。

查看更多
 
 

登录TechTarget中国

关闭
本服务仅向TechTarget中国的会员开放,请登录或立即免费注册
电子邮件地址:
请输入您的电子邮件地址
密码:
下次自动登录