主键与聚集索引的讨论

聚集索引决定了数据的物理存储顺序，SQL SERVER的存储是以页为单位的如果建立了聚集索引就意味着数据每一次做insert都要先寻找一下物理存方的位置，即便是数据一定是存储到最末页也会做一次这样的寻找，这样说来我到觉得一般的业务表只要建立主键就可以不需要建聚集索引，不建聚集索引的表叫做堆，堆的数据存储时物理的存放次顺一定是最末一页并且少了聚集索引在数据存储时寻找的过程，这样效率不是提高了？
如果，当前表并不是业务表只是多数在做查询并且数据量很大才适合做聚集索引？最近一直在为聚集索引的事情苦恼，看了一些书之后得出上面的结论，和大家探讨一下不知道这样的总结对不对。俺家的数据因为搞了个GUID做为主键 ……

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

索引资料一份奉上实际上，您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引：聚集索引(clustered index，也称聚类索引、簇集索引)和非聚集索引(nonclustered index，也称非聚类索引、非簇集索引)。下面，我们举例来说明一下聚集索引和非聚集索引的区别：
　　其实，我们的汉语字典的正文本身就是一个聚集索引。比如，我们要查“安”字，就会很自然地翻开字典的前几页，因为“安”的拼音是“an”，而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的，那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的部分仍然找不到这个字，那么就说明您的字典中没有这个字;同样的，如果查“张”字，那您也会将您的字典翻到最后部分，因为“张”的拼音是“zhang”。也就是说，字典的正文部分本身就是一个目录，您不需要再去查其他目录来找到您需要找的内容。
　　我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。
　　如果您认识某个字，您可以快速地从自典中查到这个字。但您也可能会遇到您不认识的字，不知道它的发音，这时候，您就不能按照刚才的方法找到您要查的字，而需要去根据“偏旁部首”查到您要找的字，然后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并不是真正的正文的排序方法，比如您查“张”字，我们可以看到在查部首之后的检字表中“张”的页码是672页，检字表中“张”的上面是“驰”字，但页码却是63页，“张”的下面是“弩”字，页面是390页。很显然，这些字并不是真正的分别位于“张”字的上下方，现在您看到的连续的“驰、张、弩”三字实际上就是他们在非聚集索引中的排序，是字典正文中的字在非聚集索引中的映射。我们可以通过这种方式来找到您所需要的字，但它需要两个过程，先找到目录中的结果，然后再翻到您所需要的页码。
　　我们把这种目录纯粹是目录，正文纯粹是正文的排序方式称为“非聚集索引”。
　　通过以上例子，我们可以理解到什么是“聚集索引”和“非聚集索引”。
　　进一步引申一下，我们可以很容易的理解：每个表只能有一个聚集索引，因为目录只能按照一种方法进行排序。
　　(二)何时使用聚集索引或非聚集索引
　　下面的表总结了何时使用聚集索引或非聚集索引(很重要)。
动作描述使用聚集索引使用非聚集索引
外键列应   应
主键列应应
列经常被分组排序(order by) 应应
返回某范围内的数据应不应
小数目的不同值应不应
大数目的不同值不应应
频繁更新的列不应应
频繁修改索引列不应应
一个或极少不同值不应不应　　事实上，我们可以通过前面聚集索引和非聚集索引的定义的例子来理解上表。如：返回某范围内的数据一项。比如您的某个表有一个时间列，恰好您把聚合索引建立在了该列，这时您查询2004年1月1日至2004年10月1日之间的全部数据时，这个速度就将是很快的，因为您的这本字典正文是按日期进行排序的，聚类索引只需要找到要检索的所有数据中的开头和结尾数据即可;而不像非聚集索引，必须先查到目录中查到每一项数据对应的页码，然后再根据页码查到具体内容。
在确认的两个问题就是：
1，不键聚集索引是不是INSERT的效率就很高
2，通过健非聚集索引一样也可以提高查询效率，如果数据量不大建立聚集索引不是太浪费了？
1.没错，heap的时候，insert是随便找个空闲的空间就插入了。
2.看你select语句中where的范围了，如果是查询单个记录，那么非聚集索引应该快点，因为它的叶子级存储的直接是数据所在的地址（RID），一次读取一页，即可获得数据。而有聚集索引的话，非聚集索引先要获得聚集索引的键，然后到聚集索引上进行查找。
如果数据比较多的话，那么，heap明显是速度比较慢的。原因是，heap中的数据是无序存放的，为了获得所有数据，磁盘需要读取物理上并不连续的多个页。而聚集索引中，数据的存放是有序，紧密的，读取的叶数会少些。
距离，有1到10个数据如果是存放在heap中，极端情况下，可能分别存放在10个不同的页，因此插入时是随意找的空闲空间，为了获取这些数据，需要读取10次；而聚集索引中，1－10会连续存储，如果数据量一条记录不大的话，这10个记录可以完全放在1数据页上，此时，获得这些数据只要物理读1次。
一个表最多一个主键，最多一个聚集索引。
数据库在创建主键同时，会自动建立一个唯一索引。如果这个表之前没有聚集索引，同时建立主键时候没有强制指定使用非聚集索引，则建立主键时候，同时建立一个唯一的聚集索引建立主键(PRIMARY KEY)与聚集索引(Clustered Index)的先后顺序就只有下面几种情况：
  情况一、在没有任何索引的表上建主键，同时自动产生唯一的聚集索引。  情况二、在没有任何索引的表上先建聚集索引，再建主键。
这种情况下在创建主键的同时，建立了一个唯一的非聚集索引。  情况三、在有非聚集索引表（即堆）上，先建主键。
类似于情况一，建主键时自动建立一个唯一的聚集索引。
需要注意的是：
没有聚集索引,有非聚集索引的表非聚集索引的行指针会指向数据堆，聚集索引重建时非聚集索引的行指针又会指回聚集索引的行位置。建聚集索引会导致现有的非聚集索引全部重新组织一边。  情况四，在有非聚集索引的表，先建聚集索引，再建主键。
类似于情况二。