SQL Server IO 子系统浅究 I

作者：obuntu很喜欢SQL Server里面4步定位性能问题的理论，具体如下：
1，资源瓶颈
i.  内存 ii. CPU iii. IO
2, Tempdb瓶颈
3，找出执行慢的语句，可以通过三个方面来寻找
i.  统计信息 ii. 缺失索引 iii. 阻塞
4，缓存执行计划分析更多信息，可以参看此篇文章http://blogs.msdn.com/b/jimmymay/archive/2008/09/01/sql-server-performance-troubleshooting-methodology.aspx可以看到，一遇到系统性能问题时，第一步是确定资源是否存在瓶颈，在CPU,内存，IO 三者之间，最容易形成瓶颈的是IO子系统。其实IO子系统的内涵是很深的，能够影响IO子系统性能的因素有磁盘的数目，大小，和转速；文件分配单元大小(file allocation unit size)；HBA；网络带宽；磁盘缓存；控制器；是否使用SAN（storage area networks）；RAID级别；总线速度；IO通道等等。
作为SQL Server的使用者，通常很少会去调整IO子系统的配置，一则重视不够，二是缺少这方面的相关知识和技能。但了解这方面的相关问题还是很有必要的，除了可以更好发挥硬件的作用外，在碰到系统性能问题时，也能很好的进行定位分析。目录
IO子系统相关概念
SQL Server IO 相关概念
性能监视器里的IO子系统计数器
SQLIO
关于IO的一些最佳实践
小结
参考资料IO子系统相关概念A，磁盘磁盘从过去的几十年里，取得了快速的发展，从ATA,SATA,SAS,到现在的SSD，每次技术的变革都带来了磁盘的性能提升。现在应用最广泛的应该是15K转的SAS盘了，对于这样的盘，一些传统的磁盘概念还是不变，如磁道，扇区。现在的硬盘，一般是由重叠的一组盘片组成，每个盘片又被划分为数目相等的磁道，同时对这些磁道进行编号。每个磁道被等分为若干个弧段，这些弧段就是扇区，扇区的一般为512bytes，也有1K，2K，4K大小。同时不同盘片上，相同编号的磁盘则组成柱面。柱面数等于磁道数，盘面数等于总的磁头数，因此硬盘上有所谓的CHS概念，即Cylinder（柱面）、Head（磁头）、Sector（扇区）。磁盘的容量等于柱面数*磁头数*扇区数*扇区的大小。IO的模式有顺序读写和随机读写，磁盘在处理这2种读写方式时，所表现出来的性能是不一样的。一般来说，在顺序读写上，现在10K转的磁盘，能够获取40mb/s~80mb/s的传输速率；15K转的磁盘，能够获取70mb/s~125mb/s的传输速率。对于随机读写来说，其性能取决于磁盘的转速和寻道时间。一个10K转的磁盘完成一个完全的旋转需要6ms（1*60*1000/10000）。硬盘的等待时间，又叫潜伏期(Latency)，是指磁头已处于要访问的磁道，等待所要访问的扇区旋转至磁头下方的时间。平均等待时间为盘片旋转一周所需的时间的一半，一般应在4ms以下，所以一般认为在磁盘上的等待时间为3ms，对15K的磁盘则是2ms。还有一个影响磁盘性能的因素是寻道时间，它是指硬盘在接收到系统指令后，磁头从开始移动到移动至数据所在的磁道所花费时间的平均值。现在10K转的磁盘在读上，平均的寻道时间为4.6ms，在写上，平均的寻道时间为5.2ms。一个15K转的磁盘，读的平均寻道时间为3.5ms，写的寻道时间为4.2ms。如对于小块的8kb读取，传输的时间大概为0.1ms，忽略其他可以忽略的因素后，结合上述讨论，对于随机读，我们可以得出总的时延大概为8ms（10K磁盘）和5.6ms(15K转磁盘)，所以磁盘在一般随机的小块读的性能大概为 125 IOPS（10K磁盘）和175 IOPS（15K磁盘）。上述的情况是较为理想的。如果磁盘上的数据集中在某块小的区域，会降低磁盘的平均寻道时间，性能还会更好。但如果多个IO请求同时发生的话，磁盘还需要对多个IO进行序列化，排序，从而在越高的吞吐下，其时延会更长。一般来说，如果数据分布于整个磁盘，队列深度(queue depth)越高，时延更长，队列深度为4时，时延会达到20ms，队列深度为32时，时延能达到100ms。队列深度指的是磁盘上能并行运行的IO个数。因此，对于队列深度的值建议使用2，当然不同的存储，不同的系统也会有不同的建议值，设置的时候可以参考相关的资料。但也有个情况需要注意，那就是如果数据只分布于磁盘上的某一小块区域，如5%，那么时延并不会随着队列深度的增加而大幅增加，一般是队列深度为8时20ms，队列深度为16时40ms，而且随机读的性能也有很大的提升，每个IOPS可以达到400.这个特点在处理强事务的能让你获得很大的弹性空间。B，RAID现在真实的企业应用环境很少单独使用一个一个磁盘来存放文件，而是采用RAID技术。RAID技术能带来性能的提升和有效的容错能力。简单的说，RAID是一种把多块独立的硬盘（物理硬盘）按不同的方式组合起来形成一个硬盘组（逻辑硬盘），从而提供比单个硬盘更高的存储性能和提供数据备份技术。组成磁盘阵列的不同方式称为RAID级别（RAID Levels）。RAID 有很多种级别，也就是说磁盘有多种组合方式。现在比较常用的是RAID10和RAID5，RAID10的整体性能会比RAID5来得高，但其价格也更昂贵。决定使用哪种RAID级别，对系统的性能影响也很大，因此需要经过充分测试，权衡自己的实际情况并作出选择。C，其他概念文件分配单元(file allocation unit)大小，也就是簇的大小，一般是扇区大小的整数倍，如簇的大小是4K，扇区的大小为512bytes，那么一个簇就会使用到8个扇区。在进行硬盘格式化时，可以使用format命令的/A:size 选项来指定。一般情况下，在SQL Server数据文件和日志文件上比较合适的大小是64K，但有时候32K也能提供较好的性能，因此设置该值之前，最好也进行充分的测试来决定。下面是一个查看当前文件分配单元大小的例子。
C:\Documents and Settings\Administrator>fsutil fsinfo ntfsinfo d:
NTFS 卷序列号 :       0xde500ef9500ed7e3
版本 :                         3.1
区数量 :                  0x0000000012c03620
簇总数 :                  0x0000000012c03620
可用簇  :                  0x000000001098efb6
保留总数 :                  0x0000000000000000
每个扇区字节数  :               512
每个簇字节数 :               512
每个 FileRecord 段的字节数    : 1024
每个 FileRecord 段的簇数 : 2
Mft 有效数据长度 :           0x0000000004a68000
Mft 起始 Lcn  :                  0x0000000000600000
Mft2 起始 Lcn :                  0x0000000009601b10
Mft 区域起始 :                  0x0000000000625460
Mft 区域结尾   :                  0x0000000002b80800配置RAID的时候，有个可以手工设定的参数：Stripe size. 逻辑驱动器的Stripe size，代表控制器每次写入一块物理磁盘的数据量，以KB为单位。不同Stripe size的选择直接影响性能，如IOPS和吞吐量。 Stripe size值小，通过多块磁盘响应多个I/O请求，可以增加I/O访问速率（IOPS）；Stripe size值大，通过多块磁盘响应一个I/O请求，可以增加数据传输速率（Mbps).为了获得更高的性能，要选择条带的容量等于或小于操作系统的簇的大小。大容量的条带会产生更高的读取性能，尤其在读取连续数据的时候。而读取随机数据的时候，最好设定条带的容量小一点。因此，可以看到上述值得设定对SQL Server的性能也是有帮助的，但很难有一个合适的推荐，有时候大部分还是保持默认的，如果确实遇到这方面的设置需求，最好请教相关产品的厂商，或者自己进行充分测试。
SQL Server IO 相关概念SQL Server 引擎有自己的磁盘IO内部管理机制。理解SQL Server的IO处理机制是很有必要的。微软有2部非常好的白皮书，叫《SQL Server I/O Basics Chapter 1》《SQL Server I/O Basics Chapter 2》，对此进行了深入阐述，如果对这方面有兴趣的朋友，是不能错过。但只有英文版，两份加起来有100多页左右。下面对SQL Server IO的一些要点进行简要阐述，更多详情，参考这两份白皮书吧。Write Ahead Logging (WAL) ProtocolSQL Server在写入数据文件的数据时，需要事先将日志文件的内容写入磁盘上的事务日志文件，这就是WAL机制。这个机制可以保护和固化所进行的事务。只有这样，才能实现事务的durability 特性。SQL Server实现WAL机制是通过使用Createfile 的FILE_FLAG_WRITE_THROUGH标识来实现的。Synchronous vs Asynchronous I/O同步I/O指的是I/O API 会等待I/O请求完成后，才进行下一个处理；异步I/O指的是I/O API只需发出I/O请求，然后继续处理其他内容，并在一会之后回头查看该I/O是否已经完成。SQL Server 上98%使用的是异步I/O，这允许SQL Server在写入或者读取一个页之后继续有效的使用CPU和其他资源。Windows平台处理异步I/O是使用了OVERLAPPED这个结构来保存相关的I/O信息，并使用HasOverlappedIOCompleted来标识I/O是否已经完成。在SQL Server 2005后引入了sys.dm_io_pending_io_requests 这个动态管理视图，其中的IO_PENDING列与HasOverlappedIOCompleted对应。Scatter / Gather I/O在SQL Server 2000以前，SQL Server的checkpoint要将buffer pool的脏数据页写入磁盘时，需要维护一个脏数据页的列表，然后按顺序的写入脏数据页，因此如果某个页在写入时遇到I/O问题，则会引起整个checkpoint的性能下降。因此SQL Server 2000以后引入了Scatter/Gather I/O的方式，Scatter 是指从磁盘往内存读取数据页时，不用在内存分配连续的页，可以将页分布在buffer pool里不同的地方，通过调用ReadFileScatter这个API来实现的；Gather指的是从内存往磁盘写数据页时，不必维护之前的那种脏数据页列表，而是在扫描整个buffer pool后，直接将脏数据页写入磁盘某块连续区域，通过调用WriteFileGather这个API来实现。很明显可以看到这种处理方式更为有效，不仅应用在SQL I/O路径上，还应用在Page File 上。Sector alignment, Block Alignment在SQL Server里面，写入事务日志时，并不是按照page的大小（8KB）来写入的，而是按照扇区的大小来写入的。之所以采用扇区来写入是为了防止事务日志被re-write，从而导致事务日志损坏。在扇区上会维护一个校验位，在写入日志文件时，通过检查该检验位来确定该扇区是否可以写入日志，从而保证日志的有效性。扇区大小对用户而言其实是透明的，也就是SQL Server会自动根据磁盘的扇区大小作出相关处理，例如从一个扇区512bytes的还原到扇区为1024bytes时，后续的日志写入就是按照1024bytes了。由于块的最小单位是8KB，又因为在一个磁盘，默认情况下前63个扇区为隐藏扇区，用来存储MBR（主引导信息），也就是隐藏的扇区大小为31.5KB。这个东西叫做分区偏移，如果未进行有效设置时，会导致额外的I/O产生，进而影响性能。这个问题，后续我们会进行详细展示。一般来说，确定合适的扇区大小，可以通过一个计算公式来进行，((Partition offset) * (Disk sector size)) / (Stripe unit size) ，确保结果为整数。例如在一个stripe size 为256的情况下，至少要在512个扇区的偏移后，才能保证公式结果为整数，因此至少需要设置256KB的偏移大小。
(63 * 512) / 262144 = 0.123046875
(64 * 512) / 262144 = 0.125
(128 * 512) / 262144 = 0.25
(256 * 512) / 262144 = 0.5
(512 * 512) / 262144 = 1要查看一个文件上的扇区大小，还可以使用dbcc fileheader(‘dbname’)来查看。Latching and a page:  A read walk-throughLatch，是种轻量级的锁，用来保护各种系统资源，在I/O上则是用来保护内存中的数据页，保证数据的一致性。在SQL Server里，有2类IO方面的latch，一种是PAGE_IO*_LATCH，一种是PAGE*_LATCH，这两类等待类型能够用来定位I/O和内存方面的问题。同时与锁一样，latch也有SH（共享）和EX（排他）这样的性质。PAGE_IO*_LATCH用于读取或者写入page时，如果读写持续时间过长，则这类等待就会很明显。例如对于从物理文件读取一个page时，就会请求一个EX的latch，直到这个读取完成后才释放，这样就能保证读取的过程中，不会被其他的修改。而PAGE*_LATCH则是对已经存在于内存中的page进行加latch，也是在需要的时候才添加latch。SH类型的latch不会阻塞SH类型的latch，但会阻塞EX类型的latch。同时，需要注意latch只在user mode下发生，在kernel mode中对资源的竞争管理是由SQLOS来负责的，在latch上，为了减少热点页的竞争(hot page)，SQL Server还引入了sub-latch的机制。Sub-latch只发生在已经存在内存中的页上。例如，当SQL Server检测到在持续的一段时间内，有很高的SH 行为的latch发生，会将已经持有的latch提升为sub-latch，sub-latch是将一个latch根据逻辑CPU分为多个对应的latch结构队列，这样worker只需要为本地调度器请求一个SH的sub-latch，这样可以避免连锁活动，也使用了更少的资源，提高了处理hot page的能力。当然，这一切是SQL Server自动发生的，不需要我们进行干预。Reading Page 当CPU的某一worker thread需要请求一个page时，会调用BufferPool::GetPage模块，GetPage函数会对BUF结构进行扫描，如果发现请求的page，就会对该page添加latch并返回给调用者；如果没有发现，则需要从磁盘读取该page。读取page时，会有多种行为，如预读（read ahead）机制，但基本步骤如下：
步骤1：向内存管理器(memory manager)发出一个请求分配固定大小的page；
步骤2：该page会与一个跟踪该page的BUF结构关联；
步骤3：在该page上添加EX latch来防止被修改；
步骤4：将BUF结构插入内存中的一个HASH 表。这样所有使用到同样BUF和PAGE的请求会受到EX latch的保护。如果相关对象已经在HASH表中，则不需要这一步，而是直接去HASH表获取相关内容；
步骤5：建立I/O请求，并发送该I/O请求（异步I/O）
步骤6：尝试去获取已请求的latch类型；
步骤7：检查各项错误条件，如果有错误则抛出错误。如果有错误产生时，会导致其他活动的发生，例如如果checksum校验失败，就会产生re-read（重读）的行为。从上述步骤可以看出，当读取Page完成后，并不会立即释放相关的EX latch，而会等到页校验完成后才释放。Writing Page写page时与读page是十分相似的。写page时都是针对page已存在于内存中，并且BUF的状态被标记为dirty（已改变），要看脏页，可以通过sys.dm_os_buffer_descriptors来查看。写入page时，SQL Server是调用WriteMultiple来完成的。写page时，涉及到了三个thread，分别是lazywriter，checkpoint，eager write。Lazywriter是一个定期扫描buffer pool来检查free list 大小的线程。在SQL Server 2008后，引入了TLA(TIME LAST ACCESS)算法，这个算法是对LRU的改进。Lazywriter根据该算法对标记为脏页的页进行判断，如果已经过时(aged)，则调用WriteMultiple将相关dirty page写入磁盘。Checkpoint 是用来标识所有已提交的事务所关联的changed page 是否已经被写入磁盘。Checkpoint是recovery的开始点。与lazywriter不同的是，checkpoint并不会将dirty page从缓存中移除，而是将其标记为clean（干净的）。有很多条件会触发checkpoint，在checkpoint发生时，就会调用WriteMultiple完成相关写入。Eager write 在一些BCP，blob字段的操作中，有些页必须从内存中写入到磁盘才能完成相关的事务，这种写就是eager write，同样是通过调用WriteMultiple来完成的。在写入请求的页时，不仅仅会请求写入脏页，还会写入邻近的页，减少I/O请求，提高I/O性能。写入页，同样需要latch的支持，一般是请求EX，防止未来可能的页修改。但SQL Server 也能允许在写入页的过程中使用SH latch来读取相关的内容。PAE and AWE这个就不用多说，但有两点需要注意：一是PAE和AWE是独立的，开启AWE，不需要PAE；开启PAE，也不需要AWE；二是AWE只扩展buffer pool的大小，对plan cache等不进行扩展。Read Ahead如果我们开启set statistics io on时，经常会看到预读多少的内容。SQL Server的预读机制可以大大提高异步I/O能力。Sparse Files and Copy On Write (COW) Pages稀疏文件主要用于在线DBCC和快照数据库中。稀疏文件一般情况下实际占用空间远小于文件大小值。在创建snapshot数据库时，会伴随着copy on write的行为，copy on write 指的是当一个页将要被写入内容时，会发生一个检查，确定该页是否被copy到了snapshot数据库，如果没有，则在该页被改变之前会被写入到snapshot数据库上，从而保证snapshot的内容一直为某一时刻的。为了维护snapshot数据，在parent库上会有file control block chaining（FBCs）来管理snapshot与parent的对应关系，这样copy on write就能快速定位。Snapshot虽然开始很小，但随着parent库的更改，会慢慢变大，因此在创建snapshot数据库时，需要考虑到这一点。又由于可能需要与数据文件频繁的交互，因此还需要将snapshot放在I/O性能好的设备上。当在snapshot数据库进行查询时，读取请求会先发生在snapshot数据库上，如果相关的page还没从parent库拷贝过来时，就将该读取请求发送给parent上的FBC，并从parent库上读取相关的page。这样能很大程度的保证了snapshot的稀疏。DBCC 同样会使用快照来完成相关内容，当然这个快照是内部维护的。这个概念也澄清了一个误区“DBCC CHECKDB会对数据库里的page加锁”。事实上，在2005以后，DBCC就通过维护内部快照从而完成对数据库的一致性检查。当然，这对I/O的要求比较高，并需要有较多的空间，如果不满足条件的话，可以使用WITH TABLE LOCK 直接在数据库文件上进行一致性检查。Scribbler(s)
Scribbler寓意小孩在图片的线框外乱涂颜色，表示一个组件在内存中的不属于它的区域改变数据。这会造成数据损坏。在SQL Server 2000中，为了防止这种行为的出现，引入了Torn page的校验机制；而在sql server 2005后，还引入checksum机制。如果page_audit设置为checksum时，lazywriter会检查内存中的页，并重新计算页上的checksum值，如果值不一致，就会纪录错误并将该页直接从内存中消除，这就表明发生了一次“scribbler”。追踪页“scribbler”是比较困难的，但有trace flag –T831 可以开启，从而获取更详细的内容。页的校验是SQL Server IO上很重要的一个内容，更多内容可以参考SQL Server IO basic 这份白皮书。可以看到SQL Server 提供了丰富的内部I/O管理机制。理解这些概念，也就能更好的理解SQL Server的工作机制，在碰上一些内部错误或者I/O子系统设置时便能应付自如。更多详情请参阅SQL Server IO basic 白皮书。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

第二部分http://topic.csdn.net/u/20101116/20/f03a5a13-98c7-4a58-ad0d-befede436505.html?7433
粗略的看了下：
PAE and AWE这个就不用多说，但有两点需要注意：一是PAE和AWE是独立的，开启AWE，不需要PAE；开启PAE，也不需要AWE；二是AWE只扩展buffer pool的大小，对plan cache等不进行扩展。印象在这个说法似乎有些问题，一是说法没有提及32位和64位，二是说法本身也不够正确。
AWE在32位和64位下，确实有着不同的作用。32位上是扩展寻址能力，64位是起锁住内存的作用。AWE记得只是扩展数据缓冲池的吧
关于3GB/PAE/AWE 32-Bit
1.少于4G，不使用PAE/AWE/3GB
2.等于4G，如果内存成为瓶颈，则使用/3GB
3.大于4G，使用/PAE  and /AWE64-Bit
使用AWE+lock page in memory.
支持，期待lz的
第2话：cpu
第3话：memory
第4话：tempdb
第5话：statistics
第6话：missing index
第7话: locking
第8话：execution plan
about the author ...
是我在表达的时候造成误解了，其实从概念入手的话，就可以很好的看出PAE和AWE的作用。PAE表示让OS能认到达64G的内存；
AWE表示让程序可以获取4GB VAS 外的其他内存空间。一般情况下AWE是不需要PAE的，这点可以参考：http://blogs.msdn.com/b/oldnewthing/archive/2004/08/19/217087.aspx但为了更好的使用4GB外的内存，还是建议开启AWE。微软的KB文档也进行了说明http://support.microsoft.com/?kbid=283037此外，超出 4 GB 的内存范围对内存管理器是公开的，并且 AWE 通过 PAE 发挥作用。没有 PAE，AWE 就无法保留超出 4 GB 的内存。由此看来，还是建议使用PAE。可惜文中那句不能修改了。对于具体的使用建议，我觉得这篇文章的建议会更好点：http://blogs.technet.com/b/vipulshah/archive/2007/05/10/3gb-pae-and-awe-on-32-bit-systems.aspxIf your system has < 4 GB - use only /3GBIf your system has > 4 GB and < 16 GB - use /3GB + /PAE + AWEIf your system has > 16 GB - use /PAE + AWE谢谢 perfectaction！
tempdb ，statistics ， execution plan 还是蛮有意思的，你可以自己试试看。有本电子书还是不错的《Professional SQL Server 2008 Internals and Troubleshooting》你想知道的内容，基本上都有涉及。
tempdb ，statistics ， execution plan 还是蛮有意思的，你可以自己试试看。有本电子书还是不错的《Professional SQL Server 2008 Internals and Troubleshooting》你想知道的内容，基本上都有涉及。
顶一记，希望能把WAL，CHECK POINT 相关的再解释一下。我就想知道一个INSERT 或UPDATE 执行时。IO的具体操作，谢谢！
顶~
大连网站制作www.dlsnail.com大连网站制作
呵呵，路过看看新手报到，多多支持
Signature-------------------------------------------------------------------------------------We are what we repeatedly do. Excellence, therefore, is not an act, but a habit ugg boots  ugg Classic Mini  ugg classic tall  ugg classic cardy  ugg classic short