而每次查詢分析器尋找路徑時(shí),并不會每一次都去統(tǒng)計(jì)索引中包含的行數(shù),值的范圍等,而是根據(jù)一定條件創(chuàng)建和更新這些信息后保存到數(shù)據(jù)庫中,這也就是所謂的統(tǒng)計(jì)信息。
如何查看統(tǒng)計(jì)信息
查看SQL Server的統(tǒng)計(jì)信息非常簡單,使用如下指令:
DBCC SHOW_STATISTICS('表名','索引名')
所得到的結(jié)果如圖1所示。
圖1.統(tǒng)計(jì)信息
統(tǒng)計(jì)信息如何影響查詢
下面我們通過一個簡單的例子來看統(tǒng)計(jì)信息是如何影響查詢分析器。我建立一個測試表,有兩個INT值的列,其中id為自增,ref上建立非聚集索引,插入100條數(shù)據(jù),從1到100,再插入9900條等于100的數(shù)據(jù)。圖1中的統(tǒng)計(jì)信息就是示例數(shù)據(jù)的統(tǒng)計(jì)信息。
此時(shí),我where后使用ref值作為查詢條件,但是給定不同的值,我們可以看出根據(jù)統(tǒng)計(jì)信息,查詢分析器做出了不同的選擇,如圖2所示。
圖2.根據(jù)不同的謂詞,查詢優(yōu)化器做了不同的選擇
其實(shí),對于查詢分析器來說,柱狀圖對于直接可以確定的謂詞非常管用,這些謂詞比如:
where date = getdate()
where id= 12345
where monthly_sales 10000 / 12
where name like “Careyson” + “%”
但是對于比如
where price = @vari
where total_sales > (select sum(qty) from sales)
where a.id =b.ref_id
where col1 =1 and col2=2
這類在運(yùn)行時(shí)才能知道值的查詢,采樣步長就明顯不是那么好用了。另外,上面第四行如果謂詞是兩個查詢條件,使用采樣步長也并不好用。因?yàn)闊o論索引有多少列,采樣步長僅僅存儲索引的第一列。當(dāng)柱狀圖不再好用時(shí),SQL Server使用密度來確定最佳的查詢路線。
密度的公式是:1/表中唯一值的 個數(shù)。當(dāng)密度越小時(shí),索引越容易被選中。比如圖1中的第二個表,我們可以通過如下公式來計(jì)算一下密度:
圖3.某一列的密度
根據(jù)公式可以推斷,當(dāng)表中的數(shù)據(jù)量逐漸增大時(shí),密度會越來越小。
對于那些不能根據(jù)采樣步長做出選擇的查詢,查詢分析器使用密度來估計(jì)行數(shù),這個公式為:估計(jì)的行數(shù)=表中的行數(shù)*密度
那么,根據(jù)這個公式,如果我做查詢時(shí),估計(jì)的行數(shù)就會為如圖4所示的數(shù)字。
圖4.估計(jì)的行數(shù)
我們來驗(yàn)證一下這個結(jié)論,如圖5所示。
圖5.估計(jì)的行數(shù)
因此,可以看出,估計(jì)的行數(shù)是和實(shí)際的行數(shù)有出入的,當(dāng)數(shù)據(jù)分布均勻時(shí),或者數(shù)據(jù)量大時(shí),這個誤差將會變的非常小。
統(tǒng)計(jì)信息的更新
由上面的例子可以看到,查詢分析器由于依賴于統(tǒng)計(jì)信息進(jìn)行查詢,那么過時(shí)的統(tǒng)計(jì)信息則可能導(dǎo)致低效率的查詢。統(tǒng)計(jì)信息既可以由SQL Server來進(jìn)行管理,也可以手動進(jìn)行更新,也可以由SQL Server管理更新時(shí)手動更新。
當(dāng)開啟了自動更新后,SQL Server監(jiān)控表中的數(shù)據(jù)更改,當(dāng)達(dá)到臨界值時(shí)則會自動更新數(shù)據(jù)。這個標(biāo)準(zhǔn)是:
向空表插入數(shù)據(jù)時(shí) 少于500行的表增加500行或者更多 當(dāng)表中行多于500行時(shí),數(shù)據(jù)的變化量大于20%時(shí)
上述條件的滿足均會導(dǎo)致統(tǒng)計(jì)被更新。
當(dāng)然,我們也可以使用如下語句手動更新統(tǒng)計(jì)信息。
UPDATE STATISTICS 表名[索引名]
列級統(tǒng)計(jì)信息
SQL Server還可以針對不屬于任何索引的列創(chuàng)建統(tǒng)計(jì)信息來幫助查詢分析器獲取”估計(jì)的行數(shù)“.當(dāng)我們開啟數(shù)據(jù)庫級別的選項(xiàng)“自動創(chuàng)建統(tǒng)計(jì)信息”如圖6所示。
圖6.自動創(chuàng)建統(tǒng)計(jì)信息
當(dāng)這個選項(xiàng)設(shè)置為True時(shí),當(dāng)我們where謂詞指定了不在任何索引上的列時(shí),列的統(tǒng)計(jì)信息會被創(chuàng)建,但是會有以下兩種情況例外:
創(chuàng)建統(tǒng)計(jì)信息的成本超過生成查詢計(jì)劃的成本 當(dāng)SQL Server忙時(shí)不會自動生成統(tǒng)計(jì)信息
我們可以通過系統(tǒng)視圖sys.stats來查看這些統(tǒng)計(jì)信息,如圖7所示。
圖7.通過系統(tǒng)視圖查看統(tǒng)計(jì)信息
當(dāng)然,也可以通過如下語句手動創(chuàng)建統(tǒng)計(jì)信息:
CREATE STATISTICS 統(tǒng)計(jì)名稱 ON 表名 (列名 [,...n])
總結(jié)
本文簡單談了統(tǒng)計(jì)信息對于查詢路徑選擇的影響。過時(shí)的統(tǒng)計(jì)信息很容易造成查詢性能的降低。因此,定期更新統(tǒng)計(jì)信息是DBA重要的工作之一。
您可能感興趣的文章:- SQLSERVER收集語句運(yùn)行的統(tǒng)計(jì)信息并進(jìn)行分析
- SQL Server自動更新統(tǒng)計(jì)信息的基本算法
- sqlserver 統(tǒng)計(jì)sql語句大全收藏
- SQLSERVER語句的執(zhí)行時(shí)間顯示的統(tǒng)計(jì)結(jié)果是什么意思
- SQLServer2005 中的幾個統(tǒng)計(jì)技巧
- SQL Server統(tǒng)計(jì)信息更新時(shí)采樣百分比對數(shù)據(jù)預(yù)估準(zhǔn)確性的影響詳解