索引模塊除了是數(shù)據(jù)庫最重要的模塊之一,也是面試中最經(jīng)常被問到的,關于索引模塊常見問題如下:
衡山ssl適用于網(wǎng)站、小程序/APP、API接口等需要進行數(shù)據(jù)傳輸應用場景,ssl證書未來市場廣闊!成為創(chuàng)新互聯(lián)公司的ssl證書銷售渠道,可以享受市場價格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18980820575(備注:SSL證書合作)期待與您的合作!
為什么要使用索引:
數(shù)據(jù)庫中最小存儲單位通常是塊或者頁,每個塊里面都會包含多行數(shù)據(jù)。而我們在查詢一些沒有使用索引的數(shù)據(jù)時,通常都需要進行全表掃描,也就是說需要加載所有的塊,然后逐個遍歷這些塊直到查找出我們需要查找的數(shù)據(jù)??上攵@種查詢方式在數(shù)據(jù)量比較大的時候效率是比較慢的,所以我們很多時候都需要避免全表掃描。不過數(shù)據(jù)庫的設計者早已考慮到這一點所以引入了更高效的查詢機制,即使用索引。索引的靈感來自于字典,我們都知道字典會記錄一些關鍵信息,例如偏旁部首拼音等,我們通過這些關鍵信息就可以快速查找到那個字所在的頁面。而索引也是如此,數(shù)據(jù)庫能夠通過索引記錄的關鍵信息迅速定位目標數(shù)據(jù)在哪個位置上,就可以避免全表掃描的發(fā)生。所以使用索引的目的就是為了讓查詢更高效。
什么樣的信息能成為索引:
主鍵id,唯一的字段,以及頻繁被作為查詢條件的字段,若同時多個字段頻繁作為查詢條件時可以對這幾個字段建立組合索引
索引的數(shù)據(jù)結構:
通常是B+樹、Hash以及少數(shù)數(shù)據(jù)庫支持的BitMap
接下來簡單的說下索引的數(shù)據(jù)結構,我們都知道索引最常用的數(shù)據(jù)結構是B+樹,在介紹什么是B+樹之前,首先得了解二叉查找樹和B樹,并簡單說明一下為什么沒有采用二叉樹或B樹作為索引的數(shù)據(jù)結構。
現(xiàn)在我們已經(jīng)知道給字段建立索引的目的是為了幫助我們快速定位到目標數(shù)據(jù)所在的位置,若讓我們自己去設計索引的話,對于快速查找這個需求可能第一時間就會想到二叉查找樹之類的樹形數(shù)據(jù)結構。所以本小節(jié)先介紹二叉查找樹,并一步一步地了解為何在眾多的樹形結構中會采用B+樹作為索引的數(shù)據(jù)結構。
二叉查找樹是一種常用的樹形數(shù)據(jù)結構,二叉查找樹的每個節(jié)點最多只有左右兩個子節(jié)點,分別成為左子樹和右子樹,通常左子樹的元素小于它的父節(jié)點,而右子樹則大于它的父節(jié)點。位于最頂端的節(jié)點通常稱為根節(jié)點,二叉查找樹的查找算法是二分查找。下圖是一顆平衡二叉樹,所謂平衡二叉樹就是末端左右兩個節(jié)點的高度相差不超過1:
二叉查找樹由于同一級最多只能有兩個節(jié)點,且對磁盤IO沒有優(yōu)化,因為每次IO讀取都只能讀兩個節(jié)點,所以并不能達到較理想的查詢速度,不能作為索引的數(shù)據(jù)結構。
由于二叉樹每次只能讀取兩個節(jié)點對磁盤IO沒有優(yōu)化,并且只有左右兩個查找路徑,樹的深度就會隨著日益增加的數(shù)據(jù)量而遞增,所以這時候就需要尋找一個每個層級可以有多個節(jié)點的多路樹形結構,而B樹就符合該需求,B樹又稱為多路平衡查找樹,其大致結構如下圖:
同一層有m個節(jié)點通常稱為m階,一棵m階B樹(balanced tree of order m)是一棵平衡的m路搜索樹。它或者是空樹,或者是滿足下列性質(zhì)的樹:
ceil(m/2)
個子節(jié)點Ki (i=1...n)
為關鍵字,且關鍵字按順序升序排序 K(i-1) < Ki
[ceil(m / 2) - 1] <=n <= m - 1
,即任意節(jié)點的關鍵字個數(shù)上限比它的子樹上限少一個,且對于非葉子節(jié)點來說任意節(jié)點的關鍵字個數(shù)比它的指向孩子的指針個數(shù)少一個①:某節(jié)點最左子節(jié)點里關鍵字的值均小于該節(jié)點最左關鍵字的值
②:某節(jié)點最右子節(jié)點里關鍵字的值均大于該節(jié)點里所有關鍵字的值
③:某節(jié)點除左右以外所有子節(jié)點里關鍵字的值大小,均位于離該子節(jié)點指針最近的兩個關鍵字的值之間
B 樹雖然已經(jīng)達到可以用作于索引數(shù)據(jù)結構的標準,但是還有更好的替代品,那就是B+樹,從名字也可以看出B+樹相當于是B樹的變體。其定義基本與B樹相同,除了:
[K[i], K[i + 1])
的子樹B+樹結構圖:
B+樹相比于B樹及其他樹形數(shù)據(jù)結構來說,更適合用來做存儲索引,原因如下:
除了上一小節(jié)所介紹的B+ 樹索引結構之外,還有一個常用的Hash索引結構。Hash稍微簡單一些,就是對索引的key進行一次hash計算,然后就可以定位出數(shù)據(jù)存儲的位置,所以在某些特定場景來說Hash索引要比B+ 樹索引更高效。如圖:
既然理論上來說Hash索引要比B+ 樹索引更高效,但是為什么沒有成為主流索引結構呢,這是因為Hash索引存在以下缺點:
BitMap:
除了B+ 樹及Hash索引外,還有一種索引結構就是BitMap,即位圖索引,但是僅有少量數(shù)據(jù)庫支持,所以這里僅做簡略提及。當表中的某個字段只有幾種值的時候,例如存儲性別信息的字段之類的,在這種字段使用BitMap索引就是最佳的選擇。BitMap結構圖如下:
但是BitMap有一個很大的缺陷就是鎖的粒度會非常的大,在新增和更新數(shù)據(jù)時,與該數(shù)據(jù)在同一個位圖的數(shù)據(jù)也會被鎖住。
密集索引和稀疏索引的區(qū)別:
密集索引和稀疏索引的區(qū)別圖:
密集索引:葉子節(jié)點保存的不僅僅是鍵值,還保存了位于同一行數(shù)據(jù)里其他列的信息,由于密集索引決定了表的物理排列順序,而一個表只能有一個物理排列順序,所以一個表只能創(chuàng)建一個密集索引
稀疏索引:葉子節(jié)點僅保存了鍵位信息,以及該行數(shù)據(jù)的地址或主鍵。所以需要通過數(shù)據(jù)的地址或主鍵才能進一步定位到數(shù)據(jù)。
我們來看看具體到MySQL的主流存儲引擎:
InnoDB與MyISAM引擎的檢索流程對比:
假設我們對A、B兩個字段建立聯(lián)合索引:(A, B),此時該聯(lián)合索引的左邊是A而右邊是B,當執(zhí)行where A = '' and B = ''
時會走這個(A, B)聯(lián)合索引,where A = ''
也會走(A, B)聯(lián)合索引,但是where B = ''
則不會走(A, B)聯(lián)合索引。這就是所謂的最左匹配原則
在最左匹配原則中,有如下說明:
- 最左前綴匹配原則,非常重要的原則,mysql會一直向右匹配直到遇到范圍查詢(>、<、between、like)就停止匹配,比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)順序的索引,d是用不到索引的,如果建立(a,b,d,c)的索引則都可以用到,a,b,d的順序可以任意調(diào)整。
- =和in可以亂序,比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意順序,mysql的查詢優(yōu)化器會幫你優(yōu)化成索引可以識別的形式
我們來做個實驗,驗證下最左匹配原則。建表sql如下,該表中有一個聯(lián)合索引:
CREATE TABLE `student` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(20) NOT NULL,
`age` int(11) NOT NULL,
`sex` varchar(20) NOT NULL,
`address` varchar(100) NOT NULL,
`cid` int(11) NOT NULL,
PRIMARY KEY (`id`) USING BTREE,
KEY `idx_name_age` (`name`,`age`)
) ENGINE=InnoDB AUTO_INCREMENT=19 DEFAULT CHARSET=utf8;
當where條件存在name字段時,會使用索引查詢:
當where條件不存在name字段時,則不會使用索引查詢:
當where條件存在name字段時,即便是亂序也會使用索引查詢,因為MySQL的執(zhí)行優(yōu)化器會自動調(diào)整順序以滿足使用索引的條件:
參考文章:
現(xiàn)在我們來回答一下最左匹配原則的成因:
MySQL創(chuàng)建聯(lián)合索引時,是先對聯(lián)合索引中最左字段的數(shù)據(jù)進行排序,在最左字段排序的基礎上,再對后一個字段的數(shù)據(jù)進行排序,類似于order by 字段1,order by 字段2 這樣的一種排序規(guī)則。所以聯(lián)合索引中最左字段是絕對有序的,而后一個字段則是無序的了,因此使用除最左字段以外的字段進行條件查詢是利用不到索引的,這就是最左匹配原則的成因
答案是否定的,所謂物極必反: