這篇文章主要講解了MySQL中如何實(shí)現(xiàn)binlog優(yōu)化,內(nèi)容清晰明了,對此有興趣的小伙伴可以學(xué)習(xí)一下,相信大家閱讀完之后會有幫助。
讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長期合作伙伴,公司提供的服務(wù)項(xiàng)目有:域名與空間、虛擬空間、營銷軟件、網(wǎng)站建設(shè)、井研網(wǎng)站維護(hù)、網(wǎng)站推廣。
問題
問題1:如何解決事務(wù)提交時flush redo log帶來的性能損失
WAL是實(shí)現(xiàn)事務(wù)持久性(D)的一個常用技術(shù),基本原理是將事務(wù)的修改記錄redo log。redo log順序追加寫入。事務(wù)提交時,只需要保證事務(wù)的redo log落盤即可,通過redo log的順序?qū)懘骓撁娴碾S機(jī)寫提升數(shù)據(jù)庫系統(tǒng)的性能。但是,該方案必須要求每個事務(wù)提交時都將其生成的redo log進(jìn)行一次刷盤,效率不高。
問題2:binlog和引擎層事務(wù)提交的順序問題
對于單個事務(wù)而言,日志寫入順序是先redo log再binlog,只要維持該順序即可維持正確性。但對于一個高并發(fā)的數(shù)據(jù)庫系統(tǒng)而言,每時每刻可能都會存在眾多并發(fā)執(zhí)行的事務(wù)。我們還需要通過一定的手段來維護(hù)Server層binlog和引擎層事務(wù)提交的順序一致性。
維護(hù)這種順序一致性其實(shí)是為了保證備份工具Xtrabackup的正確性。
當(dāng) binlog 作為協(xié)調(diào)者,如果其中記錄的事務(wù)順序和存儲引擎層記錄的順序不一樣的話,備份工具(Innodb Hot Backup)拿到備份集的位點(diǎn)可能會存在空洞。因?yàn)閭浞莨ぞ邥截?redo 日志,在 redo 的頭部會記錄最后一個提交的事務(wù)對應(yīng)的 binlog 位點(diǎn),備份集建立之后就會根據(jù)這個位點(diǎn)繼續(xù)從主庫 dump binlog。
假如有三個事務(wù) T1,T2,T3 已經(jīng) fsync 到 binlog 文件中,三個事務(wù)的在文件中的位點(diǎn)分別是 100,200,300,但是在引擎層的只有 T1 和 T3 完成了 commit 并記錄到 redo 中,最后一個 commit 的事務(wù) T3 位點(diǎn)是 300。此時通過備份工具拿到的數(shù)據(jù)就是這樣的狀態(tài),備份集啟動的時候會走崩潰恢復(fù)的流程,prepare 事務(wù)被回滾(備份集不會備份 binlog 文件,對應(yīng)上個小節(jié) xid 集合為空),自位點(diǎn) 300 繼續(xù)從主庫同步binlog并apply,導(dǎo)致 T2 在備庫就丟失了。
因此,我們必須設(shè)計(jì)一種機(jī)制來保證Server層的binlog寫入順序和存儲引擎層的事務(wù)提交順序保持一致。
問題3:同時寫redo和binlog帶來的性能下降
問題1中提到每次的事務(wù)提交會帶來性能問題,而這個問題在引入binlog后會變得更加嚴(yán)重。每個事務(wù)提交都會增加一次文件IO,且需要刷盤。如果系統(tǒng)并發(fā)比較高,那么這些IO將會成為拖慢整體性能的瓶頸。
解決方案
問題1:Redo log組提交技術(shù)
redo組提交技術(shù)思想很簡單:通過將多個事務(wù)redo log的刷盤動作合并,減少刷盤次數(shù)。Innodb的日志系統(tǒng)里面,每條redo log都有一個LSN(Log Sequence Number)。事務(wù)將日志拷貝到redo log buffer時,都會獲取當(dāng)前最大的LSN,且LSN單調(diào)遞增,因此可以保證不同事務(wù)的LSN不會重復(fù)。那么假設(shè)三個事務(wù)Trx1、Trx2、Trx3的日志的最大LSN分別為LSN1、LSN2、LSN3(LSN1 < LSN2 < LSN3),它們同時進(jìn)行提交,那么如果trx3率先執(zhí)行提交,它會要求刷盤至LSN3處,這樣就順便將Trx1、Trx2的redo log也刷了,Trx1和Trx2會判斷自己的LSN小于當(dāng)前已落盤的最大LSN,就無需再次刷盤。
問題2:內(nèi)部XA事務(wù)
開啟binlog情況下,引入內(nèi)部XA事務(wù)來協(xié)調(diào)上層和存儲引擎層,具體來說,在事務(wù)提交時引入兩個階段:
prepare:將redo log刷盤操作以確保data頁和undo頁的更新已經(jīng)刷新到磁盤,設(shè)置事務(wù)狀態(tài)為PREPARE狀態(tài);
commit:1). 寫binlog并刷盤,2).調(diào)用引擎層事務(wù)提交接口。將事務(wù)狀態(tài)設(shè)置為COMMIT。
如此兩階段提交主要是要保證數(shù)據(jù)庫崩潰時的正確性。因?yàn)橐坏゜inlog落盤了,它就可能被下游節(jié)點(diǎn)消費(fèi)。這種事務(wù)必須在重啟后被commit而非rollback。而對于binlog未落盤的事務(wù),崩潰恢復(fù)時直接回滾。
具體來說,故障恢復(fù)時,掃描最后一個binlog文件(在flush階段,如果binlog大小超過閥值,進(jìn)行rotate binlog文件,會保證該文件記錄的最后一個事務(wù)一定被提交),提取其中的xid。重做檢查點(diǎn)以后的redo日志,讀取事務(wù)的undo段信息,搜集處于prepare階段的事務(wù)列表,將事務(wù)的xid與binlog中記錄的xid對比,若存在,則提交,否則就回滾。
MySQL5.6以前,為了保證數(shù)據(jù)庫binlog的寫入順序和InnoDB層的事務(wù)提交順序一致,MySQL數(shù)據(jù)庫內(nèi)部使用了prepare_commit_mutex鎖。
具體來說,在兩階段提交引擎層 prepare 的時候加鎖,在引擎層 commit 之后釋放鎖:
innobase_xa_prepare() write() and fsync() binary log innobase_commit()
這樣確實(shí)可以保證 binlog 和 innodb 的事務(wù)順序一致,但是這把鎖會導(dǎo)致所有的事務(wù)串行化執(zhí)行,且每次提交都會至少調(diào)用多次fsync,效率很低。這也是接下來需要探討并解決的一個問題。
問題4
參考redo log優(yōu)化技術(shù),引入組提交技術(shù)來優(yōu)化binlog的寫入性能。
考慮未優(yōu)化時事務(wù)提交流程:
prepare:該階段刷存儲引擎層(innodb)的redo log并將事務(wù)狀態(tài)設(shè)置為PREPARED(更新undo page上事務(wù)狀態(tài)),該階段不涉及binlog
commit:寫binlog日志并刷盤,同時引擎層釋放鎖,釋放回滾段、設(shè)置事務(wù)狀態(tài)為COMMITTED等
所謂的組提交技術(shù)其本質(zhì)上是將耗時的commit步驟進(jìn)行更細(xì)粒度的拆分,具體來說:
將步驟2的commit 分為三個階段:
Flush:寫binlog,但不sync
Sync: 調(diào)用 fsync 操作將文件落盤
Commit :調(diào)用存儲引擎接口提交事務(wù)
這里的fsync是耗時操作,因此我們希望能攢足夠多的寫入后才進(jìn)行一次fsync調(diào)用,在這里使用batch技術(shù)。其原理是:上述步驟中的每個階段都有一個對應(yīng)的任務(wù)鏈表,每個進(jìn)入該階段的線程會將自己的任務(wù)加入至該鏈表中,鏈表加鎖以保證正確性。第一個加入該鏈表的線程會成為Leader,后續(xù)的線程成為Follower。鏈表中的所有任務(wù)組成一個Batch,由Leader負(fù)責(zé)執(zhí)行,而Follower則等待其任務(wù)完成即可。
一旦某階段的鏈表任務(wù)執(zhí)行完成,這些任務(wù)會進(jìn)入下一個階段,同樣加入該階段的任務(wù)鏈表,重復(fù)上述執(zhí)行流。
如此設(shè)計(jì)有以下幾點(diǎn)好處:
除此之外,MYSQL還對prepare階段刷redo log進(jìn)行了進(jìn)一步優(yōu)化。原來的設(shè)計(jì)是多事務(wù)可并發(fā)地刷redo log,同樣效率不夠高??梢詫repare階段的redo log刷盤放在commit階段的Flush階段執(zhí)行。但有個小問題需要說明的是:優(yōu)化前每個線程各自負(fù)責(zé)自己的redo log的落盤,且知道需要flush的redo log的lsn,如果改為在Flush階段由其Leader線程統(tǒng)一落盤,此時它不了解每個線程的redo log的lsn,因此它簡單粗暴地flush至log_sys的最大lsn,這就保證了要提交事務(wù)的redo log一定可以被落盤。
看完上述內(nèi)容,是不是對MYSQL中如何實(shí)現(xiàn)binlog優(yōu)化有進(jìn)一步的了解,如果還想學(xué)習(xí)更多內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。