1.普通事務(wù)
彌渡網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián),彌渡網(wǎng)站設(shè)計制作,有大型網(wǎng)站制作公司豐富經(jīng)驗。已為彌渡1000多家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\外貿(mào)網(wǎng)站制作要多少錢,請找那個售后服務(wù)好的彌渡做網(wǎng)站的公司定做!
以 begin / start transaction 開始,commit / rollback 結(jié)束的事務(wù)?;蛘呤菐в斜4纥c savepoint 的事務(wù)。
2. 鏈?zhǔn)绞聞?wù)
一個事務(wù)在提交的時候自動將上下文傳給下一個事務(wù),也就是說一個事務(wù)的提交和下一個事務(wù)的開始是原子性的,下一個事務(wù)可以看到上一個事務(wù)的處理結(jié)果。MySQL 的鏈?zhǔn)绞聞?wù)靠參數(shù) completion_type 控制,并且回滾和提交的語句后面加上 work 關(guān)鍵詞。
3. 嵌套事務(wù)
有多個 begin / commit / rollback 這樣的事務(wù)塊的事務(wù),并且有父子關(guān)系。子事務(wù)的提交完成后不會真的提交,而是等到父事務(wù)提交才真正的提交。
4. 自治事務(wù)
內(nèi)部事務(wù)的提交不隨外部事務(wù)的影響,一般用作記錄內(nèi)部事務(wù)的異常情況。MySQL 不支持自治事務(wù),但是某些場景可以用 MySQL 的插件式引擎來變相實現(xiàn)。
我們經(jīng)常會遇到操作一張大表,發(fā)現(xiàn)操作時間過長或影響在線業(yè)務(wù)了,想要回退大表操作的場景。在我們停止大表操作之后,等待回滾是一個很漫長的過程,盡管你可能對知道一些縮短時間的方法,處于對生產(chǎn)環(huán)境數(shù)據(jù)完整性的敬畏,也會選擇不做介入。最終選擇不作為的原因大多源于對操作影響的不確定性。實踐出真知,下面針對兩種主要提升事務(wù)回滾速度的方式進行驗證,一種是提升操作可用內(nèi)存空間,一種是通過停實例,禁用 redo 回滾方式進行進行驗證。
仔細閱讀過官方手冊的同學(xué),一定留意到了對于提升大事務(wù)回滾效率,官方提供了兩種方法:一是增加 innodb_buffer_pool_size 參數(shù)大小,二是合理利用 innodb_force_recovery=3 參數(shù),跳過事務(wù)回滾過程。第一種方式比較溫和,innodb_buffer_pool_size 參數(shù)是可以動態(tài)調(diào)整的,可行性也較高。第二種方式相較之下較暴力,但效果較好。
兩種方式各有自己的優(yōu)點,第一種方式對線上業(yè)務(wù)系統(tǒng)影響較小,不會中斷在線業(yè)務(wù)。第二種方式效果更顯著,會短暫影響業(yè)務(wù)連續(xù),回滾所有沒有提交的事務(wù)。
MySQL 的 Binlog 記錄著 MySQL 數(shù)據(jù)庫的所有變更信息,了解 Binlog 的結(jié)構(gòu)可以幫助我們解析Binlog,甚至對 Binlog 進行一些修改,或者說是“篡改”,例如實現(xiàn)類似于 Oracle 的 flashback 的功能,恢復(fù)誤刪除的記錄,把 update 的記錄再還原回去等。本文將帶您探討一下這些神奇功能的實現(xiàn),您會發(fā)現(xiàn)比您想象地要簡單得多。本文指的 Binlog 是 ROW 模式的 Binlog,這也是 MySQL 8 里的默認(rèn)模式,STATEMENT 模式因為使用中有很多限制,現(xiàn)在用得越來越少了。
Binlog 由事件(event)組成,請注意是事件(event)不是事務(wù)(transaction),一個事務(wù)可以包含多個事件。事件描述對數(shù)據(jù)庫的修改內(nèi)容。
現(xiàn)在我們已經(jīng)了解了 Binlog 的結(jié)構(gòu),我們可以試著修改 Binlog 里的數(shù)據(jù)。例如前面舉例的 Binlog 刪除了一條記錄,我們可以試著把這條記錄恢復(fù),Binlog 里面有個刪除行(DELETE_ROWS_EVENT)的事件,就是這個事件刪除了記錄,這個事件和寫行(WRITE_ROWS_EVENT)的事件的數(shù)據(jù)結(jié)構(gòu)是完全一樣的,只是刪除行事件的類型是 32,寫行事件的類型是 30,我們把對應(yīng)的 Binlog 位置的 32 改成 30 即可把已經(jīng)刪除的記錄再插入回去。從前面的 “show binlog events” 里面可看到這個 DELETE_ROWS_EVENT 是從位置 378 開始的,這里的位置就是 Binlog 文件的實際位置(以字節(jié)為單位)。從事件(event)的結(jié)構(gòu)里面可以看到 type_code 是在 event 的第 5 個字節(jié),我們寫個 Python 小程序把把第383(378+5=383)字節(jié)改成 30 即可。當(dāng)然您也可以用二進制編輯工具來改。
找出 Binlog 中的大事務(wù)
由于 ROW 模式的 Binlog 是每一個變更都記錄一條日志,因此一個簡單的 SQL,在 Binlog 里可能會產(chǎn)生一個巨無霸的事務(wù),例如一個不帶 where 的 update 或 delete 語句,修改了全表里面的所有記錄,每條記錄都在 Binlog 里面記錄一次,結(jié)果是一個巨大的事務(wù)記錄。這樣的大事務(wù)經(jīng)常是產(chǎn)生麻煩的根源。我的一個客戶有一次向我抱怨,一個 Binlog 前滾,滾了兩天也沒有動靜,我把那個 Binlog 解析了一下,發(fā)現(xiàn)里面有個事務(wù)產(chǎn)生了 1.4G 的記錄,修改了 66 萬條記錄!下面是一個簡單的找出 Binlog 中大事務(wù)的 Python 小程序,我們知道用 mysqlbinlog 解析的 Binlog,每個事務(wù)都是以 BEGIN 開頭,以 COMMIT 結(jié)束。我們找出 BENGIN 前面的 “# at” 的位置,檢查 COMMIT 后面的 “# at” 位置,這兩個位置相減即可計算出這個事務(wù)的大小,下面是這個 Python 程序的例子。
切割 Binlog 中的大事務(wù)
對于大的事務(wù),MySQL 會把它分解成多個事件(注意一個是事務(wù) TRANSACTION,另一個是事件 EVENT),事件的大小由參數(shù) binlog-row-event-max-size 決定,這個參數(shù)默認(rèn)是 8K。因此我們可以把若干個事件切割成一個單獨的略小的事務(wù)
ROW 模式下,即使我們只更新了一條記錄的其中某個字段,也會記錄每個字段變更前后的值,這個行為是 binlog_row_image 參數(shù)控制的,這個參數(shù)有 3 個值,默認(rèn)為 FULL,也就是記錄列的所有修改,即使字段沒有發(fā)生變更也會記錄。這樣我們就可以實現(xiàn)類似 Oracle 的 flashback 的功能,我個人估計 MySQL 未來的版本從可能會基于 Binlog 推出這樣的功能。
了解了 Binlog 的結(jié)構(gòu),再加上 Python 這把瑞士軍刀,我們還可以實現(xiàn)很多功能,例如我們可以統(tǒng)計哪個表被修改地最多?我們還可以把 Binlog 切割成一段一段的,然后再重組,可以靈活地進行 MySQL 數(shù)據(jù)庫的修改和遷移等工作。
是可以處理的,如圖
查詢出需要保留的數(shù)據(jù)
用中間表的方法刪除不包含這些數(shù)據(jù)的數(shù),
delete from uservalue
where id not
in(select a.id from (select id from uservalue group by iduser,idtype) a)
希望對您有所幫助
第一階段:
1,一定要正確設(shè)計索引
2,一定要避免SQL語句全表掃描,所以SQL一定要走索引(如:一切的 != 等等之類的寫法都會導(dǎo)致全表掃描)
3,一定要避免 limit 10000000,20 這樣的查詢
4,一定要避免 LEFT JOIN 之類的查詢,不把這樣的邏輯處理交給數(shù)據(jù)庫
5,每個表索引不要建太多,大數(shù)據(jù)時會增加數(shù)據(jù)庫的寫入壓力
第二階段:
1,采用分表技術(shù)(大表分小表)
a)垂直分表:將部分字段分離出來,設(shè)計成分表,根據(jù)主表的主鍵關(guān)聯(lián)
b)水平分表:將相同字段表中的記錄按照某種Hash算法進行拆分多個分表
2,采用mysql分區(qū)技術(shù)(必須5.1版以上,此技術(shù)完全能夠?qū)筄racle),與水平分表有點類似,但是它是在邏輯層進行的水平分表
第三階段(服務(wù)器方面):
1,采用memcached之類的內(nèi)存對象緩存系統(tǒng),減少數(shù)據(jù)庫讀取操作
2,采用主從數(shù)據(jù)庫設(shè)計,分離數(shù)據(jù)庫的讀寫壓力
3,采用Squid之類的代理服務(wù)器和Web緩存服務(wù)器技術(shù)
PS:由于篇幅問題,我只簡單說一些基本概念,其實里面每個知識點關(guān)系到的內(nèi)容都很多。特別是第一階段,很多工作幾年的程序員,都不能完全理解。我覺得要真正理解索引,最好的辦法就是在1000W-億級以上的數(shù)據(jù),進行測試SQL語句,再結(jié)合 explain 命令進行查看SQL語句索引情況。
pymysql可以使用fetchall返回元組型數(shù)據(jù),也可以直接使用pandas獲取DataFrame格式數(shù)據(jù)。具體操作如下。
pandas獲取的數(shù)據(jù)會保留列名,在后期分析處理中更為方便。同時也可以像read_csv一樣,添加參數(shù)以自定義數(shù)據(jù)(如自定義列名等)。