本文主要記錄一次簡單的、典型的故障,發(fā)生問題的原因很簡單,這個問題發(fā)生也很簡單,各位同學(xué)一定要注意,一不留神就會對主庫造成影響。
歡迎轉(zhuǎn)載,請注明作者、出處。
創(chuàng)新互聯(lián)建站成立與2013年,先為開魯?shù)确?wù)建站,開魯?shù)鹊仄髽I(yè),進行企業(yè)商務(wù)咨詢服務(wù)。為開魯企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。
作者:張正
blog:http://space.itpub.net/26355921
QQ:176036317
如有疑問,歡迎聯(lián)系。
問題簡述:
一周前,有一臺MySQL
服務(wù)器發(fā)生硬件故障,停機了。我們給專門負責(zé)這塊的同學(xué)提交了申請,他們負責(zé)去報修這臺服務(wù)器。今天這臺服務(wù)器修好后,他們將其開機啟動。服務(wù)器上的4個mysql實例在開機后自動啟動,開始拉主庫的binlog。由于這臺服務(wù)器停機時間比較久,日志丟的比較多,狂拉主庫的binlog,導(dǎo)致主庫網(wǎng)絡(luò)出現(xiàn)問題。
現(xiàn)象:
首先,我們完全沒有意識到是因為一臺壞掉的服務(wù)器重啟拉主庫binlog導(dǎo)致的,因為我們壓根不知道 這臺服務(wù)器什么情況,只知道1周前,我們報修了1臺服務(wù)器。具體什么情況,有沒有修好,有沒有開機,我們完全不知道。
在這樣的情況下,忽然聽到網(wǎng)絡(luò)的同學(xué)說mysql有一臺機器網(wǎng)絡(luò)流量過大,導(dǎo)致業(yè)務(wù)感覺很慢,總共持續(xù)了17分鐘。其實這樣,是沒有多大頭緒的。
排查:
查看processlist、全日志、慢日志都沒有發(fā)現(xiàn)有什么問題。
查看監(jiān)控,發(fā)現(xiàn)那段時間的服務(wù)器的讀IO驟然升高。
通過查看processlist的歷史記錄,發(fā)現(xiàn)有一段時間,主從復(fù)制的用戶 狀態(tài)是 waiting for net,通過其IP發(fā)現(xiàn)該服務(wù)器是1周前壞掉的一個slave服務(wù)器。
結(jié)論:
這臺服務(wù)器上有4個實例,服務(wù)器啟動后,mysql實例自動啟動,開始向主庫上拉binlog,每個主庫每天的binlog量大概6G,4個實例1個星期大概160多G的binlog。
問題:
1、壞掉的服務(wù)器什么時候修好,什么時候開機,我們不可控,也不知道,也沒有關(guān)注
2、這種案例其實是很簡單、很典型的可能造成影響或故障的case,我們提前沒有對這個現(xiàn)象有警覺,雖然知道這是個很容易出現(xiàn)的問題,但是在我們的case中,完全沒有這方面的意識。因此導(dǎo)致該事件發(fā)生
3、對于網(wǎng)絡(luò)流量這塊,缺乏有效監(jiān)控
解決方法:
1、所有服務(wù)器,取消開機自動啟動mysql,服務(wù)器開機后,人為啟動實例,停slave。(這樣,如果服務(wù)器很多,可能過于麻煩,暫且先這樣記錄下來,總比造成影響強)
2、意識到該問題,將該問題納入避免問題的常識庫或工作手冊中去。
當(dāng)前名稱:故障的機器修好后重啟,狂拉主庫binlog,導(dǎo)致網(wǎng)絡(luò)問題,造成一定影響
文章URL:
http://weahome.cn/article/poejsh.html