真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

go語言中的宕機 go語言異常處理

golang使用Nsq

1. 介紹

道里網(wǎng)站建設(shè)公司成都創(chuàng)新互聯(lián)公司,道里網(wǎng)站設(shè)計制作,有大型網(wǎng)站制作公司豐富經(jīng)驗。已為道里1000多家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\外貿(mào)網(wǎng)站建設(shè)要多少錢,請找那個售后服務(wù)好的道里做網(wǎng)站的公司定做!

最近在研究一些消息中間件,常用的MQ如RabbitMQ,ActiveMQ,Kafka等。NSQ是一個基于Go語言的分布式實時消息平臺,它基于MIT開源協(xié)議發(fā)布,由bitly公司開源出來的一款簡單易用的消息中間件。

官方和第三方還為NSQ開發(fā)了眾多客戶端功能庫,如官方提供的基于HTTP的nsqd、Go客戶端go-nsq、Python客戶端pynsq、基于Node.js的JavaScript客戶端nsqjs、異步C客戶端libnsq、Java客戶端nsq-java以及基于各種語言的眾多第三方客戶端功能庫。

1.1 Features

1). Distributed

NSQ提供了分布式的,去中心化,且沒有單點故障的拓撲結(jié)構(gòu),穩(wěn)定的消息傳輸發(fā)布保障,能夠具有高容錯和HA(高可用)特性。

2). Scalable易于擴展

NSQ支持水平擴展,沒有中心化的brokers。內(nèi)置的發(fā)現(xiàn)服務(wù)簡化了在集群中增加節(jié)點。同時支持pub-sub和load-balanced 的消息分發(fā)。

3). Ops Friendly

NSQ非常容易配置和部署,生來就綁定了一個管理界面。二進制包沒有運行時依賴。官方有Docker image。

4.Integrated高度集成

官方的 Go 和 Python庫都有提供。而且為大多數(shù)語言提供了庫。

1.2 組件

1.3 拓撲結(jié)構(gòu)

NSQ推薦通過他們相應(yīng)的nsqd實例使用協(xié)同定位發(fā)布者,這意味著即使面對網(wǎng)絡(luò)分區(qū),消息也會被保存在本地,直到它們被一個消費者讀取。更重要的是,發(fā)布者不必去發(fā)現(xiàn)其他的nsqd節(jié)點,他們總是可以向本地實例發(fā)布消息。

NSQ

首先,一個發(fā)布者向它的本地nsqd發(fā)送消息,要做到這點,首先要先打開一個連接,然后發(fā)送一個包含topic和消息主體的發(fā)布命令,在這種情況下,我們將消息發(fā)布到事件topic上以分散到我們不同的worker中。

事件topic會復(fù)制這些消息并且在每一個連接topic的channel上進行排隊,在我們的案例中,有三個channel,它們其中之一作為檔案channel。消費者會獲取這些消息并且上傳到S3。

nsqd

每個channel的消息都會進行排隊,直到一個worker把他們消費,如果此隊列超出了內(nèi)存限制,消息將會被寫入到磁盤中。Nsqd節(jié)點首先會向nsqlookup廣播他們的位置信息,一旦它們注冊成功,worker將會從nsqlookup服務(wù)器節(jié)點上發(fā)現(xiàn)所有包含事件topic的nsqd節(jié)點。

nsqlookupd

2. Internals

2.1 消息傳遞擔保

1)客戶表示已經(jīng)準備好接收消息

2)NSQ 發(fā)送一條消息,并暫時將數(shù)據(jù)存儲在本地(在 re-queue 或 timeout)

3)客戶端回復(fù) FIN(結(jié)束)或 REQ(重新排隊)分別指示成功或失敗。如果客戶端沒有回復(fù), NSQ 會在設(shè)定的時間超時,自動重新排隊消息

這確保了消息丟失唯一可能的情況是不正常結(jié)束 nsqd 進程。在這種情況下,這是在內(nèi)存中的任何信息(或任何緩沖未刷新到磁盤)都將丟失。

如何防止消息丟失是最重要的,即使是這個意外情況可以得到緩解。一種解決方案是構(gòu)成冗余 nsqd對(在不同的主機上)接收消息的相同部分的副本。因為你實現(xiàn)的消費者是冪等的,以兩倍時間處理這些消息不會對下游造成影響,并使得系統(tǒng)能夠承受任何單一節(jié)點故障而不會丟失信息。

2.2 簡化配置和管理

單個 nsqd 實例被設(shè)計成可以同時處理多個數(shù)據(jù)流。流被稱為“話題”和話題有 1 個或多個“通道”。每個通道都接收到一個話題中所有消息的拷貝。在實踐中,一個通道映射到下行服務(wù)消費一個話題。

在更底的層面,每個 nsqd 有一個與 nsqlookupd 的長期 TCP 連接,定期推動其狀態(tài)。這個數(shù)據(jù)被 nsqlookupd 用于給消費者通知 nsqd 地址。對于消費者來說,一個暴露的 HTTP /lookup 接口用于輪詢。為話題引入一個新的消費者,只需啟動一個配置了 nsqlookup 實例地址的 NSQ 客戶端。無需為添加任何新的消費者或生產(chǎn)者更改配置,大大降低了開銷和復(fù)雜性。

2.3 消除單點故障

NSQ被設(shè)計以分布的方式被使用。nsqd 客戶端(通過 TCP )連接到指定話題的所有生產(chǎn)者實例。沒有中間人,沒有消息代理,也沒有單點故障。

這種拓撲結(jié)構(gòu)消除單鏈,聚合,反饋。相反,你的消費者直接訪問所有生產(chǎn)者。從技術(shù)上講,哪個客戶端連接到哪個 NSQ 不重要,只要有足夠的消費者連接到所有生產(chǎn)者,以滿足大量的消息,保證所有東西最終將被處理。對于 nsqlookupd,高可用性是通過運行多個實例來實現(xiàn)。他們不直接相互通信和數(shù)據(jù)被認為是最終一致。消費者輪詢所有的配置的 nsqlookupd 實例和合并 response。失敗的,無法訪問的,或以其他方式故障的節(jié)點不會讓系統(tǒng)陷于停頓。

2.4 效率

對于數(shù)據(jù)的協(xié)議,通過推送數(shù)據(jù)到客戶端最大限度地提高性能和吞吐量的,而不是等待客戶端拉數(shù)據(jù)。這個概念,稱之為 RDY 狀態(tài),基本上是客戶端流量控制的一種形式。

efficiency

2.5 心跳和超時

組合應(yīng)用級別的心跳和 RDY 狀態(tài),避免頭阻塞現(xiàn)象,也可能使心跳無用(即,如果消費者是在后面的處理消息流的接收緩沖區(qū)中,操作系統(tǒng)將被填滿,堵心跳)為了保證進度,所有的網(wǎng)絡(luò) IO 時間上限勢必與配置的心跳間隔相關(guān)聯(lián)。這意味著,你可以從字面上拔掉之間的網(wǎng)絡(luò)連接 nsqd 和消費者,它會檢測并正確處理錯誤。當檢測到一個致命錯誤,客戶端連接被強制關(guān)閉。在傳輸中的消息會超時而重新排隊等待傳遞到另一個消費者。最后,錯誤會被記錄并累計到各種內(nèi)部指標。

2.6 分布式

因為NSQ沒有在守護程序之間共享信息,所以它從一開始就是為了分布式操作而生。個別的機器可以隨便宕機隨便啟動而不會影響到系統(tǒng)的其余部分,消息發(fā)布者可以在本地發(fā)布,即使面對網(wǎng)絡(luò)分區(qū)。

這種“分布式優(yōu)先”的設(shè)計理念意味著NSQ基本上可以永遠不斷地擴展,需要更高的吞吐量?那就添加更多的nsqd吧。唯一的共享狀態(tài)就是保存在lookup節(jié)點上,甚至它們不需要全局視圖,配置某些nsqd注冊到某些lookup節(jié)點上這是很簡單的配置,唯一關(guān)鍵的地方就是消費者可以通過lookup節(jié)點獲取所有完整的節(jié)點集。清晰的故障事件——NSQ在組件內(nèi)建立了一套明確關(guān)于可能導(dǎo)致故障的的故障權(quán)衡機制,這對消息傳遞和恢復(fù)都有意義。雖然它們可能不像Kafka系統(tǒng)那樣提供嚴格的保證級別,但NSQ簡單的操作使故障情況非常明顯。

2.7 no replication

不像其他的隊列組件,NSQ并沒有提供任何形式的復(fù)制和集群,也正是這點讓它能夠如此簡單地運行,但它確實對于一些高保證性高可靠性的消息發(fā)布沒有足夠的保證。我們可以通過降低文件同步的時間來部分避免,只需通過一個標志配置,通過EBS支持我們的隊列。但是這樣仍然存在一個消息被發(fā)布后馬上死亡,丟失了有效的寫入的情況。

2.8 沒有嚴格的順序

雖然Kafka由一個有序的日志構(gòu)成,但NSQ不是。消息可以在任何時間以任何順序進入隊列。在我們使用的案例中,這通常沒有關(guān)系,因為所有的數(shù)據(jù)都被加上了時間戳,但它并不適合需要嚴格順序的情況。

2.9 無數(shù)據(jù)重復(fù)刪除功能

NSQ對于超時系統(tǒng),它使用了心跳檢測機制去測試消費者是否存活還是死亡。很多原因會導(dǎo)致我們的consumer無法完成心跳檢測,所以在consumer中必須有一個單獨的步驟確保冪等性。

3. 實踐安裝過程

本文將nsq集群具體的安裝過程略去,大家可以自行參考官網(wǎng),比較簡單。這部分介紹下筆者實驗的拓撲,以及nsqadmin的相關(guān)信息。

3.1 拓撲結(jié)構(gòu)

topology

實驗采用3臺NSQD服務(wù),2臺LOOKUPD服務(wù)。

采用官方推薦的拓撲,消息發(fā)布的服務(wù)和NSQD在一臺主機。一共5臺機器。

NSQ基本沒有配置文件,配置通過命令行指定參數(shù)。

主要命令如下:

LOOKUPD命令

NSQD命令

工具類,消費后存儲到本地文件。

發(fā)布一條消息

3.2 nsqadmin

對Streams的詳細信息進行查看,包括NSQD節(jié)點,具體的channel,隊列中的消息數(shù),連接數(shù)等信息。

nsqadmin

channel

列出所有的NSQD節(jié)點:

nodes

消息的統(tǒng)計:

msgs

lookup主機的列表:

hosts

4. 總結(jié)

NSQ基本核心就是簡單性,是一個簡單的隊列,這意味著它很容易進行故障推理和很容易發(fā)現(xiàn)bug。消費者可以自行處理故障事件而不會影響系統(tǒng)剩下的其余部分。

事實上,簡單性是我們決定使用NSQ的首要因素,這方便與我們的許多其他軟件一起維護,通過引入隊列使我們得到了堪稱完美的表現(xiàn),通過隊列甚至讓我們增加了幾個數(shù)量級的吞吐量。越來越多的consumer需要一套嚴格可靠性和順序性保障,這已經(jīng)超過了NSQ提供的簡單功能。

結(jié)合我們的業(yè)務(wù)系統(tǒng)來看,對于我們所需要傳輸?shù)陌l(fā)票消息,相對比較敏感,無法容忍某個nsqd宕機,或者磁盤無法使用的情況,該節(jié)點堆積的消息無法找回。這是我們沒有選擇該消息中間件的主要原因。簡單性和可靠性似乎并不能完全滿足。相比Kafka,ops肩負起更多負責的運營。另一方面,它擁有一個可復(fù)制的、有序的日志可以提供給我們更好的服務(wù)。但對于其他適合NSQ的consumer,它為我們服務(wù)的相當好,我們期待著繼續(xù)鞏固它的堅實的基礎(chǔ)。

Go 語言 channel 的阻塞問題

Hello,大家好,又見面了!上一遍我們將 channel 相關(guān)基礎(chǔ)以及使用場景。這一篇,還需要再次進階理解channel 阻塞問題。以下創(chuàng)建一個chan類型為int,cap 為3。

channel 內(nèi)部其實是一個環(huán)形buf數(shù)據(jù)結(jié)構(gòu) ,是一種滑動窗口機制,當make完后,就分配在 Heap 上。

上面,向 chan 發(fā)送一條“hello”數(shù)據(jù):

如果 G1 發(fā)送數(shù)據(jù)超過指定cap時,會出現(xiàn)什么情況?

看下面實例:

以上會出現(xiàn)什么,chan 緩沖區(qū)允許大小為1,如果再往chan仍數(shù)據(jù),滿了就會被阻塞,那么是如何實現(xiàn)阻塞的呢?當 chan 滿時,會進入 gopark,此時 G1 進入一個 waiting 狀態(tài),然后會創(chuàng)建一個 sudog 對象,其實就sendq隊列,把 200放進去。等 buf 不滿的時候,再喚醒放入buf里面。

通過如下源碼,你會更加清晰:

上面,從 chan 獲取數(shù)據(jù):

Go 語言核心思想:“Do not communicate by sharing memory; instead, share memory by communicating.” 你可以看看這本書名叫:Effective Go

如果接收者,接收一個空對象,也會發(fā)生什么情況?

代碼示例 :

也會報錯如下:

上面,從 chan 取出數(shù)據(jù),可是沒有數(shù)據(jù)了。此時,它會把 接收者 G2 阻塞掉,也是和G1發(fā)送者一樣,也會執(zhí)行 gopark 將狀態(tài)改為 waiting,不一樣的點就是。

正常情況下,接收者G2作為取出數(shù)據(jù)是去 buf 讀取數(shù)據(jù)的,但現(xiàn)在,buf 為空了,此時,接收者G2會將sudog導(dǎo)出來,因為現(xiàn)在G2已經(jīng)被阻塞了嘛,會把G2給G,然后將 t := -ch 中變量 t 是在棧上的地址,放進去 elem ,也就是說,只存它的地址指針在sudog里面。

最后, ch - 200 當G1往 chan 添加200這個數(shù)據(jù),正常情況是將數(shù)據(jù)添加到buf里面,然后喚醒 G2 是吧,而現(xiàn)在是將 G1 的添加200數(shù)據(jù)直接干到剛才G2阻塞的t這里變量里面。

你會認為,這樣真的可以嗎?想一想,G2 本來就是已經(jīng)阻塞了,然后我們直接這么干肯定沒有什么毛病,而且效率提高了,不需要再次放入buf再取出,這個過程也是需要時間。不然,不得往chan添加數(shù)據(jù)需要加鎖、拷貝、解鎖一序列操作,那肯定就慢了,我想Go語言是為了高效及內(nèi)存使用率的考慮這樣設(shè)計的。(注意,一般都是在runtime里面完成,不然會出現(xiàn)象安全問題。)

總結(jié) :

chan 類型的特點:chan 如果為空,receiver 接收數(shù)據(jù)的時候就會阻塞等待,直到 chan 被關(guān)閉或者有新的數(shù)據(jù)到來。有這種個機制,就可以實現(xiàn) wait/notify 的設(shè)計模式。

相關(guān)面試題:

Go語言list(列表)

2021-11-10

列表是一種非連續(xù)的存儲容器,有多個節(jié)點組成,節(jié)點通過一些變量記錄彼此之間的關(guān)系

單鏈表和雙鏈表就是列表的兩種方法。

原理:A、B、C三個人,B懂A的電話,C懂B的電話只是單方知道號碼,這樣就形成了一個單鏈表結(jié)構(gòu)。

如果C把自己的號碼給B,B把自己的號碼給A,因為是雙方都知道對方的號碼,這樣就形成了一個雙鏈表結(jié)構(gòu)

如果B換號碼了,他需要通知AC,把自己的號碼刪了,這個過程就是列表的刪除操作。

在Go語言中,列表使用 container/list 包來實現(xiàn),內(nèi)部的實現(xiàn)原理是雙鏈表,列表能夠高效地進行任意位置的元素插入和刪除操作。

列表初始化的兩種辦法

列表沒有給出具體的元素類型的限制,所以列表的元素可以是任意類型的,

例如給列表中放入了一個 interface{} 類型的值,取出值后,如果要將 interface{} 轉(zhuǎn)換為其他類型將會發(fā)生宕機。

雙鏈表支持從隊列前方或后方插入元素,分別對應(yīng)的方法是 PushFront 和 PushBack。

列表插入函數(shù)的返回值會提供一個 *list.Element 結(jié)構(gòu),這個結(jié)構(gòu)記錄著列表元素的值以及與其他節(jié)點之間的關(guān)系等信息,從列表中刪除元素時,需要用到這個結(jié)構(gòu)進行快速刪除。

遍歷完也能看到最后的結(jié)果

學(xué)習(xí)地址:

Go 語言的錯誤處理機制是一個優(yōu)秀的設(shè)計嗎

這個問題說來話長,我先表達一下我的觀點,Go語言從語法層面提供區(qū)分錯誤和異常的機制是很好的做法,比自己用單個返回值做值判斷要方便很多。

上面看到很多知乎大牛把異常和錯誤混在一起說,有認為Go沒有異常機制的,有認為Go純粹只有異常機制的,我覺得這些觀點都太片面了。

具體對于錯誤和異常的討論,我轉(zhuǎn)發(fā)一下前陣子寫的一篇日志拋磚引玉吧。

============================

最近連續(xù)遇到朋友問我項目里錯誤和異常管理的事情,之前也多次跟團隊強調(diào)過錯誤和異常管理的一些概念,所以趁今天有動力就趕緊寫一篇Go語言項目錯誤和異常管理的經(jīng)驗分享。

首先我們要理清:什么是錯誤、什么是異常、為什么需要管理。然后才是怎樣管理。

錯誤和異常從語言機制上面講,就是error和panic的區(qū)別,放到別的語言也一樣,別的語言沒有error類型,但是有錯誤碼之類的,沒有panic,但是有throw之類的。

在語言層面它們是兩種概念,導(dǎo)致的是兩種不同的結(jié)果。如果程序遇到錯誤不處理,那么可能進一步的產(chǎn)生業(yè)務(wù)上的錯誤,比如給用戶多扣錢了,或者進一步產(chǎn)生了異常;如果程序遇到異常不處理,那么結(jié)果就是進程異常退出。

在項目里面是不是應(yīng)該處理所有的錯誤情況和捕捉所有的異常呢?我只能說,你可以這么做,但是估計效果不會太好。我的理由是:

如果所有東西都處理和記錄,那么重要信息可能被淹沒在信息的海洋里。

不應(yīng)該處理的錯誤被處理了,很容易導(dǎo)出BUG暴露不出來,直到出現(xiàn)更嚴重錯誤的時候才暴露出問題,到時候排查就很困難了,因為已經(jīng)不是錯誤的第一現(xiàn)場。

所以錯誤和異常最好能按一定的規(guī)則進行分類和管理,在第一時間能暴露錯誤和還原現(xiàn)場。

對于錯誤處理,Erlang有一個很好的概念叫速錯,就是有錯誤第一時間暴露它。我們的項目從Erlang到Go一直是沿用這一設(shè)計原則。但是應(yīng)用這個原則的前提是先得區(qū)分錯誤和異常這兩個概念。

錯誤和異常上面已經(jīng)提到了,從語言機制層面比較容易區(qū)分它們,但是語言取決于人為,什么情況下用錯誤表達,什么情況下用異常表達,就得有一套規(guī)則,否則很容易出現(xiàn)全部靠異常來做錯誤處理的情況,似乎Java項目特別容易出現(xiàn)這樣的設(shè)計。

這里我先假想有這樣一個業(yè)務(wù):游戲玩家通過購買按鈕,用銅錢購買寶石。

在實現(xiàn)這個業(yè)務(wù)的時候,程序邏輯會進一步分化成客戶端邏輯和服務(wù)端邏輯,客戶端邏輯又進一步因為設(shè)計方式的不同分化成兩種結(jié)構(gòu):胖客戶端結(jié)構(gòu)、瘦客戶端結(jié)構(gòu)。

胖客戶端結(jié)構(gòu),有更多的本地數(shù)據(jù)和懂得更多的業(yè)務(wù)邏輯,所以在胖客戶端結(jié)構(gòu)的應(yīng)用中,以上的業(yè)務(wù)會實現(xiàn)成這樣:客戶端檢查緩存中的銅錢數(shù)量,銅錢數(shù)量足夠的時候購買按鈕為可用的亮起狀態(tài),用戶點擊購買按鈕后客戶端發(fā)送購買請求到服務(wù)端;服務(wù)端收到請求后校驗用戶的銅錢數(shù)量,如果銅錢數(shù)量不足就拋出異常,終止請求過程并斷開客戶端的連接,如果銅錢數(shù)量足夠就進一步完成寶石購買過程,這里不繼續(xù)描述正常過程。

因為正常的客戶端是有一步數(shù)據(jù)校驗的過程的,所以當服務(wù)端收到不合理的請求(銅錢不足以購買寶石)時,拋出異常比返回錯誤更為合理,因為這個請求只可能來自兩種客戶端:外掛或者有BUG的客戶端。如果不通過拋出異常來終止業(yè)務(wù)過程和斷開客戶端連接,那么程序的錯誤就很難被第一時間發(fā)現(xiàn),攻擊行為也很難被發(fā)現(xiàn)。

我們再回頭看瘦客戶端結(jié)構(gòu)的設(shè)計,瘦客戶端不會存有太多狀態(tài)數(shù)據(jù)和用戶數(shù)據(jù)也不清楚業(yè)務(wù)邏輯,所以客戶端的設(shè)計會是這樣:用戶點擊購買按鈕,客戶端發(fā)送購買請求;服務(wù)端收到請求后檢查銅錢數(shù)量,數(shù)量不足就返回數(shù)量不足的錯誤碼,數(shù)量足夠就繼續(xù)完成業(yè)務(wù)并返回成功信息;客戶端收到服務(wù)端的處理結(jié)果后,在界面上做出反映。

在這種結(jié)構(gòu)下,銅錢不足就變成了業(yè)務(wù)邏輯范圍內(nèi)的一種失敗情況,但不能提升為異常,否則銅錢不足的用戶一點購買按鈕都會出錯掉線。

所以,異常和錯誤在不同程序結(jié)構(gòu)下是互相轉(zhuǎn)換的,我們沒辦法一句話的給所有類型所有結(jié)構(gòu)的程序一個統(tǒng)一的異常和錯誤分類規(guī)則。

但是,異常和錯誤的分類是有跡可循的。比如上面提到的痩客戶端結(jié)構(gòu),銅錢不足是業(yè)務(wù)邏輯范圍內(nèi)的一種失敗情況,它屬于業(yè)務(wù)錯誤,再比如程序邏輯上嘗試請求某個URL,最多三次,重試三次的過程中請求失敗是錯誤,重試到第三次,失敗就被提升為異常了。

所以我們可以這樣來歸類異常和錯誤:不會終止程序邏輯運行的歸類為錯誤,會終止程序邏輯運行的歸類為異常。

因為錯誤不會終止邏輯運行,所以錯誤是邏輯的一部分,比如上面提到的瘦客戶端結(jié)構(gòu),銅錢不足的錯誤就是業(yè)務(wù)邏輯處理過程中需要考慮和處理的一個邏輯分支。而異常就是那些不應(yīng)該出現(xiàn)在業(yè)務(wù)邏輯中的東西,比如上面提到的胖客戶端結(jié)構(gòu),銅錢不足已經(jīng)不是業(yè)務(wù)邏輯需要考慮的一部分了,所以它應(yīng)該是一個異常。

錯誤和異常的分類需要通過一定的思維訓(xùn)練來強化分類能力,就類似于面向?qū)ο蟮脑O(shè)計方式一樣的,技術(shù)實現(xiàn)就擺在那邊,但是要用好需要不斷的思維訓(xùn)練不斷的歸類和總結(jié),以上提到的歸類方式希望可以作為一個參考,期待大家能發(fā)現(xiàn)更多更有效的歸類方式。

接下來我們講一下速錯和Go語言里面怎么做到速錯。

速錯我最早接觸是在做的時候就體驗到的,當然跟Erlang的速錯不完全一致,那時候也沒有那么高大上的一個名字,但是對待異常的理念是一樣的。

在.NET項目開發(fā)的時候,有經(jīng)驗的程序員都應(yīng)該知道,不能隨便re-throw,就是catch錯誤再拋出,原因是異常的第一現(xiàn)場會被破壞,堆棧跟蹤信息會丟失,因為外部最后拿到異常的堆棧跟蹤信息,是最后那次throw的異常的堆棧跟蹤信息;其次,不能隨便try catch,隨便catch很容易導(dǎo)出異常暴露不出來,升級為更嚴重的業(yè)務(wù)漏洞。

到了Erlang時期,大家學(xué)到了速錯概念,簡單來講就是:讓它掛。只有掛了你才會第一時間知道錯誤,但是Erlang的掛,只是Erlang進程的異常退出,不會導(dǎo)致整個Erlang節(jié)點退出,所以它掛的影響層面比較低。

在Go語言項目中,雖然有類似Erlang進程的Goroutine,但是Goroutine如果panic了,并且沒有recover,那么整個Go進程就會異常退出。所以我們在Go語言項目中要應(yīng)用速錯的設(shè)計理念,就要對Goroutine做一定的管理。

在我們的游戲服務(wù)端項目中,我把Goroutine按掛掉后的結(jié)果分為兩類:1、掛掉后不影響其他業(yè)務(wù)或功能的;2、掛掉后業(yè)務(wù)就無法正常進行的。

第一類Goroutine典型的有:處理各個玩家請求的Goroutine,因為每個玩家連接各自有一個Goroutine,所以掛掉了只會影響單個玩家,不會影響整體業(yè)務(wù)進行。

第二類Goroutine典型的有:數(shù)據(jù)庫同步用的Goroutine,如果它掛了,數(shù)據(jù)就無法同步到數(shù)據(jù)庫,游戲如果繼續(xù)運行下去只會導(dǎo)致數(shù)據(jù)回檔,還不如讓整個游戲都異常退出。

這樣一分類,就可以比較清楚哪些Goroutine該做recover處理,哪些不該做recover處理了。

那么在做recover處理時,要怎樣才能盡量保留第一現(xiàn)場來幫組開發(fā)者排查問題原因呢?我們項目中通常是會在最外層的recover中把錯誤和堆棧跟蹤信息記進日志,同時把關(guān)鍵的業(yè)務(wù)信息,比如:用戶ID、來源IP、請求數(shù)據(jù)等也一起記錄進去。

為此,我們還特地設(shè)計了一個庫,用來格式化輸出堆棧跟蹤信息和對象信息,項目地址:funny/debug · GitHub

通篇寫下來發(fā)現(xiàn)比我預(yù)期的長很多,所以這里我做一下歸納總結(jié),幫組大家理解這篇文章所要表達的:

錯誤和異常需要分類和管理,不能一概而論

錯誤和異常的分類可以以是否終止業(yè)務(wù)過程作為標準

錯誤是業(yè)務(wù)過程的一部分,異常不是

不要隨便捕獲異常,更不要隨便捕獲再重新拋出異常

Go語言項目需要把Goroutine分為兩類,區(qū)別處理異常

在捕獲到異常時,需要盡可能的保留第一現(xiàn)場的關(guān)鍵數(shù)據(jù)

以上僅為一家之言,拋磚引玉,希望對大家有所幫助。


本文標題:go語言中的宕機 go語言異常處理
鏈接分享:http://weahome.cn/article/hhjcee.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部