真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

go語言壓力測試 golang 壓力測試

深入理解golang

最近三年,在工作中使用go開發(fā)了不少服務(wù)。深感g(shù)o的便捷,以及它的runtime的復(fù)雜。我覺得需要定期的進(jìn)行總結(jié),因此決定寫這篇文章,也許更準(zhǔn)確的,應(yīng)該叫筆記。

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、微信小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了綏棱免費(fèi)建站歡迎大家使用!

最近終于解決了一個(gè)和cgo有關(guān)的問題。這個(gè)問題從發(fā)現(xiàn)到解決前后經(jīng)歷了接近4個(gè)月,當(dāng)然,和人手不足也有關(guān)系。而對于我個(gè)人而言,這個(gè)問題其實(shí)歷時(shí)2年!這得從頭說起。

在上一家公司的一個(gè)項(xiàng)目里,有一個(gè)服務(wù)做音視頻數(shù)據(jù)的提取,這個(gè)服務(wù)運(yùn)行在嵌入式設(shè)備TX2上。音視頻提取這一關(guān)鍵功能主要利用nvidia基于gstreamer開發(fā)的插件,這個(gè)插件可以發(fā)揮nvidia gpu的硬件解碼功能。當(dāng)時(shí)這個(gè)服務(wù)使用go和c混編的方式,問題的癥狀是服務(wù)運(yùn)行一段時(shí)間后,不輸出音視頻數(shù)據(jù)。遺憾的是,由于疫情,項(xiàng)目停止,因此沒有機(jī)會繼續(xù)研究這個(gè)問題。

時(shí)間來到去年底。當(dāng)前這個(gè)項(xiàng)目進(jìn)行壓力測試,發(fā)現(xiàn)關(guān)鍵的語音處理服務(wù)運(yùn)行一段時(shí)間后,會出現(xiàn)不拉流的情況,因此也沒有后續(xù)的結(jié)果輸出。癥狀和上一個(gè)項(xiàng)目非常像。雖然使用的第三方SDK不一樣,但同樣用了go和c混編的方式。一開始,焦點(diǎn)就放在go的運(yùn)行時(shí)上,覺得可能是go和c相互調(diào)用的方式不對。經(jīng)過合理猜測,并用測試進(jìn)行驗(yàn)證后,發(fā)現(xiàn)問題還是在第三方拉流的SDK上,它們的回調(diào)函數(shù)必須要快,否則有可能會阻塞它們的回調(diào)線程。當(dāng)然,在go調(diào)用c的時(shí)候,如果耗時(shí)比較長,會對go的運(yùn)行時(shí)造成一些副作用;在c回調(diào)go的時(shí)候,go的運(yùn)行時(shí)也有可能阻塞c的回調(diào)線程。但go的運(yùn)行時(shí)已經(jīng)比較成熟,因此我覺得它對這個(gè)問題的貢獻(xiàn)不大。以上采用了假設(shè)-驗(yàn)證的方法,主要的原因還是第三方的拉流SDK不開源。在定位問題的過程中,使用了gdb的gcore來生成堆棧;也搭建了灰度環(huán)境來進(jìn)行壓力測試,以及完善監(jiān)控,這些都是解決方法的一部分。

正是這一問題,促使我更多的了解go的運(yùn)行時(shí)。而我看得越多,越覺得go的運(yùn)行時(shí)是一個(gè)龐大的怪物。因此,抱著能了解一點(diǎn)是一點(diǎn)的心態(tài),不斷的完善這篇筆記。

如何用golang語言自己編寫壓力測試的程序

你上golang就可以自動寫出高并發(fā)程序了?其實(shí)很多時(shí)候幻覺就發(fā)生在這里。

面試問題總結(jié)(一)Golang

使用go語言的好處: go語言的設(shè)計(jì)是務(wù)實(shí)的, go在針對并發(fā)上進(jìn)行了優(yōu)化, 并且支持大規(guī)模高并發(fā), 又由于單一的碼格式, 相比于其他語言更具有可讀性, 在垃圾回收上比java和Python更有效, 因?yàn)樗呛统绦蛲瑫r(shí)執(zhí)行的.

1. 進(jìn)程, 線程, 協(xié)程的區(qū)別, 協(xié)程的優(yōu)勢

2. 講一下GMP模型(重點(diǎn))

3. Go的GC, 混合寫屏障(重點(diǎn))

4. go的Slice和數(shù)組的區(qū)別, slice的擴(kuò)容原理(重點(diǎn))

5. 講一下channel,實(shí)現(xiàn)原理(重點(diǎn))

6. 講一下Go的Map的實(shí)現(xiàn)原理, 是否線程安全, 如何實(shí)現(xiàn)安全(重點(diǎn))

7. new 和 make 的區(qū)別

8. 說一下內(nèi)存逃逸

9. 函數(shù)傳指針和傳值有什么區(qū)別

10. goroutine之間的通信方式

11. 測試是怎么做的(單元測試, 壓力測試)

12. 堆和棧的區(qū)別

如何實(shí)現(xiàn)支持?jǐn)?shù)億用戶的長連消息系統(tǒng)

此文是根據(jù)周洋在【高可用架構(gòu)群】中的分享內(nèi)容整理而成,轉(zhuǎn)發(fā)請注明出處。 周洋,360手機(jī)助手技術(shù)經(jīng)理及架構(gòu)師,負(fù)責(zé)360長連接消息系統(tǒng),360手機(jī)助手架構(gòu)的開發(fā)與維護(hù)。 不知道咱們?nèi)好裁磿r(shí)候改為“Python高可用架構(gòu)群”了,所以不得不說,很榮幸能在接下來的一個(gè)小時(shí)里在Python群里討論golang....360消息系統(tǒng)介紹 360消息系統(tǒng)更確切的說是長連接push系統(tǒng),目前服務(wù)于360內(nèi)部多個(gè)產(chǎn)品,開發(fā)平臺數(shù)千款app,也支持部分聊天業(yè)務(wù)場景,單通道多app復(fù)用,支持上行數(shù)據(jù),提供接入方不同粒度的上行數(shù)據(jù)和用戶狀態(tài)回調(diào)服務(wù)。 目前整個(gè)系統(tǒng)按不同業(yè)務(wù)分成9個(gè)功能完整的集群,部署在多個(gè)idc上(每個(gè)集群覆蓋不同的idc),實(shí)時(shí)在線數(shù)億量級。通常情況下,pc,手機(jī),甚至是智能硬件上的360產(chǎn)品的push消息,基本上是從我們系統(tǒng)發(fā)出的。 關(guān)于push系統(tǒng)對比與性能指標(biāo)的討論 很多同行比較關(guān)心go語言在實(shí)現(xiàn)push系統(tǒng)上的性能問題,單機(jī)性能究竟如何,能否和其他語言實(shí)現(xiàn)的類似系統(tǒng)做對比么?甚至問如果是創(chuàng)業(yè),第三方云推送平臺,推薦哪個(gè)? 其實(shí)各大廠都有類似的push系統(tǒng),市場上也有類似功能的云服務(wù)。包括我們公司早期也有erlang,nodejs實(shí)現(xiàn)的類似系統(tǒng),也一度被公司要求做類似的對比測試。我感覺在討論對比數(shù)據(jù)的時(shí)候,很難保證大家環(huán)境和需求的統(tǒng)一,我只能說下我這里的體會,數(shù)據(jù)是有的,但這個(gè)數(shù)據(jù)前面估計(jì)會有很多定語~ 第一個(gè)重要指標(biāo):單機(jī)的連接數(shù)指標(biāo) 做過長連接的同行,應(yīng)該有體會,如果在穩(wěn)定連接情況下,連接數(shù)這個(gè)指標(biāo),在沒有網(wǎng)絡(luò)吞吐情況下對比,其實(shí)意義往往不大,維持連接消耗cpu資源很小,每條連接tcp協(xié)議棧會占約4k的內(nèi)存開銷,系統(tǒng)參數(shù)調(diào)整后,我們單機(jī)測試數(shù)據(jù),最高也是可以達(dá)到單實(shí)例300w長連接。但做更高的測試,我個(gè)人感覺意義不大。 因?yàn)閷?shí)際網(wǎng)絡(luò)環(huán)境下,單實(shí)例300w長連接,從理論上算壓力就很大:實(shí)際弱網(wǎng)絡(luò)環(huán)境下,移動客戶端的斷線率很高,假設(shè)每秒有1000分之一的用戶斷線重連。300w長連接,每秒新建連接達(dá)到3w,這同時(shí)連入的3w用戶,要進(jìn)行注冊,加載離線存儲等對內(nèi)rpc調(diào)用,另外300w長連接的用戶心跳需要維持,假設(shè)心跳300s一次,心跳包每秒需要1w tps。單播和多播數(shù)據(jù)的轉(zhuǎn)發(fā),廣播數(shù)據(jù)的轉(zhuǎn)發(fā),本身也要響應(yīng)內(nèi)部的rpc調(diào)用,300w長連接情況下,gc帶來的壓力,內(nèi)部接口的響應(yīng)延遲能否穩(wěn)定保障。這些集中在一個(gè)實(shí)例中,可用性是一個(gè)挑戰(zhàn)。所以線上單實(shí)例不會hold很高的長連接,實(shí)際情況也要根據(jù)接入客戶端網(wǎng)絡(luò)狀況來決定。 第二個(gè)重要指標(biāo):消息系統(tǒng)的內(nèi)存使用量指標(biāo) 這一點(diǎn)上,使用go語言情況下,由于協(xié)程的原因,會有一部分額外開銷。但是要做兩個(gè)推送系統(tǒng)的對比,也有些需要確定問題。比如系統(tǒng)從設(shè)計(jì)上是否需要全雙工(即讀寫是否需要同時(shí)進(jìn)行)如果半雙工,理論上對一個(gè)用戶的連接只需要使用一個(gè)協(xié)程即可(這種情況下,對用戶的斷線檢測可能會有延時(shí)),如果是全雙工,那讀/寫各一個(gè)協(xié)程。兩種場景內(nèi)存開銷是有區(qū)別的。 另外測試數(shù)據(jù)的大小往往決定我們對連接上設(shè)置的讀寫buffer是多大,是全局復(fù)用的,還是每個(gè)連接上獨(dú)享的,還是動態(tài)申請的。另外是否全雙工也決定buffer怎么開。不同的策略,可能在不同情況的測試中表現(xiàn)不一樣。 第三個(gè)重要指標(biāo):每秒消息下發(fā)量 這一點(diǎn)上,也要看我們對消息到達(dá)的QoS級別(回復(fù)ack策略區(qū)別),另外看架構(gòu)策略,每種策略有其更適用的場景,是純粹推?還是推拉結(jié)合?甚至是否開啟了消息日志?日志庫的實(shí)現(xiàn)機(jī)制、以及緩沖開多大?flush策略……這些都影響整個(gè)系統(tǒng)的吞吐量。 另外為了HA,增加了內(nèi)部通信成本,為了避免一些小概率事件,提供閃斷補(bǔ)償策略,這些都要考慮進(jìn)去。如果所有的都去掉,那就是比較基礎(chǔ)庫的性能了。 所以我只能給出大概數(shù)據(jù),24核,64G的服務(wù)器上,在QoS為message at least,純粹推,消息體256B~1kB情況下,單個(gè)實(shí)例100w實(shí)際用戶(200w+)協(xié)程,峰值可以達(dá)到2~5w的QPS...內(nèi)存可以穩(wěn)定在25G左右,gc時(shí)間在200~800ms左右(還有優(yōu)化空間)。 我們正常線上單實(shí)例用戶控制在80w以內(nèi),單機(jī)最多兩個(gè)實(shí)例。事實(shí)上,整個(gè)系統(tǒng)在推送的需求上,對高峰的輸出不是提速,往往是進(jìn)行限速,以防push系統(tǒng)瞬時(shí)的高吞吐量,轉(zhuǎn)化成對接入方業(yè)務(wù)服務(wù)器的ddos攻擊所以對于性能上,我感覺大家可以放心使用,至少在我們這個(gè)量級上,經(jīng)受過考驗(yàn),go1.5到來后,確實(shí)有之前投資又增值了的感覺。 消息系統(tǒng)架構(gòu)介紹 下面是對消息系統(tǒng)的大概介紹,之前一些同學(xué)可能在gopher china上可以看到分享,這里簡單講解下架構(gòu)和各個(gè)組件功能,額外補(bǔ)充一些當(dāng)時(shí)遺漏的信息: 架構(gòu)圖如下,所有的service都 written by golang.幾個(gè)大概重要組件介紹如下: dispatcher service根據(jù)客戶端請求信息,將應(yīng)網(wǎng)絡(luò)和區(qū)域的長連接服務(wù)器的,一組IP傳送給客戶端。客戶端根據(jù)返回的IP,建立長連接,連接Room service. room Service,長連接網(wǎng)關(guān),hold用戶連接,并將用戶注冊進(jìn)register service,本身也做一些接入安全策略、白名單、IP限制等。 register service是我們?nèi)謘ession存儲組件,存儲和索引用戶的相關(guān)信息,以供獲取和查詢。 coordinator service用來轉(zhuǎn)發(fā)用戶的上行數(shù)據(jù),包括接入方訂閱的用戶狀態(tài)信息的回調(diào),另外做需要協(xié)調(diào)各個(gè)組件的異步操作,比如kick用戶操作,需要從register拿出其他用戶做異步操作. saver service是存儲訪問層,承擔(dān)了對redis和mysql的操作,另外也提供部分業(yè)務(wù)邏輯相關(guān)的內(nèi)存緩存,比如廣播信息的加載可以在saver中進(jìn)行緩存。另外一些策略,比如客戶端sdk由于被惡意或者意外修改,每次加載了消息,不回復(fù)ack,那服務(wù)端就不會刪除消息,消息就會被反復(fù)加載,形成死循環(huán),可以通過在saver中做策略和判斷。(客戶端總是不可信的)。 center service提供給接入方的內(nèi)部api服務(wù)器,比如單播或者廣播接口,狀態(tài)查詢接口等一系列api,包括運(yùn)維和管理的api。 舉兩個(gè)常見例子,了解工作機(jī)制:比如發(fā)一條單播給一個(gè)用戶,center先請求Register獲取這個(gè)用戶之前注冊的連接通道標(biāo)識、room實(shí)例地址,通過room service下發(fā)給長連接 Center Service比較重的工作如全網(wǎng)廣播,需要把所有的任務(wù)分解成一系列的子任務(wù),分發(fā)給所有center,然后在所有的子任務(wù)里,分別獲取在線和離線的所有用戶,再批量推到Room Service。通常整個(gè)集群在那一瞬間壓力很大。 deployd/agent service用于部署管理各個(gè)進(jìn)程,收集各組件的狀態(tài)和信息,zookeeper和keeper用于整個(gè)系統(tǒng)的配置文件管理和簡單調(diào)度 關(guān)于推送的服務(wù)端架構(gòu) 常見的推送模型有長輪訓(xùn)拉取,服務(wù)端直接推送(360消息系統(tǒng)目前主要是這種),推拉結(jié)合(推送只發(fā)通知,推送后根據(jù)通知去拉取消息). 拉取的方式不說了,現(xiàn)在并不常用了,早期很多是nginx+lua+redis,長輪訓(xùn),主要問題是開銷比較大,時(shí)效性也不好,能做的優(yōu)化策略不多。 直接推送的系統(tǒng),目前就是360消息系統(tǒng)這種,消息類型是消耗型的,并且對于同一個(gè)用戶并不允許重復(fù)消耗,如果需要多終端重復(fù)消耗,需要抽象成不同用戶。 推的好處是實(shí)時(shí)性好,開銷小,直接將消息下發(fā)給客戶端,不需要客戶端走從接入層到存儲層主動拉取. 但純推送模型,有個(gè)很大問題,由于系統(tǒng)是異步的,他的時(shí)序性無法精確保證。這對于push需求來說是夠用的,但如果復(fù)用推送系統(tǒng)做im類型通信,可能并不合適。 對于嚴(yán)格要求時(shí)序性,消息可以重復(fù)消耗的系統(tǒng),目前也都是走推拉結(jié)合的模型,就是只使用我們的推送系統(tǒng)發(fā)通知,并附帶id等給客戶端做拉取的判斷策略,客戶端根據(jù)推送的key,主動從業(yè)務(wù)服務(wù)器拉取消息。并且當(dāng)主從同步延遲的時(shí)候,跟進(jìn)推送的key做延遲拉取策略。同時(shí)也可以通過消息本身的QoS,做純粹的推送策略,比如一些“正在打字的”低優(yōu)先級消息,不需要主動拉取了,通過推送直接消耗掉。 哪些因素決定推送系統(tǒng)的效果? 首先是sdk的完善程度,sdk策略和細(xì)節(jié)完善度,往往決定了弱網(wǎng)絡(luò)環(huán)境下最終推送質(zhì)量. SDK選路策略,最基本的一些策略如下:有些開源服務(wù)可能會針對用戶hash一個(gè)該接入?yún)^(qū)域的固定ip,實(shí)際上在國內(nèi)環(huán)境下不可行,最好分配器(dispatcher)是返回散列的一組,而且端口也要參開,必要時(shí)候,客戶端告知是retry多組都連不上,返回不同idc的服務(wù)器。因?yàn)槲覀儠?jīng)常檢測到一些case,同一地區(qū)的不同用戶,可能對同一idc內(nèi)的不同ip連通性都不一樣,也出現(xiàn)過同一ip不同端口連通性不同,所以用戶的選路策略一定要靈活,策略要足夠完善.另外在選路過程中,客戶端要對不同網(wǎng)絡(luò)情況下的長連接ip做緩存,當(dāng)網(wǎng)絡(luò)環(huán)境切換時(shí)候(wifi、2G、3G),重新請求分配器,緩存不同網(wǎng)絡(luò)環(huán)境的長連接ip。 客戶端對于數(shù)據(jù)心跳和讀寫超時(shí)設(shè)置,完善斷線檢測重連機(jī)制 針對不同網(wǎng)絡(luò)環(huán)境,或者客戶端本身消息的活躍程度,心跳要自適應(yīng)的進(jìn)行調(diào)整并與服務(wù)端協(xié)商,來保證鏈路的連通性。并且在弱網(wǎng)絡(luò)環(huán)境下,除了網(wǎng)絡(luò)切換(wifi切3G)或者讀寫出錯(cuò)情況,什么時(shí)候重新建立鏈路也是一個(gè)問題??蛻舳税l(fā)出的ping包,不同網(wǎng)絡(luò)下,多久沒有得到響應(yīng),認(rèn)為網(wǎng)絡(luò)出現(xiàn)問題,重新建立鏈路需要有個(gè)權(quán)衡。另外對于不同網(wǎng)絡(luò)環(huán)境下,讀取不同的消息長度,也要有不同的容忍時(shí)間,不能一刀切。好的心跳和讀寫超時(shí)設(shè)置,可以讓客戶端最快的檢測到網(wǎng)絡(luò)問題,重新建立鏈路,同時(shí)在網(wǎng)絡(luò)抖動情況下也能完成大數(shù)據(jù)傳輸。 結(jié)合服務(wù)端做策略 另外系統(tǒng)可能結(jié)合服務(wù)端做一些特殊的策略,比如我們在選路時(shí)候,我們會將同一個(gè)用戶盡量映射到同一個(gè)room service實(shí)例上。斷線時(shí),客戶端盡量對上次連接成功的地址進(jìn)行重試。主要是方便服務(wù)端做閃斷情況下策略,會暫存用戶閃斷時(shí)實(shí)例上的信息,重新連入的 時(shí)候,做單實(shí)例內(nèi)的遷移,減少延時(shí)與加載開銷. 客戶端?;畈呗?很多創(chuàng)業(yè)公司愿意重新搭建一套push系統(tǒng),確實(shí)不難實(shí)現(xiàn),其實(shí)在協(xié)議完備情況下(最簡單就是客戶端不回ack不清數(shù)據(jù)),服務(wù)端會保證消息是不丟的。但問題是為什么在消息有效期內(nèi),到達(dá)率上不去?往往因?yàn)樽约篴pp的push service存活能力不高。選用云平臺或者大廠的,往往sdk會做一些保活策略,比如和其他app共生,互相喚醒,這也是云平臺的push service更有保障原因。我相信很多云平臺旗下的sdk,多個(gè)使用同樣sdk的app,為了實(shí)現(xiàn)服務(wù)存活,是可以互相喚醒和保證活躍的。另外現(xiàn)在push sdk本身是單連接,多app復(fù)用的,這為sdk實(shí)現(xiàn),增加了新的挑戰(zhàn)。 綜上,對我來說,選擇推送平臺,優(yōu)先會考慮客戶端sdk的完善程度。對于服務(wù)端,選擇條件稍微簡單,要求部署接入點(diǎn)(IDC)越要多,配合精細(xì)的選路策略,效果越有保證,至于想知道哪些云服務(wù)有多少點(diǎn),這個(gè)群里來自各地的小伙伴們,可以合伙測測。 go語言開發(fā)問題與解決方案 下面講下,go開發(fā)過程中遇到挑戰(zhàn)和優(yōu)化策略,給大家看下當(dāng)年的一張圖,在第一版優(yōu)化方案上線前一天截圖~可以看到,內(nèi)存最高占用69G,GC時(shí)間單實(shí)例最高時(shí)候高達(dá)3~6s.這種情況下,試想一次悲劇的請求,經(jīng)過了幾個(gè)正在執(zhí)行g(shù)c的組件,后果必然是超時(shí)... gc照成的接入方重試,又加重了系統(tǒng)的負(fù)擔(dān)。遇到這種情況當(dāng)時(shí)整個(gè)系統(tǒng)最差情況每隔2,3天就需要重啟一次~ 當(dāng)時(shí)出現(xiàn)問題,現(xiàn)在總結(jié)起來,大概以下幾點(diǎn) 1.散落在協(xié)程里的I/O,Buffer和對象不復(fù)用。 當(dāng)時(shí)(12年)由于對go的gc效率理解有限,比較奔放,程序里大量short live的協(xié)程,對內(nèi)通信的很多io操作,由于不想阻塞主循環(huán)邏輯或者需要及時(shí)響應(yīng)的邏輯,通過單獨(dú)go協(xié)程來實(shí)現(xiàn)異步。這回會gc帶來很多負(fù)擔(dān)。 針對這個(gè)問題,應(yīng)盡量控制協(xié)程創(chuàng)建,對于長連接這種應(yīng)用,本身已經(jīng)有幾百萬并發(fā)協(xié)程情況下,很多情況沒必要在各個(gè)并發(fā)協(xié)程內(nèi)部做異步io,因?yàn)槌绦虻牟⑿卸仁怯邢?,理論上做協(xié)程內(nèi)做阻塞操作是沒問題。 如果有些需要異步執(zhí)行,比如如果不異步執(zhí)行,影響對用戶心跳或者等待response無法響應(yīng),最好通過一個(gè)任務(wù)池,和一組常駐協(xié)程,來消耗,處理結(jié)果,通過channel再傳回調(diào)用方。使用任務(wù)池還有額外的好處,可以對請求進(jìn)行打包處理,提高吞吐量,并且可以加入控量策略. 2.網(wǎng)絡(luò)環(huán)境不好引起激增 go協(xié)程相比較以往高并發(fā)程序,如果做不好流控,會引起協(xié)程數(shù)量激增。早期的時(shí)候也會發(fā)現(xiàn),時(shí)不時(shí)有部分主機(jī)內(nèi)存會遠(yuǎn)遠(yuǎn)大于其他服務(wù)器,但發(fā)現(xiàn)時(shí)候,所有主要profiling參數(shù)都正常了。 后來發(fā)現(xiàn),通信較多系統(tǒng)中,網(wǎng)絡(luò)抖動阻塞是不可免的(即使是內(nèi)網(wǎng)),對外不停accept接受新請求,但執(zhí)行過程中,由于對內(nèi)通信阻塞,大量協(xié)程被 創(chuàng)建,業(yè)務(wù)協(xié)程等待通信結(jié)果沒有釋放,往往瞬時(shí)會迎來協(xié)程暴漲。但這些內(nèi)存在系統(tǒng)穩(wěn)定后,virt和res都并沒能徹底釋放,下降后,維持高位。 處理這種情況,需要增加一些流控策略,流控策略可以選擇在rpc庫來做,或者上面說的任務(wù)池來做,其實(shí)我感覺放在任務(wù)池里做更合理些,畢竟rpc通信庫可以做讀寫數(shù)據(jù)的限流,但它并不清楚具體的限流策略,到底是重試還是日志還是緩存到指定隊(duì)列。任務(wù)池本身就是業(yè)務(wù)邏輯相關(guān)的,它清楚針對不同的接口需要的流控限制策略。 3.低效和開銷大的rpc框架 早期rpc通信框架比較簡單,對內(nèi)通信時(shí)候使用的也是短連接。這本來短連接開銷和性能瓶頸超出我們預(yù)期,短連接io效率是低一些,但端口資源夠,本身吞吐可以滿足需要,用是沒問題的,很多分層的系統(tǒng),也有http短連接對內(nèi)進(jìn)行請求的 但早期go版本,這樣寫程序,在一定量級情況,是支撐不住的。短連接大量臨時(shí)對象和臨時(shí)buffer創(chuàng)建,在本已經(jīng)百萬協(xié)程的程序中,是無法承受的。所以后續(xù)我們對我們的rpc框架作了兩次調(diào)整。 第二版的rpc框架,使用了連接池,通過長連接對內(nèi)進(jìn)行通信(復(fù)用的資源包括client和server的:編解碼Buffer、Request/response),大大改善了性能。 但這種在一次request和response還是占用連接的,如果網(wǎng)絡(luò)狀況ok情況下,這不是問題,足夠滿足需要了,但試想一個(gè)room實(shí)例要與后面的數(shù)百個(gè)的register,coordinator,saver,center,keeper實(shí)例進(jìn)行通信,需要建立大量的常駐連接,每個(gè)目標(biāo)機(jī)幾十個(gè)連接,也有數(shù)千個(gè)連接被占用。 非持續(xù)抖動時(shí)候(持續(xù)逗開多少無解),或者有延遲較高的請求時(shí)候,如果針對目標(biāo)ip連接開少了,會有瞬時(shí)大量請求阻塞,連接無法得到充分利用。第三版增加了Pipeline操作,Pipeline會帶來一些額外的開銷,利用tcp的全雙特性,以盡量少的連接完成對各個(gè)服務(wù)集群的rpc調(diào)用。 4.Gc時(shí)間過長 Go的Gc仍舊在持續(xù)改善中,大量對象和buffer創(chuàng)建,仍舊會給gc帶來很大負(fù)擔(dān),尤其一個(gè)占用了25G左右的程序。之前go team的大咖郵件也告知我們,未來會讓使用協(xié)程的成本更低,理論上不需要在應(yīng)用層做更多的策略來緩解gc. 改善方式,一種是多實(shí)例的拆分,如果公司沒有端口限制,可以很快部署大量實(shí)例,減少gc時(shí)長,最直接方法。不過對于360來說,外網(wǎng)通常只能使用80和433。因此常規(guī)上只能開啟兩個(gè)實(shí)例。當(dāng)然很多人給我建議能否使用SO_REUSEPORT,不過我們內(nèi)核版本確實(shí)比較低,并沒有實(shí)踐過。 另外能否模仿nginx,fork多個(gè)進(jìn)程監(jiān)控同樣端口,至少我們目前沒有這樣做,主要對于我們目前進(jìn)程管理上,還是獨(dú)立的運(yùn)行的,對外監(jiān)聽不同端口程序,還有配套的內(nèi)部通信和管理端口,實(shí)例管理和升級上要做調(diào)整。 解決gc的另兩個(gè)手段,是內(nèi)存池和對象池,不過最好做仔細(xì)評估和測試,內(nèi)存池、對象池使用,也需要對于代碼可讀性與整體效率進(jìn)行權(quán)衡。 這種程序一定情況下會降低并行度,因?yàn)橛贸貎?nèi)資源一定要加互斥鎖或者原子操作做CAS,通常原子操作實(shí)測要更快一些。CAS可以理解為可操作的更細(xì)行為粒度的鎖(可以做更多CAS策略,放棄運(yùn)行,防止忙等)。這種方式帶來的問題是,程序的可讀性會越來越像C語言,每次要malloc,各地方用完后要free,對于對象池free之前要reset,我曾經(jīng)在應(yīng)用層嘗試做了一個(gè)分層次結(jié)構(gòu)的“無鎖隊(duì)列”上圖左邊的數(shù)組實(shí)際上是一個(gè)列表,這個(gè)列表按大小將內(nèi)存分塊,然后使用atomic操作進(jìn)行CAS。但實(shí)際要看測試數(shù)據(jù)了,池技術(shù)可以明顯減少臨時(shí)對象和內(nèi)存的申請和釋放,gc時(shí)間會減少,但加鎖帶來的并行度的降低,是否能給一段時(shí)間內(nèi)的整體吞吐量帶來提升,要做測試和權(quán)衡… 在我們消息系統(tǒng),實(shí)際上后續(xù)去除了部分這種黑科技,試想在百萬個(gè)協(xié)程里面做自旋操作申請復(fù)用的buffer和對象,開銷會很大,尤其在協(xié)程對線程多對多模型情況下,更依賴于golang本身調(diào)度策略,除非我對池增加更多的策略處理,減少忙等,感覺是在把runtime做的事情,在應(yīng)用層非常不優(yōu)雅的實(shí)現(xiàn)。普遍使用開銷理論就大于收益。 但對于rpc庫或者codec庫,任務(wù)池內(nèi)部,這些開定量協(xié)程,集中處理數(shù)據(jù)的區(qū)域,可以嘗試改造~ 對于有些固定對象復(fù)用,比如固定的心跳包什么的,可以考慮使用全局一些對象,進(jìn)行復(fù)用,針對應(yīng)用層數(shù)據(jù),具體設(shè)計(jì)對象池,在部分環(huán)節(jié)去復(fù)用,可能比這種無差別的設(shè)計(jì)一個(gè)通用池更能進(jìn)行效果評估. 消息系統(tǒng)的運(yùn)維及測試 下面介紹消息系統(tǒng)的架構(gòu)迭代和一些迭代經(jīng)驗(yàn),由于之前在其他地方有過分享,后面的會給出相關(guān)鏈接,下面實(shí)際做個(gè)簡單介紹,感興趣可以去鏈接里面看 架構(gòu)迭代~根據(jù)業(yè)務(wù)和集群的拆分,能解決部分灰度部署上線測試,減少點(diǎn)對點(diǎn)通信和廣播通信不同產(chǎn)品的相互影響,針對特定的功能做獨(dú)立的優(yōu)化. 消息系統(tǒng)架構(gòu)和集群拆分,最基本的是拆分多實(shí)例,其次是按照業(yè)務(wù)類型對資源占用情況分類,按用戶接入網(wǎng)絡(luò)和對idc布點(diǎn)要求分類(目前沒有條件,所有的產(chǎn)品都部署到全部idc)系統(tǒng)的測試go語言在并發(fā)測試上有獨(dú)特優(yōu)勢。對于壓力測試,目前主要針對指定的服務(wù)器,選定線上空閑的服務(wù)器做長連接壓測。然后結(jié)合可視化,分析壓測過程中的系統(tǒng)狀態(tài)。但壓測早期用的比較多,但實(shí)現(xiàn)的統(tǒng)計(jì)報(bào)表功能和我理想有一定差距。我覺得最近出的golang開源產(chǎn)品都符合這種場景,go寫網(wǎng)絡(luò)并發(fā)程序給大家?guī)淼谋憷?,讓大家把以往為了降低?fù)雜度,拆解或者分層協(xié)作的組件,又組合在了一起。 QA Q1:協(xié)議棧大小,超時(shí)時(shí)間定制原則? 移動網(wǎng)絡(luò)下超時(shí)時(shí)間按產(chǎn)品需求通常2g,3G情況下是5分鐘,wifi情況下5~8分鐘。但對于個(gè)別場景,要求響應(yīng)非常迅速的場景,如果連接idle超過1分鐘,都會有ping,pong,來校驗(yàn)是否斷線檢測,盡快做到重新連接。 Q2:消息是否持久化? 消息持久化,通常是先存后發(fā),存儲用的redis,但落地用的mysql。mysql只做故障恢復(fù)使用。 Q3:消息風(fēng)暴怎么解決的? 如果是發(fā)送情況下,普通產(chǎn)品是不需要限速的,對于較大產(chǎn)品是有發(fā)送隊(duì)列做控速度,按人數(shù),按秒進(jìn)行控速度發(fā)放,發(fā)送成功再發(fā)送下一條。 Q4:golang的工具鏈支持怎么樣?我自己寫過一些小程序千把行之內(nèi),確實(shí)很不錯(cuò),但不知道代碼量上去之后,配套的debug工具和profiling工具如何,我看上邊有分享說golang自帶的profiling工具還不錯(cuò),那debug呢怎么樣呢,官方一直沒有出debug工具,gdb支持也不完善,不知你們用的什么? 是這樣的,我們正常就是println,我感覺基本上可以定位我所有問題,但也不排除由于并行性通過println無法復(fù)現(xiàn)的問題,目前來看只能靠經(jīng)驗(yàn)了。只要常見并發(fā)嘗試,經(jīng)過分析是可以找到的。go很快會推出調(diào)試工具的~ Q5:協(xié)議棧是基于tcp嗎? 是否有協(xié)議拓展功能?協(xié)議棧是tcp,整個(gè)系統(tǒng)tcp長連接,沒有考慮擴(kuò)展其功能~如果有好的經(jīng)驗(yàn),可以分享~ Q6:問個(gè)問題,這個(gè)系統(tǒng)是接收上行數(shù)據(jù)的吧,系統(tǒng)接收上行數(shù)據(jù)后是轉(zhuǎn)發(fā)給相應(yīng)系統(tǒng)做處理么,是怎么轉(zhuǎn)發(fā)呢,如果需要給客戶端返回調(diào)用結(jié)果又是怎么處理呢? 系統(tǒng)上行數(shù)據(jù)是根據(jù)協(xié)議頭進(jìn)行轉(zhuǎn)發(fā),協(xié)議頭里面標(biāo)記了產(chǎn)品和轉(zhuǎn)發(fā)類型,在coordinator里面跟進(jìn)產(chǎn)品和轉(zhuǎn)發(fā)類型,回調(diào)用戶,如果用戶需要阻塞等待回復(fù)才能后續(xù)操作,那通過再發(fā)送消息,路由回用戶。因?yàn)檎麄€(gè)系統(tǒng)是全異步的。 Q7:問個(gè)pushsdk的問題。pushsdk的單連接,多app復(fù)用方式,這樣的情況下以下幾個(gè)問題是如何解決的:1)系統(tǒng)流量統(tǒng)計(jì)會把所有流量都算到啟動連接的應(yīng)用吧?而啟動應(yīng)用的連接是不固定的吧?2)同一個(gè)pushsdk在不同的應(yīng)用中的版本號可能不一樣,這樣暴露出來的接口可能有版本問題,如果用單連接模式怎么解決? 流量只能算在啟動的app上了,但一般這種安裝率很高的app承擔(dān)可能性大,常用app本身被檢測和殺死可能性較少,另外消息下發(fā)量是有嚴(yán)格控制 的。整體上用戶還是省電和省流量的。我們pushsdk盡量向上兼容,出于這個(gè)目的,push sdk本身做的工作非常有限,抽象出來一些常見的功能,純推的系統(tǒng),客戶端策略目前做的很少,也有這個(gè)原因。 Q8:生產(chǎn)系統(tǒng)的profiling是一直打開的么? 不是一直打開,每個(gè)集群都有采樣,但需要開啟哪個(gè)可以后臺控制。這個(gè)profling是通過接口調(diào)用。 Q9:面前系統(tǒng)中的消息消費(fèi)者可不可以分組?類似于Kafka。 客戶端可以訂閱不同產(chǎn)品的消息,接受不同的分組。接入的時(shí)候進(jìn)行bind或者unbind操作 Q10:為什么放棄erlang,而選擇go,有什么特別原因嗎?我們現(xiàn)在用的erlang? erlang沒有問題,原因是我們上線后,其他團(tuán)隊(duì)才做出來,經(jīng)過qa一個(gè)部門對比測試,在沒有顯著性能提升下,選擇繼續(xù)使用go版本的push,作為公司基礎(chǔ)服務(wù)。 Q11:流控問題有排查過網(wǎng)卡配置導(dǎo)致的idle問題嗎? 流控是業(yè)務(wù)級別的流控,我們上線前對于內(nèi)網(wǎng)的極限通信量做了測試,后續(xù)將請求在rpc庫內(nèi),控制在小于內(nèi)部通信開銷的上限以下.在到達(dá)上限前作流控。 Q12:服務(wù)的協(xié)調(diào)調(diào)度為什么選擇zk有考慮過raft實(shí)現(xiàn)嗎?golang的raft實(shí)現(xiàn)很多啊,比如Consul和ectd之類的。 3年前,還沒有后兩者或者后兩者沒聽過應(yīng)該。zk當(dāng)時(shí)公司內(nèi)部成熟方案,不過目前來看,我們不準(zhǔn)備用zk作結(jié)合系統(tǒng)的定制開發(fā),準(zhǔn)備用自己寫的keeper代替zk,完成配置文件自動轉(zhuǎn)數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)自動同步指定進(jìn)程,同時(shí)里面可以完成很多自定義的發(fā)現(xiàn)和控制策略,客戶端包含keeper的sdk就可以實(shí)現(xiàn)以上的所有監(jiān)控?cái)?shù)據(jù),profling數(shù)據(jù)收集,配置文件更新,啟動關(guān)閉等回調(diào)。完全抽象成語keeper通信sdk,keeper之間考慮用raft。 Q13:負(fù)載策略是否同時(shí)在服務(wù)側(cè)與CLIENT側(cè)同時(shí)做的 (DISPATCHER 會返回一組IP)?另外,ROOM SERVER/REGISTER SERVER連接狀態(tài)的一致性可用性如何保證? 服務(wù)側(cè)保活有無特別關(guān)注的地方? 安全性方面是基于TLS再加上應(yīng)用層加密? 會在server端做,比如重啟操作前,會下發(fā)指令類型消息,讓客戶端進(jìn)行主動行為。部分消息使用了加密策略,自定義的rsa+des,另外滿足我們安全公司的需要,也定制開發(fā)很多安全加密策略。一致性是通過冷備解決的,早期考慮雙寫,但實(shí)時(shí)狀態(tài)雙寫同步代價(jià)太高而且容易有臟數(shù)據(jù),比如register掛了,調(diào)用所有room,通過重新刷入指定register來解決。 Q14:這個(gè)keeper有開源打算嗎? 還在寫,如果沒耦合我們系統(tǒng)太多功能,一定會開源的,主要這意味著,我們所有的bind在sdk的庫也需要開源~ Q15:比較好奇lisence是哪個(gè)如果開源?

全鏈路壓測流量模型

現(xiàn)在全鏈路越來越火,各大廠商也紛紛推出了自己的全鏈路壓測測試方案。特別是針對全鏈路壓測流量模型,各家方案都有所不同。最近我看了一些這方面的資料,有一些感悟。分享給大家。

全鏈路壓測流量模型的梳理呢,這里就先不講了,各家公司自有司情在。因?yàn)橹饕侨溌穳簻y模型的實(shí)現(xiàn),其實(shí)實(shí)現(xiàn)也對應(yīng)了流量模型的梳理結(jié)果。

業(yè)界常用的三種方一種:是基于業(yè)務(wù)模型的實(shí)現(xiàn),一種是基于真實(shí)流量的錄制回放,最后一種是灰度分流。

這個(gè)是一種比較常用的方式。首先要對公司業(yè)務(wù)模型進(jìn)行梳理,也就是說對公司的業(yè)務(wù)鏈路進(jìn)行梳理。這里的業(yè)務(wù)鏈路可能會比較復(fù)雜,不是像很多案例中到的了就非常流行暢的一條鏈路,中間很有可能會出現(xiàn)各種各樣的支路。如果圖圖形化展示的話,某一條鏈路應(yīng)該就是一個(gè)樹形結(jié)構(gòu)。樹形結(jié)構(gòu)的開始是用戶的入口頁一般就是入口頁面的登陸,或者說是首頁接口。樹形結(jié)構(gòu)的右側(cè)是用戶的出口,這里根據(jù)業(yè)務(wù)模型不同,用戶的出口會非常的多,所以大多數(shù)來時(shí)候來講,這就是一個(gè)分叉的樹形結(jié)構(gòu)。

要對這樣的流量模型進(jìn)行實(shí)現(xiàn)。是比較困難的。首先要梳理出這樣的業(yè)務(wù)模型,就不太容易,再加上接口的相互調(diào)用啊,數(shù)據(jù)之間的相互依賴又可能是復(fù)雜程度增加一個(gè)量級。所以一般的實(shí)現(xiàn)方式就是做歸攏。將比較復(fù)雜的樹形結(jié)構(gòu)簡單化,或者干脆將以個(gè)業(yè)務(wù)聯(lián)絡(luò)分解成n個(gè)列有鏈路。然后分別實(shí)現(xiàn)。最終將流量匯聚,就變成了整個(gè)業(yè)務(wù)鏈路的流量模型實(shí)現(xiàn)。

在業(yè)務(wù)模型實(shí)現(xiàn)這個(gè)方向,各家都有不同的實(shí)現(xiàn)方式啊,基本上就分為工具以及腳本實(shí)現(xiàn)。我自己不怎么用工具做過接口的性能測試,全都是使用java和groovy腳本去實(shí)現(xiàn)的。首先,我會實(shí)現(xiàn)一個(gè)基于接口的業(yè)務(wù)測試框架,將每一個(gè)接口封裝成一個(gè)方法。接口的參數(shù)即是這個(gè)方法的參數(shù)。然后將每一個(gè)用戶封裝成一個(gè)對象。將用戶的各種信息變成這個(gè)對象的屬性。然后用戶在請求不同的接口的時(shí)候?qū)τ脩舻膶傩赃M(jìn)行賦值這樣就達(dá)到了一個(gè)參數(shù)傳遞的目的。然后通過調(diào)用不同的方法,我們就可以實(shí)現(xiàn)對不同接口的請求。通過控制參數(shù)或者說接口請求的頻率,我們就可以達(dá)到控制當(dāng)前用戶。在整個(gè)業(yè)務(wù)鏈的走向。

基于流量錄制和回放,這個(gè)是最容易實(shí)現(xiàn)的方式。也是最容易貼近真實(shí)情況的方式。哦,我接觸到的主要有一個(gè)回放模型,就是用golang語言寫的goreply。go語言的性能是非常好的,用于性能測試足夠滿足用戶的需求。大多數(shù)公司都會選擇在原生引擎的基礎(chǔ)上做一些封裝。然后對對業(yè)務(wù)進(jìn)行一些兼容,最主要的還是適配流量來源。通常流量的來源是通過日志文件來獲取的,但是我看行業(yè)內(nèi)也有通過一些固定的流量存儲分析引擎去完成。這里的技術(shù)我不是太熟,也就不多分享啦。

我覺得基于流量錄制回放這種模式有一個(gè)比較難以解決的問題:流量的不可見性。一般來說,錄制流量會非常大。介于幾十萬上百萬之間。這么規(guī)模大的流量,是很難對他進(jìn)行可視化的。常遇到的一個(gè)問題,就是對于一些請求量非常小的接口。錄制的時(shí)候可能會錄丟。還有一種就是錄制流量的時(shí)間范圍不會太廣。那么錄制出來的流量文件只能反映錄制時(shí)的流量模型,并不能反映其他錄制時(shí)間段的流量模型。如果某個(gè)服務(wù)的流量是根據(jù)時(shí)間變化的。那么就需要對多個(gè)時(shí)間段都錄制流量,然后進(jìn)行合并。由于流量的不可見性,所以對流量的模型進(jìn)行分析,就會顯得比較麻煩。

這是我在某個(gè)會議上看到大佬分享的一個(gè)方案?;叶却蠹衣牭目赡鼙容^多的是灰度發(fā)布。就是將服務(wù)或者app更新范圍限制在某些一批人,或者說某個(gè)地理范圍。這里講的灰度分流,其實(shí)核心上差不多,就是將線上的一部分流量轉(zhuǎn)到某些機(jī)器上。以實(shí)現(xiàn)對這些機(jī)器所在服務(wù)的一些壓測。這種方案?;诰€上流量完成,所以幾乎不需要測試。投入過多的資源進(jìn)行開發(fā)實(shí)現(xiàn)。這種方案有點(diǎn)兒基于業(yè)務(wù)模型和基于流量錄制取了一個(gè)中間態(tài)。既能保證流量的真實(shí)有效性。又可以避免開發(fā)測試腳本帶來的負(fù)擔(dān)。

這種方式對于公司的架構(gòu),主或者說是分流的實(shí)現(xiàn)來說,技術(shù)難度是比較高的。因?yàn)樗玫娜际怯脩舻恼鎸?shí)數(shù)據(jù),所以一旦出現(xiàn)問題的話,這個(gè)問題影響范圍不太可控,而且比較嚴(yán)重。對于接收灰度分流流量的機(jī)器來說,壓測流量完全真實(shí)。但是他也無法避免基于流量錄制,回放同樣的問題。就是流量的不可見性以及流量與時(shí)間可能存在于一個(gè)關(guān)聯(lián)關(guān)系并不是線性的。甚至這一點(diǎn)流量的灰度分流還不如流量的錄制與回放。我想這也是。我身邊接觸到的公司,都沒有采用這種方案的原因吧。


網(wǎng)頁題目:go語言壓力測試 golang 壓力測試
文章位置:http://weahome.cn/article/docissj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部