GO富集分析。
網(wǎng)站建設(shè)哪家好,找成都創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、微信平臺小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了建鄴免費(fèi)建站歡迎大家使用!
go算法用的是GO富集分析統(tǒng)計(jì)學(xué)模型,GO富集分析的統(tǒng)計(jì)學(xué)基礎(chǔ)是超幾何分布,簡單而言就是根據(jù)Fisher精確檢驗(yàn)對每個GOterm計(jì)算一個P值。
差異基因GO分析的關(guān)鍵是用統(tǒng)計(jì)學(xué)方法進(jìn)行基因富集,分析這些基因參與了何種生物學(xué)功能、生物進(jìn)程以及亞細(xì)胞定位,目前常用的基因富集分析法是基于超幾何分布。
Goroutine調(diào)度是一個很復(fù)雜的機(jī)制,下面嘗試用簡單的語言描述一下Goroutine調(diào)度機(jī)制,想要對其有更深入的了解可以去研讀一下源碼。
首先介紹一下GMP什么意思:
G ----------- goroutine: 即Go協(xié)程,每個go關(guān)鍵字都會創(chuàng)建一個協(xié)程。
M ---------- thread內(nèi)核級線程,所有的G都要放在M上才能運(yùn)行。
P ----------- processor處理器,調(diào)度G到M上,其維護(hù)了一個隊(duì)列,存儲了所有需要它來調(diào)度的G。
Goroutine 調(diào)度器P和 OS 調(diào)度器是通過 M 結(jié)合起來的,每個 M 都代表了 1 個內(nèi)核線程,OS 調(diào)度器負(fù)責(zé)把內(nèi)核線程分配到 CPU 的核上執(zhí)行
模型圖:
避免頻繁的創(chuàng)建、銷毀線程,而是對線程的復(fù)用。
1)work stealing機(jī)制
當(dāng)本線程無可運(yùn)行的G時,嘗試從其他線程綁定的P偷取G,而不是銷毀線程。
2)hand off機(jī)制
當(dāng)本線程M0因?yàn)镚0進(jìn)行系統(tǒng)調(diào)用阻塞時,線程釋放綁定的P,把P轉(zhuǎn)移給其他空閑的線程執(zhí)行。進(jìn)而某個空閑的M1獲取P,繼續(xù)執(zhí)行P隊(duì)列中剩下的G。而M0由于陷入系統(tǒng)調(diào)用而進(jìn)被阻塞,M1接替M0的工作,只要P不空閑,就可以保證充分利用CPU。M1的來源有可能是M的緩存池,也可能是新建的。當(dāng)G0系統(tǒng)調(diào)用結(jié)束后,根據(jù)M0是否能獲取到P,將會將G0做不同的處理:
如果有空閑的P,則獲取一個P,繼續(xù)執(zhí)行G0。
如果沒有空閑的P,則將G0放入全局隊(duì)列,等待被其他的P調(diào)度。然后M0將進(jìn)入緩存池睡眠。
如下圖
GOMAXPROCS設(shè)置P的數(shù)量,最多有GOMAXPROCS個線程分布在多個CPU上同時運(yùn)行
在Go中一個goroutine最多占用CPU 10ms,防止其他goroutine被餓死。
具體可以去看另一篇文章
【Golang詳解】go語言調(diào)度機(jī)制 搶占式調(diào)度
當(dāng)創(chuàng)建一個新的G之后優(yōu)先加入本地隊(duì)列,如果本地隊(duì)列滿了,會將本地隊(duì)列的G移動到全局隊(duì)列里面,當(dāng)M執(zhí)行work stealing從其他P偷不到G時,它可以從全局G隊(duì)列獲取G。
協(xié)程經(jīng)歷過程
我們創(chuàng)建一個協(xié)程 go func()經(jīng)歷過程如下圖:
說明:
這里有兩個存儲G的隊(duì)列,一個是局部調(diào)度器P的本地隊(duì)列、一個是全局G隊(duì)列。新創(chuàng)建的G會先保存在P的本地隊(duì)列中,如果P的本地隊(duì)列已經(jīng)滿了就會保存在全局的隊(duì)列中;處理器本地隊(duì)列是一個使用數(shù)組構(gòu)成的環(huán)形鏈表,它最多可以存儲 256 個待執(zhí)行任務(wù)。
G只能運(yùn)行在M中,一個M必須持有一個P,M與P是1:1的關(guān)系。M會從P的本地隊(duì)列彈出一個可執(zhí)行狀態(tài)的G來執(zhí)行,如果P的本地隊(duì)列為空,就會想其他的MP組合偷取一個可執(zhí)行的G來執(zhí)行;
一個M調(diào)度G執(zhí)行的過程是一個循環(huán)機(jī)制;會一直從本地隊(duì)列或全局隊(duì)列中獲取G
上面說到P的個數(shù)默認(rèn)等于CPU核數(shù),每個M必須持有一個P才可以執(zhí)行G,一般情況下M的個數(shù)會略大于P的個數(shù),這多出來的M將會在G產(chǎn)生系統(tǒng)調(diào)用時發(fā)揮作用。類似線程池,Go也提供一個M的池子,需要時從池子中獲取,用完放回池子,不夠用時就再創(chuàng)建一個。
work-stealing調(diào)度算法:當(dāng)M執(zhí)行完了當(dāng)前P的本地隊(duì)列隊(duì)列里的所有G后,P也不會就這么在那躺尸啥都不干,它會先嘗試從全局隊(duì)列隊(duì)列尋找G來執(zhí)行,如果全局隊(duì)列為空,它會隨機(jī)挑選另外一個P,從它的隊(duì)列里中拿走一半的G到自己的隊(duì)列中執(zhí)行。
如果一切正常,調(diào)度器會以上述的那種方式順暢地運(yùn)行,但這個世界沒這么美好,總有意外發(fā)生,以下分析goroutine在兩種例外情況下的行為。
Go runtime會在下面的goroutine被阻塞的情況下運(yùn)行另外一個goroutine:
用戶態(tài)阻塞/喚醒
當(dāng)goroutine因?yàn)閏hannel操作或者network I/O而阻塞時(實(shí)際上golang已經(jīng)用netpoller實(shí)現(xiàn)了goroutine網(wǎng)絡(luò)I/O阻塞不會導(dǎo)致M被阻塞,僅阻塞G,這里僅僅是舉個栗子),對應(yīng)的G會被放置到某個wait隊(duì)列(如channel的waitq),該G的狀態(tài)由_Gruning變?yōu)開Gwaitting,而M會跳過該G嘗試獲取并執(zhí)行下一個G,如果此時沒有可運(yùn)行的G供M運(yùn)行,那么M將解綁P,并進(jìn)入sleep狀態(tài);當(dāng)阻塞的G被另一端的G2喚醒時(比如channel的可讀/寫通知),G被標(biāo)記為,嘗試加入G2所在P的runnext(runnext是線程下一個需要執(zhí)行的 Goroutine。), 然后再是P的本地隊(duì)列和全局隊(duì)列。
系統(tǒng)調(diào)用阻塞
當(dāng)M執(zhí)行某一個G時候如果發(fā)生了阻塞操作,M會阻塞,如果當(dāng)前有一些G在執(zhí)行,調(diào)度器會把這個線程M從P中摘除,然后再創(chuàng)建一個新的操作系統(tǒng)的線程(如果有空閑的線程可用就復(fù)用空閑線程)來服務(wù)于這個P。當(dāng)M系統(tǒng)調(diào)用結(jié)束時候,這個G會嘗試獲取一個空閑的P執(zhí)行,并放入到這個P的本地隊(duì)列。如果獲取不到P,那么這個線程M變成休眠狀態(tài), 加入到空閑線程中,然后這個G會被放入全局隊(duì)列中。
隊(duì)列輪轉(zhuǎn)
可見每個P維護(hù)著一個包含G的隊(duì)列,不考慮G進(jìn)入系統(tǒng)調(diào)用或IO操作的情況下,P周期性的將G調(diào)度到M中執(zhí)行,執(zhí)行一小段時間,將上下文保存下來,然后將G放到隊(duì)列尾部,然后從隊(duì)列中重新取出一個G進(jìn)行調(diào)度。
除了每個P維護(hù)的G隊(duì)列以外,還有一個全局的隊(duì)列,每個P會周期性地查看全局隊(duì)列中是否有G待運(yùn)行并將其調(diào)度到M中執(zhí)行,全局隊(duì)列中G的來源,主要有從系統(tǒng)調(diào)用中恢復(fù)的G。之所以P會周期性地查看全局隊(duì)列,也是為了防止全局隊(duì)列中的G被餓死。
除了每個P維護(hù)的G隊(duì)列以外,還有一個全局的隊(duì)列,每個P會周期性地查看全局隊(duì)列中是否有G待運(yùn)行并將其調(diào)度到M中執(zhí)行,全局隊(duì)列中G的來源,主要有從系統(tǒng)調(diào)用中恢復(fù)的G。之所以P會周期性地查看全局隊(duì)列,也是為了防止全局隊(duì)列中的G被餓死。
M0
M0是啟動程序后的編號為0的主線程,這個M對應(yīng)的實(shí)例會在全局變量rutime.m0中,不需要在heap上分配,M0負(fù)責(zé)執(zhí)行初始化操作和啟動第一個G,在之后M0就和其他的M一樣了
G0
G0是每次啟動一個M都會第一個創(chuàng)建的goroutine,G0僅用于負(fù)責(zé)調(diào)度G,G0不指向任何可執(zhí)行的函數(shù),每個M都會有一個自己的G0,在調(diào)度或系統(tǒng)調(diào)用時會使用G0的??臻g,全局變量的G0是M0的G0
一個G由于調(diào)度被中斷,此后如何恢復(fù)?
中斷的時候?qū)⒓拇嫫骼锏臈P畔?,保存到自己的G對象里面。當(dāng)再次輪到自己執(zhí)行時,將自己保存的棧信息復(fù)制到寄存器里面,這樣就接著上次之后運(yùn)行了。
我這里只是根據(jù)自己的理解進(jìn)行了簡單的介紹,想要詳細(xì)了解有關(guān)GMP的底層原理可以去看Go調(diào)度器 G-P-M 模型的設(shè)計(jì)者的文檔或直接看源碼
參考: ()
()
最近在看左神新書 《Go 語言設(shè)計(jì)與實(shí)現(xiàn)》的垃圾收集器時產(chǎn)生一個疑惑,花了點(diǎn)時間搞清楚了記錄一下。
Go 語言垃圾回收的實(shí)現(xiàn)使用了標(biāo)記清除算法,將對象的狀態(tài)抽象成黑色(活躍對象)、灰色(活躍對象中間狀態(tài))、白色(潛在垃圾對象也是所有對象的默認(rèn)狀態(tài))三種,注意沒有具體的字段標(biāo)記顏色。
整個標(biāo)記過程就是把白色對象標(biāo)黑的過程:
1.首先將 ROOT 根對象(包括全局變量、goroutine 棧上的對象等)放入到灰色集合
2.選一個灰色對象,標(biāo)成黑色,將所有可達(dá)的子對象放入到灰色集合
3.重復(fù)2的步驟,直到灰色集合中為空
下圖是書上的插圖,看上去是一個典型的深度優(yōu)先搜索的算法。
下圖是劉丹冰寫的《Golang 修養(yǎng)之路》的插圖,看上去是一個典型的廣度優(yōu)先搜索的算法。
我疑惑的點(diǎn)在于這個標(biāo)記過程是深度優(yōu)先算法還是廣度優(yōu)先算法,因?yàn)楹芏辔恼虏┛蛯Υ硕紱]有很清楚的說明,作為學(xué)習(xí)者這種細(xì)節(jié)其實(shí)也不影響對整個 GC 流程的理解,但是這種細(xì)節(jié)我非常喜歡扣:)
對著書和源碼摸索著大致找到了一個結(jié)果是深度優(yōu)先。下面看下大致的過程,源碼基于1.15.2版本:
gcStart 是 Go 語言三種條件觸發(fā) GC 的共同入口
啟動后臺標(biāo)記任務(wù)
為每個處理器創(chuàng)建用于執(zhí)行后臺標(biāo)記任務(wù)的 Goroutine
上面休眠的 G 會在調(diào)度循環(huán)中檢查并喚醒執(zhí)行
執(zhí)行標(biāo)記
gcw 是每個 P 獨(dú)有的所以不用擔(dān)心并發(fā)的問題 和 GMP、mcache 一樣設(shè)計(jì),減少鎖競爭
嘗試在全局列表中獲取一個不為空的 buf
這是官方實(shí)現(xiàn)的無鎖隊(duì)列:)漲見識了,for 循環(huán)加原子操作實(shí)現(xiàn)棧的 pop
到這里從灰色集合中獲取待掃描的對象邏輯說完了。找到對象了接著就是 scanobject(b, gcw) 了,里面有兩段邏輯要注意
根據(jù)索引位置找到對象進(jìn)行標(biāo)色
嘗試存入 gcwork 的緩存中,或全局隊(duì)列中
無鎖隊(duì)列,for 循環(huán)加原子操作實(shí)現(xiàn)棧的 push
到這里把灰色對象標(biāo)黑就完成了,又放回灰色集合接著掃下一個指針。
Go 語言設(shè)計(jì)與實(shí)現(xiàn) 垃圾收集器
Golang三色標(biāo)記+混合寫屏障GC模式全分析