一般來說當(dāng)內(nèi)存空間span不足時,需要進(jìn)行擴(kuò)容。而在擴(kuò)容前需要將當(dāng)前沒有剩余空間的內(nèi)存塊相關(guān)狀態(tài)解除,以便后續(xù)的垃圾回收期能夠進(jìn)行掃描和回收,接著在從中間部件(central)提取新的內(nèi)存塊放回數(shù)組中。
創(chuàng)新互聯(lián)建站基于成都重慶香港及美國等地區(qū)分布式IDC機(jī)房數(shù)據(jù)中心構(gòu)建的電信大帶寬,聯(lián)通大帶寬,移動大帶寬,多線BGP大帶寬租用,是為眾多客戶提供專業(yè)服務(wù)器托管報價,主機(jī)托管價格性價比高,為金融證券行業(yè)四川樂山服務(wù)器托管,ai人工智能服務(wù)器托管提供bgp線路100M獨(dú)享,G口帶寬及機(jī)柜租用的專業(yè)成都idc公司。
需要注意由于中間部件有scan和noscan兩種類型,則申請的內(nèi)存空間最終獲取的可能是其兩倍,并由heap堆進(jìn)行統(tǒng)一管理。中間部件central是通過兩個鏈表來管理其分配的所有內(nèi)存塊:
1、empty代表“無法使用”狀態(tài),沒有剩余的空間或被移交給緩存的內(nèi)存塊
2、noempty代表剩余的空間,并這些內(nèi)存塊能夠提供服務(wù)
由于golang垃圾回收器使用的累增計數(shù)器(heap.sweepgen)來表達(dá)代齡的:
從上面內(nèi)容可以看到每次進(jìn)行清理操作時 該計數(shù)器 +2
再來看下mcentral的構(gòu)成
當(dāng)通過mcentral進(jìn)行空間span獲取時,第一步需要到noempty列表檢查剩余空間的內(nèi)存塊,這里面有一點(diǎn)需要說明主要是垃圾回收器的掃描過程和清理過程是同時進(jìn)行的,那么為了獲取更多的可用空間,則會在將分配的內(nèi)存塊移交給cache部件前,先完成清理的操作。第二步當(dāng)noempty沒有返回時,則需要檢查下empty列表(由于empty里的內(nèi)存塊有可能已被標(biāo)記為垃圾,這樣可以直接清理,對應(yīng)的空間則可直接使用了)。第三步若是noempty和empty都沒有申請到,這時需要堆進(jìn)行申請內(nèi)存的
通過上面的源碼也可以看到中間部件central自身擴(kuò)容操作與大對象內(nèi)存分配差不多類似。
在golang中將長度小于16bytes的對象稱為微小對象(tiny),最常見的就是小字符串,一般會將這些微小對象組合起來,并用單塊內(nèi)存存儲,這樣能夠有效的減少內(nèi)存浪費(fèi)。
當(dāng)微小對象需要分配空間span,首先緩存部件會按指定的規(guī)格(tiny size class)取出一塊內(nèi)存,若容量不足,則重新提取一塊;前面也提到會將微小對象進(jìn)行組合,而這些組合的微小對象是不能包含指針的,因?yàn)槔厥盏脑?,一般都是?dāng)前存儲單元里所有的微小對象都不可達(dá)時,才會將該塊內(nèi)存進(jìn)行回收。
而當(dāng)從緩沖部件cache中獲取空間span時, 是通過偏移位置(tinyoffset)先來判斷剩余空間是否滿足需求。若是可以的話則以此計算并返回內(nèi)存地址;若是空間不足,則提取新的內(nèi)存塊,直接返回起始地址便可; 最后在對比新舊兩塊內(nèi)存,空間大的那塊則會被保留。
編寫過C語言程序的肯定知道通過malloc()方法動態(tài)申請內(nèi)存,其中內(nèi)存分配器使用的是glibc提供的ptmalloc2。 除了glibc,業(yè)界比較出名的內(nèi)存分配器有Google的tcmalloc和Facebook的jemalloc。二者在避免內(nèi)存碎片和性能上均比glic有比較大的優(yōu)勢,在多線程環(huán)境中效果更明顯。
Golang中也實(shí)現(xiàn)了內(nèi)存分配器,原理與tcmalloc類似,簡單的說就是維護(hù)一塊大的全局內(nèi)存,每個線程(Golang中為P)維護(hù)一塊小的私有內(nèi)存,私有內(nèi)存不足再從全局申請。另外,內(nèi)存分配與GC(垃圾回收)關(guān)系密切,所以了解GC前有必要了解內(nèi)存分配的原理。
為了方便自主管理內(nèi)存,做法便是先向系統(tǒng)申請一塊內(nèi)存,然后將內(nèi)存切割成小塊,通過一定的內(nèi)存分配算法管理內(nèi)存。 以64位系統(tǒng)為例,Golang程序啟動時會向系統(tǒng)申請的內(nèi)存如下圖所示:
預(yù)申請的內(nèi)存劃分為spans、bitmap、arena三部分。其中arena即為所謂的堆區(qū),應(yīng)用中需要的內(nèi)存從這里分配。其中spans和bitmap是為了管理arena區(qū)而存在的。
arena的大小為512G,為了方便管理把a(bǔ)rena區(qū)域劃分成一個個的page,每個page為8KB,一共有512GB/8KB個頁;
spans區(qū)域存放span的指針,每個指針對應(yīng)一個page,所以span區(qū)域的大小為(512GB/8KB)乘以指針大小8byte = 512M
bitmap區(qū)域大小也是通過arena計算出來,不過主要用于GC。
span是用于管理arena頁的關(guān)鍵數(shù)據(jù)結(jié)構(gòu),每個span中包含1個或多個連續(xù)頁,為了滿足小對象分配,span中的一頁會劃分更小的粒度,而對于大對象比如超過頁大小,則通過多頁實(shí)現(xiàn)。
根據(jù)對象大小,劃分了一系列class,每個class都代表一個固定大小的對象,以及每個span的大小。如下表所示:
上表中每列含義如下:
class: class ID,每個span結(jié)構(gòu)中都有一個class ID, 表示該span可處理的對象類型
bytes/obj:該class代表對象的字節(jié)數(shù)
bytes/span:每個span占用堆的字節(jié)數(shù),也即頁數(shù)乘以頁大小
objects: 每個span可分配的對象個數(shù),也即(bytes/spans)/(bytes/obj)waste
bytes: 每個span產(chǎn)生的內(nèi)存碎片,也即(bytes/spans)%(bytes/obj)上表可見最大的對象是32K大小,超過32K大小的由特殊的class表示,該class ID為0,每個class只包含一個對象。
span是內(nèi)存管理的基本單位,每個span用于管理特定的class對象, 跟據(jù)對象大小,span將一個或多個頁拆分成多個塊進(jìn)行管理。src/runtime/mheap.go:mspan定義了其數(shù)據(jù)結(jié)構(gòu):
以class 10為例,span和管理的內(nèi)存如下圖所示:
spanclass為10,參照class表可得出npages=1,nelems=56,elemsize為144。其中startAddr是在span初始化時就指定了某個頁的地址。allocBits指向一個位圖,每位代表一個塊是否被分配,本例中有兩個塊已經(jīng)被分配,其allocCount也為2。next和prev用于將多個span鏈接起來,這有利于管理多個span,接下來會進(jìn)行說明。
有了管理內(nèi)存的基本單位span,還要有個數(shù)據(jù)結(jié)構(gòu)來管理span,這個數(shù)據(jù)結(jié)構(gòu)叫mcentral,各線程需要內(nèi)存時從mcentral管理的span中申請內(nèi)存,為了避免多線程申請內(nèi)存時不斷的加鎖,Golang為每個線程分配了span的緩存,這個緩存即是cache。src/runtime/mcache.go:mcache定義了cache的數(shù)據(jù)結(jié)構(gòu)
alloc為mspan的指針數(shù)組,數(shù)組大小為class總數(shù)的2倍。數(shù)組中每個元素代表了一種class類型的span列表,每種class類型都有兩組span列表,第一組列表中所表示的對象中包含了指針,第二組列表中所表示的對象不含有指針,這么做是為了提高GC掃描性能,對于不包含指針的span列表,沒必要去掃描。根據(jù)對象是否包含指針,將對象分為noscan和scan兩類,其中noscan代表沒有指針,而scan則代表有指針,需要GC進(jìn)行掃描。mcache和span的對應(yīng)關(guān)系如下圖所示:
mchache在初始化時是沒有任何span的,在使用過程中會動態(tài)的從central中獲取并緩存下來,跟據(jù)使用情況,每種class的span個數(shù)也不相同。上圖所示,class 0的span數(shù)比class1的要多,說明本線程中分配的小對象要多一些。
cache作為線程的私有資源為單個線程服務(wù),而central則是全局資源,為多個線程服務(wù),當(dāng)某個線程內(nèi)存不足時會向central申請,當(dāng)某個線程釋放內(nèi)存時又會回收進(jìn)central。src/runtime/mcentral.go:mcentral定義了central數(shù)據(jù)結(jié)構(gòu):
lock: 線程間互斥鎖,防止多線程讀寫沖突
spanclass : 每個mcentral管理著一組有相同class的span列表
nonempty: 指還有內(nèi)存可用的span列表
empty: 指沒有內(nèi)存可用的span列表
nmalloc: 指累計分配的對象個數(shù)線程從central獲取span步驟如下:
將span歸還步驟如下:
從mcentral數(shù)據(jù)結(jié)構(gòu)可見,每個mcentral對象只管理特定的class規(guī)格的span。事實(shí)上每種class都會對應(yīng)一個mcentral,這個mcentral的集合存放于mheap數(shù)據(jù)結(jié)構(gòu)中。src/runtime/mheap.go:mheap定義了heap的數(shù)據(jù)結(jié)構(gòu):
lock: 互斥鎖
spans: 指向spans區(qū)域,用于映射span和page的關(guān)系
bitmap:bitmap的起始地址
arena_start: arena區(qū)域首地址
arena_used: 當(dāng)前arena已使用區(qū)域的最大地址
central: 每種class對應(yīng)的兩個mcentral
從數(shù)據(jù)結(jié)構(gòu)可見,mheap管理著全部的內(nèi)存,事實(shí)上Golang就是通過一個mheap類型的全局變量進(jìn)行內(nèi)存管理的。mheap內(nèi)存管理示意圖如下:
系統(tǒng)預(yù)分配的內(nèi)存分為spans、bitmap、arean三個區(qū)域,通過mheap管理起來。接下來看內(nèi)存分配過程。
針對待分配對象的大小不同有不同的分配邏輯:
(0, 16B) 且不包含指針的對象: Tiny分配
(0, 16B) 包含指針的對象:正常分配
[16B, 32KB] : 正常分配
(32KB, -) : 大對象分配其中Tiny分配和大對象分配都屬于內(nèi)存管理的優(yōu)化范疇,這里暫時僅關(guān)注一般的分配方法。
以申請size為n的內(nèi)存為例,分配步驟如下:
Golang內(nèi)存分配是個相當(dāng)復(fù)雜的過程,其中還摻雜了GC的處理,這里僅僅對其關(guān)鍵數(shù)據(jù)結(jié)構(gòu)進(jìn)行了說明,了解其原理而又不至于深陷實(shí)現(xiàn)細(xì)節(jié)。1、Golang程序啟動時申請一大塊內(nèi)存并劃分成spans、bitmap、arena區(qū)域
2、arena區(qū)域按頁劃分成一個個小塊。
3、span管理一個或多個頁。
4、mcentral管理多個span供線程申請使用
5、mcache作為線程私有資源,資源來源于mcentral。
Go 語言較之 C 語言一個很大的優(yōu)勢就是自帶 GC 功能,可 GC 并不是沒有代價的。寫 C 語言的時候,在一個函數(shù)內(nèi)聲明的變量,在函數(shù)退出后會自動釋放掉,因?yàn)檫@些變量分配在棧上。如果你期望變量的數(shù)據(jù)可以在函數(shù)退出后仍然能被訪問,就需要調(diào)用 malloc 方法在堆上申請內(nèi)存,如果程序不再需要這塊內(nèi)存了,再調(diào)用 free 方法釋放掉。Go 語言不需要你主動調(diào)用 malloc 來分配堆空間,編譯器會自動分析,找出需要 malloc 的變量,使用堆內(nèi)存。編譯器的這個分析過程就叫做逃逸分析。
所以你在一個函數(shù)中通過 dict := make(map[string]int) 創(chuàng)建一個 map 變量,其背后的數(shù)據(jù)是放在棧空間上還是堆空間上,是不一定的。這要看編譯器分析的結(jié)果。
可逃逸分析并不是百分百準(zhǔn)確的,它有缺陷。有的時候你會發(fā)現(xiàn)有些變量其實(shí)在??臻g上分配完全沒問題的,但編譯后程序還是把這些數(shù)據(jù)放在了堆上。如果你了解 Go 語言編譯器逃逸分析的機(jī)制,在寫代碼的時候就可以有意識地繞開這些缺陷,使你的程序更高效。
Go 語言雖然在內(nèi)存管理方面降低了編程門檻,即使你不了解堆棧也能正常開發(fā),但如果你要在性能上較真的話,還是要掌握這些基礎(chǔ)知識。
這里不對堆內(nèi)存和棧內(nèi)存的區(qū)別做太多闡述。簡單來說就是, 棧分配廉價,堆分配昂貴。 棧空間會隨著一個函數(shù)的結(jié)束自動釋放,堆空間需要時間 GC 模塊不斷地跟蹤掃描回收。如果對這兩個概念有些迷糊,建議閱讀下面 2 個文章:
這里舉一個小例子,來對比下堆棧的差別:
stack 函數(shù)中的變量 i 在函數(shù)退出會自動釋放;而 heap 函數(shù)返回的是對變量 i 的引用,也就是說 heap() 退出后,表示變量 i 還要能被訪問,它會自動被分配到堆空間上。
他們編譯出來的代碼如下:
邏輯的復(fù)雜度不言而喻,從上面的匯編中可看到, heap() 函數(shù)調(diào)用了 runtime.newobject() 方法,它會調(diào)用 mallocgc 方法從 mcache 上申請內(nèi)存,申請的內(nèi)部邏輯前面文章已經(jīng)講述過。堆內(nèi)存分配不僅分配上邏輯比??臻g分配復(fù)雜,它最致命的是會帶來很大的管理成本,Go 語言要消耗很多的計算資源對其進(jìn)行標(biāo)記回收(也就是 GC 成本)。
Go 編輯器會自動幫我們找出需要進(jìn)行動態(tài)分配的變量,它是在編譯時追蹤一個變量的生命周期,如果能確認(rèn)一個數(shù)據(jù)只在函數(shù)空間內(nèi)訪問,不會被外部使用,則使用??臻g,否則就要使用堆空間。
我們在 go build 編譯代碼時,可使用 -gcflags '-m' 參數(shù)來查看逃逸分析日志。
以上面的兩個函數(shù)為例,編譯的日志輸出是:
日志中的 i escapes to heap 表示該變量數(shù)據(jù)逃逸到了堆上。
需要使用堆空間,所以逃逸,這沒什么可爭議的。但編譯器有時會將 不需要 使用堆空間的變量,也逃逸掉。這里是容易出現(xiàn)性能問題的大坑。網(wǎng)上有很多相關(guān)文章,列舉了一些導(dǎo)致逃逸情況,其實(shí)總結(jié)起來就一句話:
多級間接賦值容易導(dǎo)致逃逸 。
這里的多級間接指的是,對某個引用類對象中的引用類成員進(jìn)行賦值。Go 語言中的引用類數(shù)據(jù)類型有 func , interface , slice , map , chan , *Type(指針) 。
記住公式 Data.Field = Value ,如果 Data , Field 都是引用類的數(shù)據(jù)類型,則會導(dǎo)致 Value 逃逸。這里的等號 = 不單單只賦值,也表示參數(shù)傳遞。
根據(jù)公式,我們假設(shè)一個變量 data 是以下幾種類型,相應(yīng)的可以得出結(jié)論:
下面給出一些實(shí)際的例子:
如果變量值是一個函數(shù),函數(shù)的參數(shù)又是引用類型,則傳遞給它的參數(shù)都會逃逸。
上例中 te 的類型是 func(*int) ,屬于引用類型,參數(shù) *int 也是引用類型,則調(diào)用 te(j) 形成了為 te 的參數(shù)(成員) *int 賦值的現(xiàn)象,即 te.i = j 會導(dǎo)致逃逸。代碼中其他幾種調(diào)用都沒有形成 多級間接賦值 情況。
同理,如果函數(shù)的參數(shù)類型是 slice , map 或 interface{} 都會導(dǎo)致參數(shù)逃逸。
匿名函數(shù)的調(diào)用也是一樣的,它本質(zhì)上也是一個函數(shù)變量。有興趣的可以自己測試一下。
只要使用了 Interface 類型(不是 interafce{} ),那么賦值給它的變量一定會逃逸。因?yàn)? interfaceVariable.Method() 先是間接的定位到它的實(shí)際值,再調(diào)用實(shí)際值的同名方法,執(zhí)行時實(shí)際值作為參數(shù)傳遞給方法。相當(dāng)于 interfaceVariable.Method.this = realValue
向 channel 中發(fā)送數(shù)據(jù),本質(zhì)上就是為 channel 內(nèi)部的成員賦值,就像給一個 slice 中的某一項(xiàng)賦值一樣。所以 chan *Type , chan map[Type]Type , chan []Type , chan interface{} 類型都會導(dǎo)致發(fā)送到 channel 中的數(shù)據(jù)逃逸。
這本來也是情理之中的,發(fā)送給 channel 的數(shù)據(jù)是要與其他函數(shù)分享的,為了保證發(fā)送過去的指針依然可用,只能使用堆分配。
可變參數(shù)如 func(arg ...string) 實(shí)際與 func(arg []string) 是一樣的,會增加一層訪問路徑。這也是 fmt.Sprintf 總是會使參數(shù)逃逸的原因。
例子非常多,這里不能一一列舉,我們只需要記住分析方法就好,即,2 級或更多級的訪問賦值會 容易 導(dǎo)致數(shù)據(jù)逃逸。這里加上 容易 二字是因?yàn)殡S著語言的發(fā)展,相信這些問題會被慢慢解決,但現(xiàn)階段,這個可以作為我們分析逃逸現(xiàn)象的依據(jù)。
下面代碼中包含 2 種很常規(guī)的寫法,但他們卻有著很大的性能差距,建議自己想下為什么。
Benchmark 和 pprof 給出的結(jié)果:
熟悉堆棧概念可以讓我們更容易看透 Go 程序的性能問題,并進(jìn)行優(yōu)化。
多級間接賦值會導(dǎo)致 Go 編譯器出現(xiàn)不必要的逃逸,在一些情況下可能我們只需要修改一下數(shù)據(jù)結(jié)構(gòu)就會使性能有大幅提升。這也是很多人不推薦在 Go 中使用指針的原因,因?yàn)樗鼤黾右患壴L問路徑,而 map , slice , interface{} 等類型是不可避免要用到的,為了減少不必要的逃逸,只能拿指針開刀了。
大多數(shù)情況下,性能優(yōu)化都會為程序帶來一定的復(fù)雜度。建議實(shí)際項(xiàng)目中還是怎么方便怎么寫,功能完成后通過性能分析找到瓶頸所在,再對局部進(jìn)行優(yōu)化。
Golang的內(nèi)存分配是由golang runtime完成,其內(nèi)存分配方案借鑒自tcmalloc。
主要特點(diǎn)就是
本文中的element指一定大小的內(nèi)存塊是內(nèi)存分配的概念,并為出現(xiàn)在golang runtime源碼中
本文講述x8664架構(gòu)下的內(nèi)存分配
Golang 內(nèi)存分配有下面幾個主要結(jié)構(gòu)
Tiny對象是指內(nèi)存尺寸小于16B的對象,這類對象的分配使用mcache的tiny區(qū)域進(jìn)行分配。當(dāng)tiny區(qū)域空間耗盡時刻,它會從mcache.alloc[tinySpanClass]指向的mspan中找到空閑的區(qū)域。當(dāng)然如果mcache中span空間也耗盡,它會觸發(fā)從mcentral補(bǔ)充mspan到mcache的流程。
小對象是指對象尺寸在(16B,32KB]之間的對象,這類對象的分配原則是:
1、首先根據(jù)對象尺寸將對象歸為某個SpanClass上,這個SpanClass上所有的element都是一個統(tǒng)一的尺寸。
2、從mcache.alloc[SpanClass]找到mspan,看看有無空閑的element,如果有分配成功。如果沒有繼續(xù)。
3、從mcentral.allocSpan[SpanClass]的nonempty和emtpy中找到合適的mspan,返回給mcache。如果沒有找到就進(jìn)入mcentral.grow()—mheap.alloc()分配新的mspan給mcentral。
大對象指尺寸超出32KB的對象,此時直接從mheap中分配,不會走mcache和mcentral,直接走mheap.alloc()分配一個SpanClass==0 的mspan表示這部分分配空間。
對于程序分配常用的tiny和小對象的分配,可以通過無鎖的mcache提升分配性能。mcache不足時刻會拿mcentral的鎖,然后從mcentral中充mspan 給mcache。大對象直接從mheap 中分配。
在x8664環(huán)境上,golang管理的有效的程序虛擬地址空間實(shí)質(zhì)上只有48位。在mheap中有一個pages pageAlloc成員用于管理golang堆內(nèi)存的地址空間。golang從os中申請地址空間給自己管理,地址空間申請下來以后,golang會將地址空間根據(jù)實(shí)際使用情況標(biāo)記為free或者alloc。如果地址空間被分配給mspan或大對象后,那么被標(biāo)記為alloc,反之就是free。
Golang認(rèn)為地址空間有以下4種狀態(tài):
Golang同時定義了下面幾個地址空間操作函數(shù):
在mheap結(jié)構(gòu)中,有一個名為pages成員,它用于golang 堆使用虛擬地址空間進(jìn)行管理。其類型為pageAlloc
pageAlloc 結(jié)構(gòu)表示的golang 堆的所有地址空間。其中最重要的成員有兩個:
在golang的gc流程中會將未使用的對象標(biāo)記為未使用,但是這些對象所使用的地址空間并未交還給os。地址空間的申請和釋放都是以golang的page為單位(實(shí)際以chunk為單位)進(jìn)行的。sweep的最終結(jié)果只是將某個地址空間標(biāo)記可被分配,并未真正釋放地址空間給os,真正釋放是后文的scavenge過程。
在gc mark結(jié)束以后會使用sweep()去嘗試free一個span;在mheap.alloc 申請mspan時刻,也使用sweep去清掃一下。
清掃mspan主要涉及到下面函數(shù)
如上節(jié)所述,sweep只是將page標(biāo)記為可分配,但是并未把地址空間釋放;真正的地址空間釋放是scavenge過程。
真正的scavenge是由pageAlloc.scavenge()—sysUnused()將掃描到待釋放的chunk所表示的地址空間釋放掉(使用sysUnused()將地址空間還給os)
golang的scavenge過程有兩種: