一個典型的計算機系統(tǒng)如下圖所示:
直接讓應(yīng)用使用硬件可能會導(dǎo)致濫用,并且應(yīng)用需要處理復(fù)雜的硬件細(xì)節(jié),容易出錯。所以我們引入了操作系統(tǒng)來管理硬件資源,如下圖所示:
操作系統(tǒng)為了讓應(yīng)用能更好更簡單地使用硬件資源,對硬件資源做了進(jìn)一步抽象,如下圖所示:
虛擬存儲器把進(jìn)程訪問的存儲設(shè)備抽象成一個巨大的字節(jié)數(shù)組,并對每個字節(jié)做唯一的地址編碼。它提供了三個重要的功能:
虛擬存儲器在幕后自動地工作,無需應(yīng)用程序員干涉,既然如此,為什么我們還需要去理解它呢?我想理解它可以帶來以下幾點好處:
進(jìn)程看到是虛擬地址,但是信息是存在物理內(nèi)存上的,那么系統(tǒng)是如何用虛擬地址來獲取對應(yīng)物理內(nèi)存的字節(jié)信息的呢?簡單來說,可以分為三步:
具體過程如下圖:
MMU是如何把虛擬地址翻譯為物理地址的呢?
OS會把物理內(nèi)存、虛擬內(nèi)存分為同樣大小的塊(linux默認(rèn)為4k),并稱之為頁。同時為每個進(jìn)程分配頁表,頁表是一個頁表條目(PTE)數(shù)組,其中每個PTE記錄了虛擬頁與物理頁的映射關(guān)系。
一個虛擬地址可以分為兩部分:虛擬頁號×××和虛擬頁偏移量VPO。由于虛擬頁與物理頁是同樣大小,因此虛擬頁偏移量就是物理頁偏移量;虛擬頁號是頁表中PTE的索引,對應(yīng)的PTE中存儲著物理頁號和有效位(表示頁面是否有對應(yīng)物理頁),這樣MMU通過查詢PTE就可以找到虛擬頁對應(yīng)的物理頁,再加上虛擬頁偏移量就可以得到物理地址,如下圖:
如果每個進(jìn)程只有一個頁表(假設(shè)物理頁大小為4k),那么對于32位系統(tǒng),需要占用4M內(nèi)存(每個PTE是4字節(jié));對于64位系統(tǒng)(實際只用了48位用來尋址),則需要256G內(nèi)存,實在是太大了。為了解決這個問題,我們用多級頁表,如下圖:
在多級頁表中,所有級別的頁表大小是一樣的,我們以linux的4級頁表為例,則最少要4個頁表,假設(shè)一個頁表4k,總共16k;隨著進(jìn)程消耗內(nèi)存的增長,第k級頁表數(shù)目隨之線性增長,由于其他級別的頁表數(shù)目遠(yuǎn)遠(yuǎn)小于k級頁表,因此總頁表消耗內(nèi)存頁頁接近于線性增長。由于進(jìn)程實際占用內(nèi)存大小遠(yuǎn)小于256T,因此頁表消耗內(nèi)存遠(yuǎn)小于一級頁表。
從上述小結(jié),我們知道每個進(jìn)程都有一個獨立的虛擬存儲器空間,那么其布局是否有規(guī)律呢?我們以linux下的64位進(jìn)程舉例,見下圖:
linux將用戶虛擬存儲器組織成一些段的集合。一個段就是已分配的虛擬存儲器的連續(xù)片。只有存在于段的虛擬存儲器頁是可以被進(jìn)程訪問的。
#include
int main()
{
char *p = (char*)malloc(1);
while(1);
return 0;
}
編譯上述代碼并運行,通過top獲取此進(jìn)程PID后,我們可以打開/proc/PID/maps文件查看進(jìn)程的內(nèi)存布局:
00400000-00401000 r-xp 00000000 fd:01 723899 /home/wld/test/a.out
00600000-00601000 r--p 00000000 fd:01 723899 /home/wld/test/a.out
00601000-00602000 rw-p 00001000 fd:01 723899 /home/wld/test/a.out
0148c000-014ad000 rw-p 00000000 00:00 0 [heap]
7fb917267000-7fb917425000 r-xp 00000000 fd:01 1731435 /lib/x86_64-linux-gnu/libc-2.19.so
7fb917425000-7fb917625000 ---p 001be000 fd:01 1731435 /lib/x86_64-linux-gnu/libc-2.19.so
7fb917625000-7fb917629000 r--p 001be000 fd:01 1731435 /lib/x86_64-linux-gnu/libc-2.19.so
7fb917629000-7fb91762b000 rw-p 001c2000 fd:01 1731435 /lib/x86_64-linux-gnu/libc-2.19.so
7fb91762b000-7fb917630000 rw-p 00000000 00:00 0
7fb917630000-7fb917653000 r-xp 00000000 fd:01 1731443 /lib/x86_64-linux-gnu/ld-2.19.so
7fb917835000-7fb917838000 rw-p 00000000 00:00 0
7fb917850000-7fb917852000 rw-p 00000000 00:00 0
7fb917852000-7fb917853000 r--p 00022000 fd:01 1731443 /lib/x86_64-linux-gnu/ld-2.19.so
7fb917853000-7fb917854000 rw-p 00023000 fd:01 1731443 /lib/x86_64-linux-gnu/ld-2.19.so
7fb917854000-7fb917855000 rw-p 00000000 00:00 0
7ffe8b3e1000-7ffe8b402000 rw-p 00000000 00:00 0 [stack]
7ffe8b449000-7ffe8b44b000 r--p 00000000 00:00 0 [vvar]
7ffe8b44b000-7ffe8b44d000 r-xp 00000000 00:00 0 [vdso]
ffffffffff600000-ffffffffff601000 r-xp 00000000 00:00 0 [vsyscall]
上面每一行表示一個段,每個段的有6列,各列含義如下:
假如MMU在嘗試翻譯某個虛擬地址A時,沒有對應(yīng)的物理地址,則會觸發(fā)了一個缺頁異常。這個異常會導(dǎo)致控制轉(zhuǎn)移到內(nèi)核的缺頁異常處理程序,處理程序隨后執(zhí)行如下步驟:
通過執(zhí)行以下兩種的任意一種命令可查看某個進(jìn)程的缺頁中斷信息
ps -o majflt,minflt -C program_name
ps -o majflt,minflt -p pid
majflt和minor這兩個數(shù)值表示一個進(jìn)程自啟動以來所發(fā)生的缺頁中斷的次數(shù)。
其中majflt與minflt的不同是,majflt表示需要讀寫磁盤,可能是內(nèi)存對應(yīng)頁面在磁盤中需要load到物理內(nèi)存中,也可能是此時物理內(nèi)存不足,需要淘汰部分物理頁面至磁盤中。
linux通過將虛擬內(nèi)地段與一個磁盤上的文件關(guān)聯(lián)起來,以初始化這個虛擬存儲器段的內(nèi)容,這個過程稱之為內(nèi)存映射(memory mapping)。內(nèi)存映射有兩種:
###6.1 共享對象
內(nèi)存映射可以讓我們簡單高效地把程序和數(shù)據(jù)加載到虛擬存儲器空間中。在實際中,許多進(jìn)程會映射同一個文件到內(nèi)存中,比如glic動態(tài)庫,如果物理內(nèi)存中存在多份,那就是極端的浪費。我們可以通過共享對象技術(shù)來消除浪費。
對于私有對象,我們可以用寫時拷貝技術(shù)來共享物理內(nèi)存頁。
類unix操作系統(tǒng)下的動態(tài)內(nèi)存分配器有很多,比如ptmalloc(linux默認(rèn)),tcmalloc(google出品),jemalloc(FreeBSD、NetBSD和firefox默認(rèn))。這三種分配器的詳細(xì)介紹可以參考http://www.360doc.com/content/13/0915/09/8363527_314549128.shtml。
本文以ptmalloc為例介紹動態(tài)內(nèi)存分配。在linux下os提供兩種動態(tài)內(nèi)存分配brk和mmap。ptmalloc對于申請內(nèi)存小于128k的采用brk方式,大于128k的采用mmap方式。
對于大內(nèi)存,malloc會直接調(diào)用系統(tǒng)函數(shù)mmap分配內(nèi)存,以物理頁為最小單位做對齊。free會直接調(diào)用系統(tǒng)函數(shù)munmap釋放內(nèi)存。
進(jìn)程有一個指針指向堆的頂部的地址,通過系統(tǒng)函數(shù)brk可以改變這個指針的位置,從而改變堆的大?。ǘ芽梢詳U大也可以收縮)。當(dāng)已有的堆不能分配內(nèi)存時,brk會擴大堆來分配動態(tài)內(nèi)存。當(dāng)頂部的內(nèi)存被釋放,切釋放內(nèi)存大于128k,brk就會收縮堆,如下圖:
從上面的堆分配釋放方式,我們知道實際上很多小內(nèi)存申請后是不會馬上釋放給OS,為了將這些內(nèi)存重復(fù)利用,內(nèi)存分配器需要由一個算法,下面介紹下ptmalloc是如何處理的。
ptmalloc通過chunk的數(shù)據(jù)結(jié)構(gòu)來組織每個內(nèi)存單元。當(dāng)我們使用malloc分配得到一塊內(nèi)存的時候,這塊內(nèi)存就會通過chunk的形式被記錄到glibc上并且管理起來。你可以把它想象成自己寫內(nèi)存池的時候的一個內(nèi)存數(shù)據(jù)結(jié)構(gòu)。chunk的結(jié)構(gòu)可以分為使用中的chunk和空閑的chunk。使用中的chunk和空閑的chunk數(shù)據(jù)結(jié)構(gòu)基本項同,但是會有一些設(shè)計上的小技巧,巧妙的節(jié)省了內(nèi)存。
使用中的chunk:
空閑的chunk結(jié)構(gòu)會復(fù)用User data來保存雙向鏈表指針。
ptmalloc一共維護(hù)了128bin。每個bins都維護(hù)了大小相近的雙向鏈表的chunk。
通過上圖這個bins的列表就能看出,當(dāng)用戶調(diào)用malloc的時候,能很快找到用戶需要分配的內(nèi)存大小是否在維護(hù)的bin上,如果在某一個bin上,就可以通過雙向鏈表去查找合適的chunk內(nèi)存塊給用戶使用。
造成堆利用率低的主要原因是碎片,當(dāng)雖然有未使用的內(nèi)存但不能用來滿足分配請求時,就會發(fā)生這種現(xiàn)象。有兩種形式的碎片:
####提問1:請問下面代碼運行后,OS會立即分配1G物理內(nèi)存嗎?
#include
int main()
{
char *p = (char*)malloc(1024*1024*1024);
while(1);
return 0;
}
###提問2:請問下面代碼運行后,OS會分配多少物理內(nèi)存?
#include
#include
int main()
{
const size_t MAX_LEN = 1024*1024*1024;
char *p = (char*)malloc(MAX_LEN);
memset(p, 0, MAX_LEN/2);
while(1);
return 0;
}
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。