feof(),用這個函數判斷是否讀到文件尾了。fread(buf,size,count,fp);//buf輸入數據起始地址,size每個數據塊的大小,count每次寫入的數據塊個數,fp文件指針寫好后是:while(!feof(fp)){fread(temp[i],sizeof(structuse),1,fp);//這個讀出來放數組里面i++;}問題是你讀的是txt文件,完全可以用fscanf()函數么。
成都創(chuàng)新互聯(lián)公司是一家專業(yè)提供新華企業(yè)網站建設,專注與成都網站建設、網站建設、H5開發(fā)、小程序制作等業(yè)務。10年已為新華眾多企業(yè)、政府機構等服務。創(chuàng)新互聯(lián)專業(yè)的建站公司優(yōu)惠進行中。
此篇文章流傳甚廣, 其實里面沒啥干貨, 而且里面很多觀點是有問題的. 這個文章在 golang-china 很早就討論過了.
最近因為 Rust 1.0 和 1.1 的發(fā)布, 導致這個文章又出來毒害讀者.
所以寫了這篇反駁文章, 指出其中的問題.
有好幾次,當我想起來的時候,總是會問自己:我為什么要放棄Go語言?這個決定是正確的嗎?是明智和理性的嗎?其實我一直在認真思考這個問題。
開門見山地說,我當初放棄Go語言(golang),就是因為兩個“不爽”:第一,對Go語言本身不爽;第二,對Go語言社區(qū)里的某些人不爽。毫無疑問,這是非常主觀的結論。但是我有足夠詳實的客觀的論據,用以支撐這個看似主觀的結論。
文末附有本文更新日志。
確實是非常主觀的結論, 因為里面有不少有問題的觀點(用來忽悠Go小白還行).
第0節(jié):我的Go語言經歷
先說說我的經歷吧,以避免被無緣無故地當作Go語言的低級黑。
2009年底,Go語言(golang)第一個公開版本發(fā)布,籠罩著“Google公司制造”的光環(huán),吸引了許多慕名而來的嘗鮮者,我(Liigo)也身居其中,籠統(tǒng)的看了一些Go語言的資料,學習了基礎的教程,因對其語法中的分號和花括號不滿,很快就遺忘掉了,沒拿它當一回事。
在2009年Go剛發(fā)布時, 確實是因為“Google公司制造”的光環(huán)而吸引了(包括文章作者和諸多IT記者)很多低級的嘗鮮者.
還好, 經過5年的發(fā)展, 這些純粹因為光環(huán)來的投機者所剩已經不多了(Google趨勢).
目前, 真正的Go用戶早就將Go用于實際的生產了.
說到 其語法中的分號和花括號不滿, 我想說這只是你的 個人主觀感受, 還有很多人對Go的分號和花括號很滿意,
包括水果公司的的 Swift 的語言設計者也很滿意這種風格(Swift中的分號和花括號和Go基本相同).
如果只談 個人主觀感受, 我也可以說 Rust 的 fn 縮寫也很蛋疼!
兩年之后,2011年底,Go語言發(fā)布1.0的計劃被提上日程,相關的報道又多起來,我再次關注它,重新評估之后決定深入參與Go語言。我訂閱了其users、nuts、dev、commits等官方郵件組,堅持每天閱讀其中的電子郵件,以及開發(fā)者提交的每一次源代碼更新,給Go提交了許多改進意見,甚至包括修改Go語言編譯器源代碼直接參與開發(fā)任務。如此持續(xù)了數月時間。
這個到是事實, 在 golang-china 有不少吵架的帖子, 感興趣的可以去挖下, 我就不展開說了.
到2012年初,Go 1.0發(fā)布,語言和標準庫都已經基本定型,不可能再有大幅改進,我對Go語言未能在1.0定型之前更上一個臺階、實現自我突破,甚至帶著諸多明顯缺陷走向1.0,感到非常失望,因而逐漸疏遠了它(所以Go 1.0之后的事情我很少關心)。后來看到即將發(fā)布的Go 1.1的Release Note,發(fā)現語言層面沒有太大改變,只是在庫和工具層面有所修補和改進,感到它尚在幼年就失去成長的動力,越發(fā)失望。外加Go語言社區(qū)里的某些人,其中也包括Google公司負責開發(fā)Go語言的某些人,其態(tài)度、言行,讓我極度厭惡,促使我決絕地離棄Go語言。
真的不清楚樓主說的可以在 Go1.0 之前短時間內能實現的 重大改進和諸多明顯缺陷 是什么.
如果是樓主說前面的 其語法中的分號和花括號不滿 之類的重大改進, 我只能說這只是你的 個人主觀感受 而已,
你的很多想法只能說服你自己, 沒辦法說服其他絕大部分人(不要以為像C++或Rust那樣什么特性都有就NB了, 各種NB特性加到一起只能是 要你命3000, 而絕對不會是什么 銀彈).
Go 1.1的Release Note,發(fā)現語言層面沒有太大改變. 語言層沒有改變是是因為 Go1 作出的向后兼容的承諾. 對于工業(yè)級的語言來說, Go1 這個只能是優(yōu)點. 如果連語言層在每個版本都會出現諸多大幅改進, 那誰還敢用Go語言來做生產開發(fā)呢(我承認Rust的改動很大膽, 但也說明了Rust還處于比較幼稚和任性的階段)?
說 Go語言社區(qū)里的某些人固執(zhí) 的觀點我是同意的. 但是這些 固執(zhí) 的人是可以講道理的, 但是他們對很多東西的要求很高(特別是關于Go的設計哲學部分).
只要你給的建議有依據(語言的設計哲學是另外一回事情), 他們絕對不會盲目的拒絕(只是討論的周期會比較長).
關于樓主提交的給Go文件添加BOM的文章, 需要補充說明下.
在Go1.0發(fā)布的時候, Go語言的源文件(.go)明確要求必須是UTF8編碼的, 而且是無BOM的UTF8編碼的.
注意: 這個 無BOM的UTF8編碼 的限制僅僅是 針對 Go語言的源文件(.go).
這個限制并不是說不允許用戶處理帶BOM的UTF8的txt文件!
我覺得對于寫Go程序來說, 這個限制是沒有任何問題的, 到目前為止, 我還從來沒有使用過帶BOM的.go文件.
不僅是因為帶BOM的.go文件沒有太多的意義, 而且有很多的缺陷.
BOM的原意是用來表示編碼是大端還是小端的, 主要用于UTF16和UTF32. 對于 UTF8 來說, BOM 沒有任何存在的意義(正是Go的2個作者發(fā)明了UTF8, 徹底解決了全球的編碼問題).
但是, 在現實中, 因為MS的txt記事本, 對于中文環(huán)境會將txt(甚至是C/C++源文件)當作GBK編碼(GBK是個爛編碼),
為了區(qū)別到底是GBK還是UTF8, MS的記事本在前面加了BOM這個垃圾(被GBK占了茅坑), 這里的bom已經不是表示字節(jié)序本意了. 不知道有沒有人用ms的記事本寫網頁, 然后生成一個帶bom的utf8網頁肯定很有意思.
這是MS的記事本的BUG: 它不支持生成無BOM的UTF8編碼的文本文件!
這些是現實存在的帶BOM的UTF8編碼的文本文件, 但是它們肯定都不是Go語言源文件!
所以說, Go語言的源文件即使強制限制了無BOM的UTF8編碼要求, 也是沒有任何問題的(而且我還希望有這個限制).
雖然后來Go源文件接受帶BOM的UTF8了, 但是運行 go fmt 之后, 還是會刪除掉BOM的(因為BOM就是然并卵). 也就是說 帶 BOM 的 Go 源文件是不符合 Go語言的編碼風格的, go fmt 會強制刪除 BOM 頭.
前面說了BOM是MS帶來的垃圾, 但是BOM的UTF8除了然并卵之外還有很多問題, 因為BOM在string的開頭嵌入了垃圾,
導致正則表達式, string的鏈接運算等操作都被會被BOM這個垃圾所污染. 對于.go語言, 即使代碼完全一樣, 有BOM和無BOM會導致文件的MD5之類的校驗碼不同.
所以, 我覺得Go用戶不用糾結BOM這個無關緊要的東西.
在上一個10年,我(Liigo)在我所屬的公司里,深度參與了兩個編程語言項目的開發(fā)。我想,對于如何判斷某個編程語言的優(yōu)劣,或者說至少對于如何判斷某個編程語言是否適合于我自己,我應該還是有一點發(fā)言權的。
第1節(jié):我為什么對Go語言不爽?
Go語言有很多讓我不爽之處,這里列出我現在還能記起的其中一部分,排名基本上不分先后。讀者們耐心地看完之后,還能淡定地說一句“我不在乎”嗎?
1.1 不允許左花括號另起一行
關于對花括號的擺放,在C語言、C++、Java、C#等社區(qū)中,十余年來存在持續(xù)爭議,從未形成一致意見。在我看來,這本來就是主觀傾向很重的抉擇,不違反原則不涉及是非的情況下,不應該搞一刀切,讓程序員或團隊自己選擇就足夠了。編程語言本身強行限制,把自己的喜好強加給別人,得不償失。無論傾向于其中任意一種,必然得罪與其對立的一群人。雖然我現在已經習慣了把左花括號放在行尾,但一想到被禁止其他選擇,就感到十分不爽。Go語言這這個問題上,沒有做到“團結一切可以團結的力量”不說,還有意給自己樹敵,太失敗了。
我覺得Go最偉大的發(fā)明是 go fmt, 從此Go用戶不會再有花括弧的位置這種無聊爭論了(當然也少了不少灌水和上tiobe排名的機會).
是這優(yōu)點, Swift 語言也使用和 Go 類似的風格(當然樓主也可能鄙視swift的作者).
1.2 編譯器莫名其妙地給行尾加上分號
對Go語言本身而言,行尾的分號是可以省略的。但是在其編譯器(gc)的實現中,為了方便編譯器開發(fā)者,卻在詞法分析階段強行添加了行尾的分號,反過來又影響到語言規(guī)范,對“怎樣添加分號”做出特殊規(guī)定。這種變態(tài)做法前無古人。在左花括號被意外放到下一行行首的情況下,它自動在上一行行尾添加的分號,會導致莫名其妙的編譯錯誤(Go 1.0之前),連它自己都解釋不明白。如果實在處理不好分號,干脆不要省略分號得了;或者,Scala和JavaScript的編譯器是開源的,跟它們學學怎么處理省略行尾分號可以嗎?
又是樓主的 個人主觀感受, 不過我很喜歡這個特性. Swift 語言也是類似.
1.3 極度強調編譯速度,不惜放棄本應提供的功能
程序員是人不是神,編碼過程中免不了因為大意或疏忽犯一些錯。其中有一些,是大家集體性的很容易就中招的錯誤(Go語言里的例子我暫時想不起來,C++里的例子有“基類析構函數不是虛函數”)。這時候編譯器應該站出來,多做一些檢查、約束、核對性工作,盡量阻止常規(guī)錯誤的發(fā)生,盡量不讓有潛在錯誤的代碼編譯通過,必要時給出一些警告或提示,讓程序員留意。編譯器不就是機器么,不就是應該多做臟活累活雜活、減少人的心智負擔么?編譯器多做一項檢查,可能會避免數十萬程序員今后多年內無數次犯同樣的錯誤,節(jié)省的時間不計其數,這是功德無量的好事。但是Go編譯器的作者們可不這么想,他們不愿意自己多花幾個小時給編譯器增加新功能,覺得那是虧本,反而減慢了編譯速度。他們以影響編譯速度為由,拒絕了很多對編譯器改進的要求。典型的因噎廢食。強調編譯速度固然值得贊賞,但如果因此放棄應有的功能,我不贊成。
編譯速度是很重要的, 如果編譯速度夠慢, 語言再好也不會有人使用的.
比如C/C++的增量編譯/預編譯頭文件/并發(fā)編譯都是為了提高編譯速度.
Rust1.1 也號稱 比 1.0 的編譯時間減少了32% (注意: 不是運行速度).
當然, Go剛面世的時候, 編譯速度是其中的一個設計目標.
不過我想樓主, 可能想說的是因為編譯器自己添加分號而導致的編譯錯誤的問題.
我覺得Go中 { 不能另起一行是語言特性, 如果修復這個就是引入了新的錯誤.
其他的我真想不起來還有哪些 調編譯速度,不惜放棄本應提供的功能 (不要提泛型, 那是因為還沒有好的設計).
1.4 錯誤處理機制太原始
在Go語言中處理錯誤的基本模式是:函數通常返回多個值,其中最后一個值是error類型,用于表示錯誤類型極其描述;調用者每次調用完一個函數,都需要檢查這個error并進行相應的錯誤處理:if err != nil { /*這種代碼寫多了不想吐么*/ }。此模式跟C語言那種很原始的錯誤處理相比如出一轍,并無實質性改進。實際應用中很容易形成多層嵌套的if else語句,可以想一想這個編碼場景:先判斷文件是否存在,如果存在則打開文件,如果打開成功則讀取文件,如果讀取成功再寫入一段數據,最后關閉文件,別忘了還要處理每一步驟中出現錯誤的情況,這代碼寫出來得有多變態(tài)、多丑陋?實踐中普遍的做法是,判斷操作出錯后提前return,以避免多層花括號嵌套,但這么做的后果是,許多錯誤處理代碼被放在前面突出的位置,常規(guī)的處理邏輯反而被掩埋到后面去了,代碼可讀性極差。而且,error對象的標準接口只能返回一個錯誤文本,有時候調用者為了區(qū)分不同的錯誤類型,甚至需要解析該文本。除此之外,你只能手工強制轉換error類型到特定子類型(靜態(tài)類型的優(yōu)勢沒了)。至于panic - recover機制,致命的缺陷是不能跨越庫的邊界使用,注定是一個半成品,最多只能在自己的pkg里面玩一玩。Java的異常處理雖然也有自身的問題(比如Checked Exceptions),但總體上還是比Go的錯誤處理高明很多。
話說, 軟件開發(fā)都發(fā)展了半個世紀, 還是無實質性改進. 不要以為弄一個異常的語法糖就是革命了.
我只能說錯誤和異常是2個不同的東西, 將所有錯誤當作異常那是SB行為.
正因為有異常這個所謂的銀彈, 導致很多等著別人幫忙擦屁股的行為(注意 shit 函數拋出的絕對不會是一種類型的 shit, 而被其間接調用的各種 xxx_shit 也可能拋出各種類型的異常, 這就導致 catch 失控了):
int main() {
try {
shit();
} catch( /* 到底有幾千種 shit ? */) {
...
}
}
Go的建議是 panic - recover 不跨越邊界, 也就是要求正常的錯誤要由pkg的處理掉.
這是負責任的行為.
再說Go是面向并發(fā)的編程語言, 在海量的 goroutine 中使用 try/catch 是不是有一種不倫不類的感覺呢?
1.5 垃圾回收器(GC)不完善、有重大缺陷
在Go 1.0前夕,其垃圾回收器在32位環(huán)境下有內存泄漏,一直拖著不肯改進,這且不說。Go語言垃圾回收器真正致命的缺陷是,會導致整個進程不可預知的間歇性停頓。像某些大型后臺服務程序,如游戲服務器、APP容器等,由于占用內存巨大,其內存對象數量極多,GC完成一次回收周期,可能需要數秒甚至更長時間,這段時間內,整個服務進程是阻塞的、停頓的,在外界看來就是服務中斷、無響應,再牛逼的并發(fā)機制到了這里統(tǒng)統(tǒng)失效。垃圾回收器定期啟動,每次啟動就導致短暫的服務中斷,這樣下去,還有人敢用嗎?這可是后臺服務器進程,是Go語言的重點應用領域。以上現象可不是我假設出來的,而是事實存在的現實問題,受其嚴重困擾的也不是一家兩家了(2013年底ECUG Con 2013,京東的劉奇提到了Go語言的GC、defer、標準庫實現是性能殺手,最大的痛苦是GC;美團的沈鋒也提到Go語言的GC導致后臺服務間隔性停頓是最大的問題。更早的網絡游戲仙俠道開發(fā)團隊也曾受Go垃圾回收的沉重打擊)。在實踐中,你必須努力減少進程中的對象數量,以便把GC導致的間歇性停頓控制在可接受范圍內。除此之外你別無選擇(難道你還想自己更換GC算法、甚至砍掉GC?那還是Go語言嗎?)。跳出圈外,我近期一直在思考,一定需要垃圾回收器嗎?沒有垃圾回收器就一定是歷史的倒退嗎?(可能會新寫一篇博客文章專題探討。)
這是說的是32位系統(tǒng), 這絕對不是Go語言的重點應用領域!! 我可以說Go出生就是面向64位系統(tǒng)和多核心CPU環(huán)境設計的. (再說 Rust 目前好像還不支持 XP 吧, 這可不可以算是影響巨大?)
32位當時是有問題, 但是對實際生產影響并不大(請問樓主還是在用32位系統(tǒng)嗎, 還只安裝4GB的內存嗎). 如果是8位單片機環(huán)境, 建議就不要用Go語言了, 直接C語言好了.
而且這個問題早就不存在了(大家可以去看Go的發(fā)布日志).
Go的出生也就5年時間, GC的完善和改進是一個持續(xù)的工作, 2015年8月將發(fā)布的 Go1.5將采用并行GC.
關于GC的被人詬病的地方是會導致卡頓, 但是我以為這個主要是因為GC的實現還不夠完美而導致的.
如果是完美的并發(fā)和增量的GC, 那應該不會出現大的卡頓問題的.
當然, 如果非要實時性, 那用C好了(實時并不表示性能高, 只是響應時間可控).
對于Rust之類沒有GC的語言來說, 想很方便的開發(fā)并發(fā)的后臺程序那幾乎是不可能的.
不要總是吹Rust能代替底層/中層/上層的開發(fā), 我們要看有誰用Rust真的做了什么.
1.6 禁止未使用變量和多余import
Go編譯器不允許存在被未被使用的變量和多余的import,如果存在,必然導致編譯錯誤。但是現實情況是,在代碼編寫、重構、調試過程中,例如,臨時性的注釋掉一行代碼,很容易就會導致同時出現未使用的變量和多余的import,直接編譯錯誤了,你必須相應的把變量定義注釋掉,再翻頁回到文件首部把多余的import也注釋掉,……等事情辦完了,想把剛才注釋的代碼找回來,又要好幾個麻煩的步驟。還有一個讓人蛋疼的問題,編寫數據庫相關的代碼時,如果你import某數據庫驅動的pkg,它編譯給你報錯,說不需要import這個未被使用的pkg;但如果你聽信編譯器的話刪掉該import,編譯是通過了,運行時必然報錯,說找不到數據庫驅動;你看看程序員被折騰的兩邊不是人,最后不得不請出大神:import _。對待這種問題,一個比較好的解決方案是,視其為編譯警告而非編譯錯誤。但是Go語言開發(fā)者很固執(zhí),不容許這種折中方案。
這個問題我只能說樓主的吐槽真的是沒水平.
為何不使用的是錯誤而不是警告? 這是為了將低級的bug消滅在編譯階段(大家可以想下C/C++的那么多警告有什么卵用).
而且, import 即使沒有使用的話, 也是用副作用的, 因為 import 會導致 init 和全局變量的初始化.
如果某些代碼沒有使用, 為何要執(zhí)行 init 這些初始化呢?
如果是因為調試而添加的變量, 那么調試完刪除不是很正常的要求嗎?
如果是因為調試而要導入fmt或log之類的包, 刪除調試代碼后又導致 import 錯誤的花,
樓主難道不知道在一個獨立的文件包裝下類似的輔助調試的函數嗎?
import (
"fmt"
"log"
)
func logf(format string, a ...interface{}) {
file, line := callerFileLine()
fmt.Fprintf(os.Stderr, "%s:%d: ", file, line)
fmt.Fprintf(os.Stderr, format, a...)
}
func fatalf(format string, a ...interface{}) {
file, line := callerFileLine()
fmt.Fprintf(os.Stderr, "%s:%d: ", file, line)
fmt.Fprintf(os.Stderr, format, a...)
os.Exit(1)
}
import _ 是有明確行為的用法, 就是為了執(zhí)行包中的 init 等函數(可以做某些注冊操作).
將警告當作錯誤是Go的一個哲學, 當然在樓主看來這是白癡做法.
1.7 創(chuàng)建對象的方式太多令人糾結
創(chuàng)建對象的方式,調用new函數、調用make函數、調用New方法、使用花括號語法直接初始化結構體,你選哪一種?不好選擇,因為沒有一個固定的模式。從實踐中看,如果要創(chuàng)建一個語言內置類型(如channel、map)的對象,通常用make函數創(chuàng)建;如果要創(chuàng)建標準庫或第三方庫定義的類型的對象,首先要去文檔里找一下有沒有New方法,如果有就最好調用New方法創(chuàng)建對象,如果沒有New方法,則退而求其次,用初始化結構體的方式創(chuàng)建其對象。這個過程頗為周折,不像C++、Java、C#那樣直接new就行了。
C++的new是狗屎. new導致的問題是構造函數和普通函數的行為不一致, 這個補丁特性真的沒啥優(yōu)越的.
我還是喜歡C語言的 fopen 和 malloc 之類構造函數, 構造函數就是普通函數, Go語言中也是這樣.
C++中, 除了構造不兼容普通函數, 析構函數也是不兼容普通函數. 這個而引入的坑有很多吧.
1.8 對象沒有構造函數和析構函數
沒有構造函數還好說,畢竟還有自定義的New方法,大致也算是構造函數了。沒有析構函數就比較難受了,沒法實現RAII。額外的人工處理資源清理工作,無疑加重了程序員的心智負擔。沒人性啊,還嫌我們程序員加班還少嗎?C++里有析構函數,Java里雖然沒有析構函數但是有人家finally語句啊,Go呢,什么都沒有。沒錯,你有個defer,可是那個defer問題更大,詳見下文吧。
defer 可以覆蓋析構函數的行為, 當然 defer 還有其他的任務. Swift2.0 也引入了一個簡化版的 defer 特性.
1.9 defer語句的語義設定不甚合理
Go語言設計defer語句的出發(fā)點是好的,把釋放資源的“代碼”放在靠近創(chuàng)建資源的地方,但把釋放資源的“動作”推遲(defer)到函數返回前執(zhí)行。遺憾的是其執(zhí)行時機的設置似乎有些不甚合理。設想有一個需要長期運行的函數,其中有無限循環(huán)語句,在循環(huán)體內不斷的創(chuàng)建資源(或分配內存),并用defer語句確保釋放。由于函數一直運行沒有返回,所有defer語句都得不到執(zhí)行,循環(huán)過程中創(chuàng)建的大量短暫性資源一直積累著,得不到回收。而且,系統(tǒng)為了存儲defer列表還要額外占用資源,也是持續(xù)增加的。這樣下去,過不了多久,整個系統(tǒng)就要因為資源耗盡而崩潰。像這類長期運行的函數,http.ListenAndServe()就是典型的例子。在Go語言重點應用領域,可以說幾乎每一個后臺服務程序都必然有這么一類函數,往往還都是程序的核心部分。如果程序員不小心在這些函數中使用了defer語句,可以說后患無窮。如果語言設計者把defer的語義設定為在所屬代碼塊結束時(而非函數返回時)執(zhí)行,是不是更好一點呢?可是Go 1.0早已發(fā)布定型,為了保持向后兼容性,已經不可能改變了。小心使用defer語句!一不小心就中招。
前面說到 defer 還有其他的任務, 也就是 defer 中執(zhí)行的 recover 可以捕獲 panic 拋出的異常.
還有 defer 可以在 return 之后修改命名的返回值.
上面2個工作要求 defer 只能在函數退出時來執(zhí)行.
樓主說的 defer 是類似 Swift2.0 中 defer 的行為, 但是 Swift2.0 中 defer 是沒有前面2個特性的.
Go中的defer是以函數作用域作為觸發(fā)的條件的, 是會導致樓主說的在 for 中執(zhí)行的錯誤用法(哪個語言沒有坑呢?).
不過 for 中 局部 defer 也是有辦法的 (Go中的defer是以函數作用域):
for {
func(){
f, err := os.Open(...)
defer f.Close()
}()
}
在 for 中做一個閉包函數就可以了. 自己不會用不要怪別人沒告訴你.
1.10 許多語言內置設施不支持用戶定義的類型
for in、make、range、channel、map等都僅支持語言內置類型,不支持用戶定義的類型(?)。用戶定義的類型沒法支持for in循環(huán),用戶不能編寫像make、range那樣“參數類型和個數”甚至“返回值類型和個數”都可變的函數,不能編寫像channel、map那樣類似泛型的數據類型。語言內置的那些東西,處處充斥著斧鑿的痕跡。這體現了語言設計的局限性、封閉性、不完善,可擴展性差,像是新手作品——且不論其設計者和實現者如何權威。延伸閱讀:Go語言是30年前的陳舊設計思想,用戶定義的東西幾乎都是二等公民(Tikhon Jelvis)。
說到底, 這個是因為對泛型支持的不完備導致的.
Go語言是沒啥NB的特性, 但是Go的特性和工具組合在一起就是好用.
這就是Go語言NB的地方.
1.11 沒有泛型支持,常見數據類型接口丑陋
沒有泛型的話,List、Set、Tree這些常見的基礎性數據類型的接口就只能很丑陋:放進去的對象是一個具體的類型,取出來之后成了無類型的interface{}(可以視為所有類型的基礎類型),還得強制類型轉換之后才能繼續(xù)使用,令人無語。Go語言缺少min、max這類函數,求數值絕對值的函數abs只接收/返回雙精度小數類型,排序接口只能借助sort.Interface無奈的回避了被比較對象的類型,等等等等,都是沒有泛型導致的結果。沒有泛型,接口很難優(yōu)雅起來。Go開發(fā)者沒有明確拒絕泛型,只是說還沒有找到很好的方法實現泛型(能不能學學已經開源的語言呀)?,F實是,Go 1.0已經定型,泛型還沒有,那些丑陋的接口為了保持向后兼容必須長期存在著。
Go有自己的哲學, 如果能有和目前哲學不沖突的泛型實現, 他們是不會反對的.
如果只是簡單學學(或者叫抄襲)已經開源的語言的語法, 那是C++的設計風格(或者說C++從來都是這樣設計的, 有什么特性就抄什么), 導致了各種腦裂的編程風格.
編譯時泛型和運行時泛型可能是無法完全兼容的, 看這個例子:
type AdderT interface {
Add(a, b T) T
}
1.1 Go 安裝
Go的三種安裝方式
Go有多種安裝方式,你可以選擇自己喜歡的。這里我們介紹三種最常見的安裝方式:
Go源碼安裝:這是一種標準的軟件安裝方式。對于經常使用Unix類系統(tǒng)的用戶,尤其對于開發(fā)者來說,從源碼安裝可以自己定制。
Go標準包安裝:Go提供了方便的安裝包,支持Windows、Linux、Mac等系統(tǒng)。這種方式適合快速安裝,可根據自己的系統(tǒng)位數下載好相應的安裝包,一路next就可以輕松安裝了。**推薦這種方式**
第三方工具安裝:目前有很多方便的第三方軟件包工具,例如Ubuntu的apt-get、Mac的homebrew等。這種安裝方式適合那些熟悉相應系統(tǒng)的用戶。
最后,如果你想在同一個系統(tǒng)中安裝多個版本的Go,你可以參考第三方工具GVM,這是目前在這方面做得最好的工具,除非你知道怎么處理。
Go源碼安裝
在Go的源代碼中,有些部分是用Plan 9 C和ATT匯編寫的,因此假如你要想從源碼安裝,就必須安裝C的編譯工具。
在Mac系統(tǒng)中,只要你安裝了Xcode,就已經包含了相應的編譯工具。
在類Unix系統(tǒng)中,需要安裝gcc等工具。例如Ubuntu系統(tǒng)可通過在終端中執(zhí)行sudo apt-get install gcc
libc6-dev來安裝編譯工具。
在Windows系統(tǒng)中,你需要安裝MinGW,然后通過MinGW安裝gcc,并設置相應的環(huán)境變量。
你可以直接去官網下載源碼,找相應的goVERSION.src.tar.gz的文件下載,下載之后解壓縮到$HOME目錄,執(zhí)行如下代碼:
cd go/src
./all.bash
運行all.bash后出現"ALL TESTS PASSED"字樣時才算安裝成功。
上面是Unix風格的命令,Windows下的安裝方式類似,只不過是運行all.bat,調用的編譯器是MinGW的gcc。
如果是Mac或者Unix用戶需要設置幾個環(huán)境變量,如果想重啟之后也能生效的話把下面的命令寫到.bashrc或者.zshrc里面,
export GOPATH=$HOME/gopath
export PATH=$PATH:$HOME/go/bin:$GOPATH/bin
如果你是寫入文件的,記得執(zhí)行bash .bashrc或者bash
.zshrc使得設置立馬生效。
如果是window系統(tǒng),就需要設置環(huán)境變量,在path里面增加相應的go所在的目錄,設置gopath變量。
當你設置完畢之后在命令行里面輸入go,看到如下圖片即說明你已經安裝成功
圖1.1 源碼安裝之后執(zhí)行Go命令的圖
如果出現Go的Usage信息,那么說明Go已經安裝成功了;如果出現該命令不存在,那么可以檢查一下自己的PATH環(huán)境變中是否包含了Go的安裝目錄。
關于上面的GOPATH將在下面小節(jié)詳細講解
Go標準包安裝
Go提供了每個平臺打好包的一鍵安裝,這些包默認會安裝到如下目錄:/usr/local/go
(Windows系統(tǒng):c:\Go),當然你可以改變他們的安裝位置,但是改變之后你必須在你的環(huán)境變量中設置如下信息:
export GOROOT=$HOME/go
export GOPATH=$HOME/gopath
export PATH=$PATH:$GOROOT/bin:$GOPATH/bin
上面這些命令對于Mac和Unix用戶來說最好是寫入.bashrc或者.zshrc文件,對于windows用戶來說當然是寫入環(huán)境變量。
如何判斷自己的操作系統(tǒng)是32位還是64位?
我們接下來的Go安裝需要判斷操作系統(tǒng)的位數,所以這小節(jié)我們先確定自己的系統(tǒng)類型。
Windows系統(tǒng)用戶請按Win+R運行cmd,輸入systeminfo后回車,稍等片刻,會出現一些系統(tǒng)信息。在“系統(tǒng)類型”一行中,若顯示“x64-based
PC”,即為64位系統(tǒng);若顯示“X86-based PC”,則為32位系統(tǒng)。
Mac系統(tǒng)用戶建議直接使用64位的,因為Go所支持的Mac OS X版本已經不支持純32位處理器了。
Linux系統(tǒng)用戶可通過在Terminal中執(zhí)行命令arch(即uname
-m)來查看系統(tǒng)信息:
64位系統(tǒng)顯示
x86_64
32位系統(tǒng)顯示
i386
Mac 安裝
訪問下載地址,32位系統(tǒng)下載go1.4.2.darwin-386-osx10.8.pkg,64位系統(tǒng)下載go1.4.2.darwin-amd64-osx10.8.pkg,雙擊下載文件,一路默認安裝點擊下一步,這個時候go已經安裝到你的系統(tǒng)中,默認已經在PATH中增加了相應的~/go/bin,這個時候打開終端,輸入go
看到類似上面源碼安裝成功的圖片說明已經安裝成功
如果出現go的Usage信息,那么說明go已經安裝成功了;如果出現該命令不存在,那么可以檢查一下自己的PATH環(huán)境變中是否包含了go的安裝目錄。
Linux 安裝
訪問下載地址,32位系統(tǒng)下載go1.4.2.linux-386.tar.gz,64位系統(tǒng)下載go1.4.2.linux-amd64.tar.gz,
假定你想要安裝Go的目錄為 $GO_INSTALL_DIR,后面替換為相應的目錄路徑。
解壓縮tar.gz包到安裝目錄下:tar zxvf go1.4.2.linux-amd64.tar.gz -C
$GO_INSTALL_DIR。
設置PATH,export PATH=$PATH:$GO_INSTALL_DIR/go/bin
然后執(zhí)行go
圖1.2 Linux系統(tǒng)下安裝成功之后執(zhí)行go顯示的信息
如果出現go的Usage信息,那么說明go已經安裝成功了;如果出現該命令不存在,那么可以檢查一下自己的PATH環(huán)境變中是否包含了go的安裝目錄。
Windows 安裝
訪問Google Code 下載頁,32
位請選擇名稱中包含 windows-386 的 msi 安裝包,64 位請選擇名稱中包含 windows-amd64 的。下載好后運行,不要修改默認安裝目錄
C:\Go\,若安裝到其他位置會導致不能執(zhí)行自己所編寫的 Go 代碼。安裝完成后默認會在環(huán)境變量 Path 后添加 Go 安裝目錄下的 bin 目錄
C:\Go\bin\,并添加環(huán)境變量 GOROOT,值為 Go 安裝根目錄 C:\Go\ 。
驗證是否安裝成功
在運行中輸入 cmd 打開命令行工具,在提示符下輸入 go,檢查是否能看到 Usage 信息。輸入
cd %GOROOT%,看是否能進入 Go 安裝目錄。若都成功,說明安裝成功。
不能的話請檢查上述環(huán)境變量 Path 和 GOROOT 的值。若不存在請卸載后重新安裝,存在請重啟計算機后重試以上步驟。
第三方工具安裝
GVM
gvm是第三方開發(fā)的Go多版本管理工具,類似ruby里面的rvm工具。使用起來相當的方便,安裝gvm使用如下命令:
bash (curl -s -S -L )
安裝完成后我們就可以安裝go了:
gvm install go1.4.2
gvm use go1.4.2
也可以使用下面的命令,省去每次調用gvm use的麻煩: gvm use go1.4.2 --default
執(zhí)行完上面的命令之后GOPATH、GOROOT等環(huán)境變量會自動設置好,這樣就可以直接使用了。
apt-get
Ubuntu是目前使用最多的Linux桌面系統(tǒng),使用apt-get命令來管理軟件包,我們可以通過下面的命令來安裝Go,為了以后方便,應該把
git mercurial 也安裝上:
sudo apt-get install python-software-properties
sudo add-apt-repository ppa:gophers/go
sudo apt-get update
sudo apt-get install golang-stable git-core mercurial
homebrew
homebrew是Mac系統(tǒng)下面目前使用最多的管理軟件的工具,目前已支持Go,可以通過命令直接安裝Go,為了以后方便,應該把
git mercurial 也安裝上:
brew update brew upgrade
brew install go
brew install git
brew install mercurial
換行符 \n 在 Windows 記事本不會顯示,用 Notepad2、Notepad++、UltraEdit 等打開就能看到,或者用 \r\n
前言
最近工作中遇到的一個場景,php項目中需要使用一個第三方的功能,而恰好有一個用Golang寫好的類庫。那么問題就來了,要如何實現不同語言之間的通信呢?下面就來一起看看吧。
常規(guī)的方案
1、 用Golang寫一個http/TCP服務,php通過http/TCP與Golang通信
2、將Golang經過較多封裝,做為php擴展。
3、PHP通過系統(tǒng)命令,調取Golang的可執(zhí)行文件
存在的問題
1、http請求,網絡I/O將會消耗大量時間
2、需要封裝大量代碼
3、PHP每調取一次Golang程序,就需要一次初始化,時間消耗很多
優(yōu)化目標
1、Golang程序只初始化一次(因為初始化很耗時)
2、所有請求不需要走網絡
3、盡量不大量修改代碼
解決方案
1、簡單的Golang封裝,將第三方類庫編譯生成為一個可執(zhí)行文件
2、PHP與Golang通過雙向管道通信
使用雙向管道通信優(yōu)勢
1:只需要對原有Golang類庫進行很少的封裝
2:性能最佳 (IPC通信是進程間通信的最佳途徑)
3:不需要走網絡請求,節(jié)約大量時間
4:程序只需初始化一次,并一直保持在內存中
具體實現步驟
1:類庫中的原始調取demo
package main
import (
"fmt"
"github.com/yanyiwu/gojieba"
"strings"
)
func main() {
x := gojieba.NewJieba()
defer x.Free()
s := "小明碩士畢業(yè)于中國科學院計算所,后在日本京都大學深造"
words := x.CutForSearch(s, true)
fmt.Println(strings.Join(words, "/"))
}
保存文件為main.go,就可以運行
2:調整后代碼為:
package main
import (
"bufio"
"fmt"
"github.com/yanyiwu/gojieba"
"io"
"os"
"strings"
)
func main() {
x := gojieba.NewJieba(
"/data/tmp/jiebaDict/jieba.dict.utf8",
"/data/tmp/jiebaDict/hmm_model.utf8",
"/data/tmp/jiebaDict/user.dict.utf8"
)
defer x.Free()
inputReader := bufio.NewReader(os.Stdin)
for {
s, err := inputReader.ReadString('\n')
if err != nil err == io.EOF {
break
}
s = strings.TrimSpace(s)
if s != "" {
words := x.CutForSearch(s, true)
fmt.Println(strings.Join(words, " "))
} else {
fmt.Println("get empty \n")
}
}
}
只需要簡單的幾行調整,即可實現:從標準輸入接收字符串,經過分詞再輸出
測試:
# go build test
# ./test
# //等待用戶輸入,輸入”這是一個測試“
# 這是 一個 測試 //程序
3:使用cat與Golang通信做簡單測試
//準備一個title.txt,每行是一句文本
# cat title.txt | ./test
正常輸出,表示cat已經可以和Golang正常交互了
4:PHP與Golang通信
以上所示的cat與Golang通信,使用的是單向管道。即:只能從cat向Golang傳入數據,Golang輸出的數據并沒有傳回給cat,而是直接輸出到屏幕。但文中的需求是:php與Golang通信。即php要傳數據給Golang,同時Golang也必須把執(zhí)行結果返回給php。因此,需要引入雙向管道。
在PHP中管道的使用:popen("/path/test") ,具體就不展開說了,因為此方法解決不了文中的問題。
雙向管道:
$descriptorspec = array(
0 = array("pipe", "r"),
1 = array("pipe", "w")
);
$handle = proc_open(
'/webroot/go/src/test/test',
$descriptorspec,
$pipes
);
fwrite($pipes['0'], "這是一個測試文本\n");
echo fgets($pipes[1]);
解釋:使用proc_open打開一個進程,調用Golang程序。同時返回一個雙向管道pipes數組,php向$pipe['0']中寫數據,從$pipe['1']中讀數據。
好吧,也許你已經發(fā)現,我是標題檔,這里重點要講的并不只是PHP與Golang如何通信。而是在介紹一種方法: 通過雙向管道讓任意語言通信。(所有語言都會實現管道相關內容)
測試:
通過對比測試,計算出各個流程占用的時間。下面提到的title.txt文件,包含100萬行文本,每行文本是從b2b平臺取的商品標題
1: 整體流程耗時
time cat title.txt | ./test /dev/null
耗時:14.819秒,消耗時間包含:
進程cat讀出文本
通過管道將數據傳入Golang
Golang處理數據,將結果返回到屏幕
2:計算分詞函數耗時。方案:去除分詞函數的調取,即:注釋掉Golang源代碼中的調取分詞那行的代碼
time cat title.txt | ./test /dev/null
耗時:1.817秒時間,消耗時間包含:
進程cat讀出文本
通過管道將數據傳入Golang
Golang處理數據,將結果返回到屏幕
分詞耗時 = (第一步耗時) - (以上命令所耗時)
分詞耗時 : 14.819 - 1.817 = 13.002秒
3:測試cat進程與Golang進程之間通信所占時間
time cat title.txt /dev/null
耗時:0.015秒,消耗時間包含:
進程cat讀出文本
通過管道將數據傳入Golang
go處理數據,將結果返回到屏幕
管道通信耗時:(第二步耗時) - (第三步耗時)
管道通信耗時: 1.817 - 0.015 = 1.802秒
4:PHP與Golang通信的時間消耗
編寫簡單的php文件:
?php
$descriptorspec = array(
0 = array("pipe", "r"),
1 = array("pipe", "w")
);
$handle = proc_open(
'/webroot/go/src/test/test',
$descriptorspec,
$pipes
);
$fp = fopen("title.txt", "rb");
while (!feof($fp)) {
fwrite($pipes['0'], trim(fgets($fp))."\n");
echo fgets($pipes[1]);
}
fclose($pipes['0']);
fclose($pipes['1']);
proc_close($handle);
流程與上面基本一致,讀出title.txt內容,通過雙向管道傳入Golang進程分詞后,再返回給php (比上面的測試多一步:數據再通過管道返回)
time php popen.php /dev/null
耗時:24.037秒,消耗時間包含:
進程PHP讀出文本
通過管道將數據傳入Golang
Golang處理數據
Golang將返回結果再寫入管道,PHP通過管道接收數據
將結果返回到屏幕
結論:
1 :整個分詞過程中的耗時分布
使用cat控制邏輯耗時: 14.819 秒
使用PHP控制邏輯耗時: 24.037 秒(比cat多一次管道通信)
單向管道通信耗時: 1.8 秒
Golang中的分詞函數耗時: 13.002 秒
2:分詞函數的性能: 單進程,100萬商品標題分詞,耗時13秒
以上時間只包括分詞時間,不包括詞典載入時間。但在本方案中,詞典只載入一次,所以載入詞典時間可以忽略(1秒左右)
3:PHP比cat慢 (這結論有點多余了,呵呵)
語言層面慢: (24.037 - 1.8 - 14.819) / 14.819 = 50%
單進程對比測試的話,應該不會有哪個語言比cat更快。
相關問題:
1:以上Golang源碼中寫的是一個循環(huán),也就是會一直從管道中讀數據。那么存在一個問題:是不是php進程結束后,Golang的進程還會一直存在?
管道機制自身可解決此問題。管道提供兩個接口:讀、寫。當寫進程結束或者意外掛掉時,讀進程也會報錯,以上Golang源代碼中的err邏輯就會執(zhí)行,Golang進程結束。
但如果PHP進程沒有結束,只是暫時沒有數據傳入,此時Golang進程會一直等待。直到php結束后,Golang進程才會自動結束。
2:能否多個php進程并行讀寫同一個管道,Golang進程同時為其服務?
不可以。管道是單向的,如果多個進程同時向管道中寫,那Golang的返回值就會錯亂。
可以多開幾個Golang進程實現,每個php進程對應一個Golang進程。
最后,上面都是瞎扯的。如果你了解管道、雙向管道,上面的解釋對你基本沒啥用。但如果你不了解管道,調試上面的代碼沒問題,但稍有修改就有可能掉坑里。
對于mmap,您是否能從原理上解析以下三個問題:
要解決這些疑問,可能還需要在操作系統(tǒng)層面多了解。本文將嘗試通過這些問題深入剖析,希望通過這篇文章,能使大家對mmap有較深入的認識,也能在存儲引擎的設計中,有所參考。
最近在研發(fā)分布式日志存儲系統(tǒng),這是一個基于Raft協(xié)議的自研分布式日志存儲系統(tǒng),Logstore則是底層存儲引擎。
Logstore中,使用mmap對數據文件進行讀寫。Logstore的存儲結構簡化如下圖:
Logstore使用了Segments Files + Index Files的方式存儲Log,Segment File是存儲主體,用于存儲Log數據,使用定長的方式,默認每個512M,Index File主要用于Segment File的內容檢索。
Logstore使用mmap的方式讀寫Segment File,Segments Files的個數,主要取決于磁盤空間或者業(yè)務需求,一般情況下,Logstore會存儲1T~5T的數據。
我們先看看什么是mmap。
在深入理解計算機系統(tǒng)這本書中,mmap定義為:Linux通過將一個虛擬內存區(qū)域與一個磁盤上的對象(object)關聯(lián)起來,以初始化這個虛擬內存區(qū)域的內容,這個過程稱為內存映射(memory mapping)。
在Logstore中,mapping的對象是普通文件(Segment File)。
我們先來簡單看一下mapping一個文件,mmap做了什么事情。如下圖所示:
假設我們mmap的文件是FileA,在調用mmap之后,會在進程的虛擬內存分配地址空間,創(chuàng)建映射關系。
這里值得注意的是, mmap只是在虛擬內存分配了地址空間 ,舉個例子,假設上述的FileA是2G大小
在mmap之后,查看mmap所在進程的maps描述,可以看到
由上可以看到,在mmap之后,進程的地址空間7f35eea8d000-7f366ea8d000被分配,并且map到FileA,7f366ea8d000減去7f35eea8d000,剛好是2147483648(ps: 這里是整個文件做mapping)
在Linux中,VM系統(tǒng)通過將虛擬內存分割為稱作虛擬頁(Virtual Page,VP)大小固定的塊來處理磁盤(較低層)與上層數據的傳輸,一般情況下,每個頁的大小默認是4096字節(jié)。同樣的,物理內存也被分割為物理頁(Physical Page,PP),也為4096字節(jié)。
上述例子,在mmap之后,如下圖:
在mmap之后,并沒有在將文件內容加載到物理頁上,只上在虛擬內存中分配了地址空間。當進程在訪問這段地址時(通過mmap在寫入或讀取時FileA),若虛擬內存對應的page沒有在物理內存中緩存,則產生"缺頁",由內核的缺頁異常處理程序處理,將文件對應內容,以頁為單位(4096)加載到物理內存,注意是只加載缺頁,但也會受操作系統(tǒng)一些調度策略影響,加載的比所需的多,這里就不展開了。
(PS: 再具體一些,進程在訪問7f35eea8d000這個進程虛擬地址時,MMU通過查找頁表,發(fā)現對應內容未緩存在物理內存中,則產生"缺頁")
缺頁處理后,如下圖:
我認為從原理上,mmap有兩種類型,一種是有backend,一種是沒有backend。
這種模式將普通文件做memory mapping(非MAP_ANONYMOUS),所以在mmap系統(tǒng)調用時,需要傳入文件的fd。這種模式常見的有兩個常用的方式,MAP_SHARED與MAP_PRIVATE,但它們的行為卻不相同。
1) MAP_SHARED
這個方式我認為可以從兩個角度去看:
2) MAP_PRIVATE
這是一個copy-on-write的映射方式。雖然他也是有backend的,但在寫入數據時,他會在物理內存copy一份數據出來(以頁為單位),而且這些數據是不會被回寫到文件的。這里就要注意,因為更新的數據是一個副本,而且不會被回寫,這就意味著如果程序運行時不主動釋放,若更新的數據超過可用物理內存+swap space,就會遇到OOM Killer。
無backend通常是MAP_ANONYMOUS,就是將一個區(qū)域映射到一個匿名文件,匿名文件是由內核創(chuàng)建的。因為沒有backend,寫入/更新的數據之后,若不主動釋放,這些占用的物理內存是不能被釋放的,同樣會出現OOM Killer。
到這里,這個問題就比較好解析了。我們可以將此問題分離為:
-- 虛擬內存是否會出問題:
回到上述的"mmap在進程虛擬內存做了什么",我們知道m(xù)map會在進程的虛擬內存中分配地址空間,比如1G的文件,則分配1G的連續(xù)地址空間。那究竟可以maping多少呢?在64位操作系統(tǒng),尋址范圍是2^64 ,除去一些內核、進程數據等地址段之外,基本上可以認為可以mapping無限大的數據(不太嚴謹的說法)。
-- 物理內存是否會出問題
回到上述"mmap的分類",對于有backend的mmap,而且是能回寫到文件的,映射比內存+swap空間大是沒有問題的。但無法回寫到文件的,需要非常注意,主動釋放。
MAP_NORESERVE是mmap的一個參數,MAN的說明是"Do not reserve swap space for this mapping. When swap space is reserved, one has the guarantee that it is possible to modify the mapping."。
我們做個測試:
場景A:物理內存+swap space: 16G,映射文件30G,使用一個進程進行mmap,成功后映射后持續(xù)寫入數據
場景B:物理內存+swap space: 16G,映射文件15G,使用兩個進程進行mmap,成功后映射后持續(xù)寫入數據
從上述測試可以看出,從現象上看,NORESERVE是繞過mmap的校驗,讓其可以mmap成功。但其實在RESERVE的情況下(序列4),從測試結果看,也沒有保障。
mmap的性能經常與系統(tǒng)調用(write/read)做對比。
我們將讀寫分開看,先嘗試從原理上分析兩者的差異,然后再通過測試驗證。
我們先來簡單講講write系統(tǒng)調用寫文件的過程:
再來簡單講講使用mmap時,寫入文件流程:
系統(tǒng)調用會對性能有影響,那么從理論上分析:
下面我們對兩者進行性能測試:
場景:對2G的文件進行順序寫入(go語言編寫)
每次寫入大小 | mmap 耗時 | write 耗時
--------------- | ------- | -------- | --------
| 1 byte | 22.14s | 300s
| 100 bytes | 2.84s | 22.86s
| 512 bytes | 2.51s | 5.43s
| 1024 bytes | 2.48s | 3.48s
| 2048 bytes | 2.47s | 2.34s
| 4096 bytes | 2.48s | 1.74s
| 8192 bytes | 2.45s | 1.67s
| 10240 bytes | 2.49s | 1.65s
可以看到mmap在100byte寫入時已經基本達到最大寫入性能,而write調用需要在4096(也就是一個page size)時,才能達到最大寫入性能。
從測試結果可以看出,在寫小數據時,mmap會比write調用快,但在寫大數據時,反而沒那么快(但不太確認是否go的slice copy的性能問題,沒時間去測C了)。
測試結果與理論推導吻合。
我們還是來簡單分析read調用與mmap的流程:
從圖中可以看出,read調用確實比mmap多一次copy。因為read調用,進程是無法直接訪問kernel space的,所以在read系統(tǒng)調用返回前,內核需要將數據從內核復制到進程指定的buffer。但mmap之后,進程可以直接訪問mmap的數據(page cache)。
從原理上看,read性能會比mmap慢。
接下來實測一下性能區(qū)別:
場景:對2G的文件進行順序讀取(go語言編寫)
(ps: 為了避免磁盤對測試的影響,我讓2G文件都緩存在pagecache中)
每次讀取大小 | mmap 耗時 | write 耗時
--------------- | ------- | -------- | --------
| 1 byte | 8215.4ms | 300s
| 100 bytes | 86.4ms | 8100.9ms
| 512 bytes | 16.14ms | 1851.45ms
| 1024 bytes | 8.11ms | 992.71ms
| 2048 bytes | 4.09ms | 636.85ms
| 4096 bytes | 2.07ms | 558.10ms
| 8192 bytes | 1.06ms | 444.83ms
| 10240 bytes | 867.88μs | 475.28ms
由上可以看出,在read上面,mmap比write的性能差別還是很大的。測試結果與理論推導吻合。
對mmap的深入了解,能幫助我們在設計存儲系統(tǒng)時,更好地進行決策。
比如,假設需要設計一個底層的數據結構是B+ Tree,node操作以Page單位的單機存儲引擎,根據上述推論,寫入使用系統(tǒng)調用,而讀取使用mmap,可以達到最優(yōu)的性能。而LMDB就是如此實現的。