基本上所有的語言都有正則表達(dá)式,golang也不例外。golang原生使用regexp包進(jìn)行正則表達(dá)式的匹配。正常情況下滿足基礎(chǔ)的查詢功能。但是,golang為了正則表達(dá)式的效率一直堅(jiān)持O(n)的搜索復(fù)雜度,所以有些高級特性將無法滿足。
黃石港ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場景,ssl證書未來市場廣闊!成為創(chuàng)新互聯(lián)公司的ssl證書銷售渠道,可以享受市場價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18982081108(備注:SSL證書合作)期待與您的合作!
正則表達(dá)式可以通過\1的形式反向查詢之前匹配的數(shù)據(jù),但是原生自帶的regxp是不支持該特性。所以只能使用第三方庫來支持。
此篇文章流傳甚廣, 其實(shí)里面沒啥干貨, 而且里面很多觀點(diǎn)是有問題的. 這個(gè)文章在 golang-china 很早就討論過了.
最近因?yàn)?Rust 1.0 和 1.1 的發(fā)布, 導(dǎo)致這個(gè)文章又出來毒害讀者.
所以寫了這篇反駁文章, 指出其中的問題.
有好幾次,當(dāng)我想起來的時(shí)候,總是會問自己:我為什么要放棄Go語言?這個(gè)決定是正確的嗎?是明智和理性的嗎?其實(shí)我一直在認(rèn)真思考這個(gè)問題。
開門見山地說,我當(dāng)初放棄Go語言(golang),就是因?yàn)閮蓚€(gè)“不爽”:第一,對Go語言本身不爽;第二,對Go語言社區(qū)里的某些人不爽。毫無疑問,這是非常主觀的結(jié)論。但是我有足夠詳實(shí)的客觀的論據(jù),用以支撐這個(gè)看似主觀的結(jié)論。
文末附有本文更新日志。
確實(shí)是非常主觀的結(jié)論, 因?yàn)槔锩嬗胁簧儆袉栴}的觀點(diǎn)(用來忽悠Go小白還行).
第0節(jié):我的Go語言經(jīng)歷
先說說我的經(jīng)歷吧,以避免被無緣無故地當(dāng)作Go語言的低級黑。
2009年底,Go語言(golang)第一個(gè)公開版本發(fā)布,籠罩著“Google公司制造”的光環(huán),吸引了許多慕名而來的嘗鮮者,我(Liigo)也身居其中,籠統(tǒng)的看了一些Go語言的資料,學(xué)習(xí)了基礎(chǔ)的教程,因?qū)ζ湔Z法中的分號和花括號不滿,很快就遺忘掉了,沒拿它當(dāng)一回事。
在2009年Go剛發(fā)布時(shí), 確實(shí)是因?yàn)椤癎oogle公司制造”的光環(huán)而吸引了(包括文章作者和諸多IT記者)很多低級的嘗鮮者.
還好, 經(jīng)過5年的發(fā)展, 這些純粹因?yàn)楣猸h(huán)來的投機(jī)者所剩已經(jīng)不多了(Google趨勢).
目前, 真正的Go用戶早就將Go用于實(shí)際的生產(chǎn)了.
說到 其語法中的分號和花括號不滿, 我想說這只是你的 個(gè)人主觀感受, 還有很多人對Go的分號和花括號很滿意,
包括水果公司的的 Swift 的語言設(shè)計(jì)者也很滿意這種風(fēng)格(Swift中的分號和花括號和Go基本相同).
如果只談 個(gè)人主觀感受, 我也可以說 Rust 的 fn 縮寫也很蛋疼!
兩年之后,2011年底,Go語言發(fā)布1.0的計(jì)劃被提上日程,相關(guān)的報(bào)道又多起來,我再次關(guān)注它,重新評估之后決定深入?yún)⑴cGo語言。我訂閱了其users、nuts、dev、commits等官方郵件組,堅(jiān)持每天閱讀其中的電子郵件,以及開發(fā)者提交的每一次源代碼更新,給Go提交了許多改進(jìn)意見,甚至包括修改Go語言編譯器源代碼直接參與開發(fā)任務(wù)。如此持續(xù)了數(shù)月時(shí)間。
這個(gè)到是事實(shí), 在 golang-china 有不少吵架的帖子, 感興趣的可以去挖下, 我就不展開說了.
到2012年初,Go 1.0發(fā)布,語言和標(biāo)準(zhǔn)庫都已經(jīng)基本定型,不可能再有大幅改進(jìn),我對Go語言未能在1.0定型之前更上一個(gè)臺階、實(shí)現(xiàn)自我突破,甚至帶著諸多明顯缺陷走向1.0,感到非常失望,因而逐漸疏遠(yuǎn)了它(所以Go 1.0之后的事情我很少關(guān)心)。后來看到即將發(fā)布的Go 1.1的Release Note,發(fā)現(xiàn)語言層面沒有太大改變,只是在庫和工具層面有所修補(bǔ)和改進(jìn),感到它尚在幼年就失去成長的動力,越發(fā)失望。外加Go語言社區(qū)里的某些人,其中也包括Google公司負(fù)責(zé)開發(fā)Go語言的某些人,其態(tài)度、言行,讓我極度厭惡,促使我決絕地離棄Go語言。
真的不清楚樓主說的可以在 Go1.0 之前短時(shí)間內(nèi)能實(shí)現(xiàn)的 重大改進(jìn)和諸多明顯缺陷 是什么.
如果是樓主說前面的 其語法中的分號和花括號不滿 之類的重大改進(jìn), 我只能說這只是你的 個(gè)人主觀感受 而已,
你的很多想法只能說服你自己, 沒辦法說服其他絕大部分人(不要以為像C++或Rust那樣什么特性都有就NB了, 各種NB特性加到一起只能是 要你命3000, 而絕對不會是什么 銀彈).
Go 1.1的Release Note,發(fā)現(xiàn)語言層面沒有太大改變. 語言層沒有改變是是因?yàn)?Go1 作出的向后兼容的承諾. 對于工業(yè)級的語言來說, Go1 這個(gè)只能是優(yōu)點(diǎn). 如果連語言層在每個(gè)版本都會出現(xiàn)諸多大幅改進(jìn), 那誰還敢用Go語言來做生產(chǎn)開發(fā)呢(我承認(rèn)Rust的改動很大膽, 但也說明了Rust還處于比較幼稚和任性的階段)?
說 Go語言社區(qū)里的某些人固執(zhí) 的觀點(diǎn)我是同意的. 但是這些 固執(zhí) 的人是可以講道理的, 但是他們對很多東西的要求很高(特別是關(guān)于Go的設(shè)計(jì)哲學(xué)部分).
只要你給的建議有依據(jù)(語言的設(shè)計(jì)哲學(xué)是另外一回事情), 他們絕對不會盲目的拒絕(只是討論的周期會比較長).
關(guān)于樓主提交的給Go文件添加BOM的文章, 需要補(bǔ)充說明下.
在Go1.0發(fā)布的時(shí)候, Go語言的源文件(.go)明確要求必須是UTF8編碼的, 而且是無BOM的UTF8編碼的.
注意: 這個(gè) 無BOM的UTF8編碼 的限制僅僅是 針對 Go語言的源文件(.go).
這個(gè)限制并不是說不允許用戶處理帶BOM的UTF8的txt文件!
我覺得對于寫Go程序來說, 這個(gè)限制是沒有任何問題的, 到目前為止, 我還從來沒有使用過帶BOM的.go文件.
不僅是因?yàn)閹OM的.go文件沒有太多的意義, 而且有很多的缺陷.
BOM的原意是用來表示編碼是大端還是小端的, 主要用于UTF16和UTF32. 對于 UTF8 來說, BOM 沒有任何存在的意義(正是Go的2個(gè)作者發(fā)明了UTF8, 徹底解決了全球的編碼問題).
但是, 在現(xiàn)實(shí)中, 因?yàn)镸S的txt記事本, 對于中文環(huán)境會將txt(甚至是C/C++源文件)當(dāng)作GBK編碼(GBK是個(gè)爛編碼),
為了區(qū)別到底是GBK還是UTF8, MS的記事本在前面加了BOM這個(gè)垃圾(被GBK占了茅坑), 這里的bom已經(jīng)不是表示字節(jié)序本意了. 不知道有沒有人用ms的記事本寫網(wǎng)頁, 然后生成一個(gè)帶bom的utf8網(wǎng)頁肯定很有意思.
這是MS的記事本的BUG: 它不支持生成無BOM的UTF8編碼的文本文件!
這些是現(xiàn)實(shí)存在的帶BOM的UTF8編碼的文本文件, 但是它們肯定都不是Go語言源文件!
所以說, Go語言的源文件即使強(qiáng)制限制了無BOM的UTF8編碼要求, 也是沒有任何問題的(而且我還希望有這個(gè)限制).
雖然后來Go源文件接受帶BOM的UTF8了, 但是運(yùn)行 go fmt 之后, 還是會刪除掉BOM的(因?yàn)锽OM就是然并卵). 也就是說 帶 BOM 的 Go 源文件是不符合 Go語言的編碼風(fēng)格的, go fmt 會強(qiáng)制刪除 BOM 頭.
前面說了BOM是MS帶來的垃圾, 但是BOM的UTF8除了然并卵之外還有很多問題, 因?yàn)锽OM在string的開頭嵌入了垃圾,
導(dǎo)致正則表達(dá)式, string的鏈接運(yùn)算等操作都被會被BOM這個(gè)垃圾所污染. 對于.go語言, 即使代碼完全一樣, 有BOM和無BOM會導(dǎo)致文件的MD5之類的校驗(yàn)碼不同.
所以, 我覺得Go用戶不用糾結(jié)BOM這個(gè)無關(guān)緊要的東西.
在上一個(gè)10年,我(Liigo)在我所屬的公司里,深度參與了兩個(gè)編程語言項(xiàng)目的開發(fā)。我想,對于如何判斷某個(gè)編程語言的優(yōu)劣,或者說至少對于如何判斷某個(gè)編程語言是否適合于我自己,我應(yīng)該還是有一點(diǎn)發(fā)言權(quán)的。
第1節(jié):我為什么對Go語言不爽?
Go語言有很多讓我不爽之處,這里列出我現(xiàn)在還能記起的其中一部分,排名基本上不分先后。讀者們耐心地看完之后,還能淡定地說一句“我不在乎”嗎?
1.1 不允許左花括號另起一行
關(guān)于對花括號的擺放,在C語言、C++、Java、C#等社區(qū)中,十余年來存在持續(xù)爭議,從未形成一致意見。在我看來,這本來就是主觀傾向很重的抉擇,不違反原則不涉及是非的情況下,不應(yīng)該搞一刀切,讓程序員或團(tuán)隊(duì)自己選擇就足夠了。編程語言本身強(qiáng)行限制,把自己的喜好強(qiáng)加給別人,得不償失。無論傾向于其中任意一種,必然得罪與其對立的一群人。雖然我現(xiàn)在已經(jīng)習(xí)慣了把左花括號放在行尾,但一想到被禁止其他選擇,就感到十分不爽。Go語言這這個(gè)問題上,沒有做到“團(tuán)結(jié)一切可以團(tuán)結(jié)的力量”不說,還有意給自己樹敵,太失敗了。
我覺得Go最偉大的發(fā)明是 go fmt, 從此Go用戶不會再有花括弧的位置這種無聊爭論了(當(dāng)然也少了不少灌水和上tiobe排名的機(jī)會).
是這優(yōu)點(diǎn), Swift 語言也使用和 Go 類似的風(fēng)格(當(dāng)然樓主也可能鄙視swift的作者).
1.2 編譯器莫名其妙地給行尾加上分號
對Go語言本身而言,行尾的分號是可以省略的。但是在其編譯器(gc)的實(shí)現(xiàn)中,為了方便編譯器開發(fā)者,卻在詞法分析階段強(qiáng)行添加了行尾的分號,反過來又影響到語言規(guī)范,對“怎樣添加分號”做出特殊規(guī)定。這種變態(tài)做法前無古人。在左花括號被意外放到下一行行首的情況下,它自動在上一行行尾添加的分號,會導(dǎo)致莫名其妙的編譯錯(cuò)誤(Go 1.0之前),連它自己都解釋不明白。如果實(shí)在處理不好分號,干脆不要省略分號得了;或者,Scala和JavaScript的編譯器是開源的,跟它們學(xué)學(xué)怎么處理省略行尾分號可以嗎?
又是樓主的 個(gè)人主觀感受, 不過我很喜歡這個(gè)特性. Swift 語言也是類似.
1.3 極度強(qiáng)調(diào)編譯速度,不惜放棄本應(yīng)提供的功能
程序員是人不是神,編碼過程中免不了因?yàn)榇笠饣蚴韬龇敢恍╁e(cuò)。其中有一些,是大家集體性的很容易就中招的錯(cuò)誤(Go語言里的例子我暫時(shí)想不起來,C++里的例子有“基類析構(gòu)函數(shù)不是虛函數(shù)”)。這時(shí)候編譯器應(yīng)該站出來,多做一些檢查、約束、核對性工作,盡量阻止常規(guī)錯(cuò)誤的發(fā)生,盡量不讓有潛在錯(cuò)誤的代碼編譯通過,必要時(shí)給出一些警告或提示,讓程序員留意。編譯器不就是機(jī)器么,不就是應(yīng)該多做臟活累活雜活、減少人的心智負(fù)擔(dān)么?編譯器多做一項(xiàng)檢查,可能會避免數(shù)十萬程序員今后多年內(nèi)無數(shù)次犯同樣的錯(cuò)誤,節(jié)省的時(shí)間不計(jì)其數(shù),這是功德無量的好事。但是Go編譯器的作者們可不這么想,他們不愿意自己多花幾個(gè)小時(shí)給編譯器增加新功能,覺得那是虧本,反而減慢了編譯速度。他們以影響編譯速度為由,拒絕了很多對編譯器改進(jìn)的要求。典型的因噎廢食。強(qiáng)調(diào)編譯速度固然值得贊賞,但如果因此放棄應(yīng)有的功能,我不贊成。
編譯速度是很重要的, 如果編譯速度夠慢, 語言再好也不會有人使用的.
比如C/C++的增量編譯/預(yù)編譯頭文件/并發(fā)編譯都是為了提高編譯速度.
Rust1.1 也號稱 比 1.0 的編譯時(shí)間減少了32% (注意: 不是運(yùn)行速度).
當(dāng)然, Go剛面世的時(shí)候, 編譯速度是其中的一個(gè)設(shè)計(jì)目標(biāo).
不過我想樓主, 可能想說的是因?yàn)榫幾g器自己添加分號而導(dǎo)致的編譯錯(cuò)誤的問題.
我覺得Go中 { 不能另起一行是語言特性, 如果修復(fù)這個(gè)就是引入了新的錯(cuò)誤.
其他的我真想不起來還有哪些 調(diào)編譯速度,不惜放棄本應(yīng)提供的功能 (不要提泛型, 那是因?yàn)檫€沒有好的設(shè)計(jì)).
1.4 錯(cuò)誤處理機(jī)制太原始
在Go語言中處理錯(cuò)誤的基本模式是:函數(shù)通常返回多個(gè)值,其中最后一個(gè)值是error類型,用于表示錯(cuò)誤類型極其描述;調(diào)用者每次調(diào)用完一個(gè)函數(shù),都需要檢查這個(gè)error并進(jìn)行相應(yīng)的錯(cuò)誤處理:if err != nil { /*這種代碼寫多了不想吐么*/ }。此模式跟C語言那種很原始的錯(cuò)誤處理相比如出一轍,并無實(shí)質(zhì)性改進(jìn)。實(shí)際應(yīng)用中很容易形成多層嵌套的if else語句,可以想一想這個(gè)編碼場景:先判斷文件是否存在,如果存在則打開文件,如果打開成功則讀取文件,如果讀取成功再寫入一段數(shù)據(jù),最后關(guān)閉文件,別忘了還要處理每一步驟中出現(xiàn)錯(cuò)誤的情況,這代碼寫出來得有多變態(tài)、多丑陋?實(shí)踐中普遍的做法是,判斷操作出錯(cuò)后提前return,以避免多層花括號嵌套,但這么做的后果是,許多錯(cuò)誤處理代碼被放在前面突出的位置,常規(guī)的處理邏輯反而被掩埋到后面去了,代碼可讀性極差。而且,error對象的標(biāo)準(zhǔn)接口只能返回一個(gè)錯(cuò)誤文本,有時(shí)候調(diào)用者為了區(qū)分不同的錯(cuò)誤類型,甚至需要解析該文本。除此之外,你只能手工強(qiáng)制轉(zhuǎn)換error類型到特定子類型(靜態(tài)類型的優(yōu)勢沒了)。至于panic - recover機(jī)制,致命的缺陷是不能跨越庫的邊界使用,注定是一個(gè)半成品,最多只能在自己的pkg里面玩一玩。Java的異常處理雖然也有自身的問題(比如Checked Exceptions),但總體上還是比Go的錯(cuò)誤處理高明很多。
話說, 軟件開發(fā)都發(fā)展了半個(gè)世紀(jì), 還是無實(shí)質(zhì)性改進(jìn). 不要以為弄一個(gè)異常的語法糖就是革命了.
我只能說錯(cuò)誤和異常是2個(gè)不同的東西, 將所有錯(cuò)誤當(dāng)作異常那是SB行為.
正因?yàn)橛挟惓_@個(gè)所謂的銀彈, 導(dǎo)致很多等著別人幫忙擦屁股的行為(注意 shit 函數(shù)拋出的絕對不會是一種類型的 shit, 而被其間接調(diào)用的各種 xxx_shit 也可能拋出各種類型的異常, 這就導(dǎo)致 catch 失控了):
int main() {
try {
shit();
} catch( /* 到底有幾千種 shit ? */) {
...
}
}
Go的建議是 panic - recover 不跨越邊界, 也就是要求正常的錯(cuò)誤要由pkg的處理掉.
這是負(fù)責(zé)任的行為.
再說Go是面向并發(fā)的編程語言, 在海量的 goroutine 中使用 try/catch 是不是有一種不倫不類的感覺呢?
1.5 垃圾回收器(GC)不完善、有重大缺陷
在Go 1.0前夕,其垃圾回收器在32位環(huán)境下有內(nèi)存泄漏,一直拖著不肯改進(jìn),這且不說。Go語言垃圾回收器真正致命的缺陷是,會導(dǎo)致整個(gè)進(jìn)程不可預(yù)知的間歇性停頓。像某些大型后臺服務(wù)程序,如游戲服務(wù)器、APP容器等,由于占用內(nèi)存巨大,其內(nèi)存對象數(shù)量極多,GC完成一次回收周期,可能需要數(shù)秒甚至更長時(shí)間,這段時(shí)間內(nèi),整個(gè)服務(wù)進(jìn)程是阻塞的、停頓的,在外界看來就是服務(wù)中斷、無響應(yīng),再牛逼的并發(fā)機(jī)制到了這里統(tǒng)統(tǒng)失效。垃圾回收器定期啟動,每次啟動就導(dǎo)致短暫的服務(wù)中斷,這樣下去,還有人敢用嗎?這可是后臺服務(wù)器進(jìn)程,是Go語言的重點(diǎn)應(yīng)用領(lǐng)域。以上現(xiàn)象可不是我假設(shè)出來的,而是事實(shí)存在的現(xiàn)實(shí)問題,受其嚴(yán)重困擾的也不是一家兩家了(2013年底ECUG Con 2013,京東的劉奇提到了Go語言的GC、defer、標(biāo)準(zhǔn)庫實(shí)現(xiàn)是性能殺手,最大的痛苦是GC;美團(tuán)的沈鋒也提到Go語言的GC導(dǎo)致后臺服務(wù)間隔性停頓是最大的問題。更早的網(wǎng)絡(luò)游戲仙俠道開發(fā)團(tuán)隊(duì)也曾受Go垃圾回收的沉重打擊)。在實(shí)踐中,你必須努力減少進(jìn)程中的對象數(shù)量,以便把GC導(dǎo)致的間歇性停頓控制在可接受范圍內(nèi)。除此之外你別無選擇(難道你還想自己更換GC算法、甚至砍掉GC?那還是Go語言嗎?)。跳出圈外,我近期一直在思考,一定需要垃圾回收器嗎?沒有垃圾回收器就一定是歷史的倒退嗎?(可能會新寫一篇博客文章專題探討。)
這是說的是32位系統(tǒng), 這絕對不是Go語言的重點(diǎn)應(yīng)用領(lǐng)域!! 我可以說Go出生就是面向64位系統(tǒng)和多核心CPU環(huán)境設(shè)計(jì)的. (再說 Rust 目前好像還不支持 XP 吧, 這可不可以算是影響巨大?)
32位當(dāng)時(shí)是有問題, 但是對實(shí)際生產(chǎn)影響并不大(請問樓主還是在用32位系統(tǒng)嗎, 還只安裝4GB的內(nèi)存嗎). 如果是8位單片機(jī)環(huán)境, 建議就不要用Go語言了, 直接C語言好了.
而且這個(gè)問題早就不存在了(大家可以去看Go的發(fā)布日志).
Go的出生也就5年時(shí)間, GC的完善和改進(jìn)是一個(gè)持續(xù)的工作, 2015年8月將發(fā)布的 Go1.5將采用并行GC.
關(guān)于GC的被人詬病的地方是會導(dǎo)致卡頓, 但是我以為這個(gè)主要是因?yàn)镚C的實(shí)現(xiàn)還不夠完美而導(dǎo)致的.
如果是完美的并發(fā)和增量的GC, 那應(yīng)該不會出現(xiàn)大的卡頓問題的.
當(dāng)然, 如果非要實(shí)時(shí)性, 那用C好了(實(shí)時(shí)并不表示性能高, 只是響應(yīng)時(shí)間可控).
對于Rust之類沒有GC的語言來說, 想很方便的開發(fā)并發(fā)的后臺程序那幾乎是不可能的.
不要總是吹Rust能代替底層/中層/上層的開發(fā), 我們要看有誰用Rust真的做了什么.
1.6 禁止未使用變量和多余import
Go編譯器不允許存在被未被使用的變量和多余的import,如果存在,必然導(dǎo)致編譯錯(cuò)誤。但是現(xiàn)實(shí)情況是,在代碼編寫、重構(gòu)、調(diào)試過程中,例如,臨時(shí)性的注釋掉一行代碼,很容易就會導(dǎo)致同時(shí)出現(xiàn)未使用的變量和多余的import,直接編譯錯(cuò)誤了,你必須相應(yīng)的把變量定義注釋掉,再翻頁回到文件首部把多余的import也注釋掉,……等事情辦完了,想把剛才注釋的代碼找回來,又要好幾個(gè)麻煩的步驟。還有一個(gè)讓人蛋疼的問題,編寫數(shù)據(jù)庫相關(guān)的代碼時(shí),如果你import某數(shù)據(jù)庫驅(qū)動的pkg,它編譯給你報(bào)錯(cuò),說不需要import這個(gè)未被使用的pkg;但如果你聽信編譯器的話刪掉該import,編譯是通過了,運(yùn)行時(shí)必然報(bào)錯(cuò),說找不到數(shù)據(jù)庫驅(qū)動;你看看程序員被折騰的兩邊不是人,最后不得不請出大神:import _。對待這種問題,一個(gè)比較好的解決方案是,視其為編譯警告而非編譯錯(cuò)誤。但是Go語言開發(fā)者很固執(zhí),不容許這種折中方案。
這個(gè)問題我只能說樓主的吐槽真的是沒水平.
為何不使用的是錯(cuò)誤而不是警告? 這是為了將低級的bug消滅在編譯階段(大家可以想下C/C++的那么多警告有什么卵用).
而且, import 即使沒有使用的話, 也是用副作用的, 因?yàn)?import 會導(dǎo)致 init 和全局變量的初始化.
如果某些代碼沒有使用, 為何要執(zhí)行 init 這些初始化呢?
如果是因?yàn)檎{(diào)試而添加的變量, 那么調(diào)試完刪除不是很正常的要求嗎?
如果是因?yàn)檎{(diào)試而要導(dǎo)入fmt或log之類的包, 刪除調(diào)試代碼后又導(dǎo)致 import 錯(cuò)誤的花,
樓主難道不知道在一個(gè)獨(dú)立的文件包裝下類似的輔助調(diào)試的函數(shù)嗎?
import (
"fmt"
"log"
)
func logf(format string, a ...interface{}) {
file, line := callerFileLine()
fmt.Fprintf(os.Stderr, "%s:%d: ", file, line)
fmt.Fprintf(os.Stderr, format, a...)
}
func fatalf(format string, a ...interface{}) {
file, line := callerFileLine()
fmt.Fprintf(os.Stderr, "%s:%d: ", file, line)
fmt.Fprintf(os.Stderr, format, a...)
os.Exit(1)
}
import _ 是有明確行為的用法, 就是為了執(zhí)行包中的 init 等函數(shù)(可以做某些注冊操作).
將警告當(dāng)作錯(cuò)誤是Go的一個(gè)哲學(xué), 當(dāng)然在樓主看來這是白癡做法.
1.7 創(chuàng)建對象的方式太多令人糾結(jié)
創(chuàng)建對象的方式,調(diào)用new函數(shù)、調(diào)用make函數(shù)、調(diào)用New方法、使用花括號語法直接初始化結(jié)構(gòu)體,你選哪一種?不好選擇,因?yàn)闆]有一個(gè)固定的模式。從實(shí)踐中看,如果要?jiǎng)?chuàng)建一個(gè)語言內(nèi)置類型(如channel、map)的對象,通常用make函數(shù)創(chuàng)建;如果要?jiǎng)?chuàng)建標(biāo)準(zhǔn)庫或第三方庫定義的類型的對象,首先要去文檔里找一下有沒有New方法,如果有就最好調(diào)用New方法創(chuàng)建對象,如果沒有New方法,則退而求其次,用初始化結(jié)構(gòu)體的方式創(chuàng)建其對象。這個(gè)過程頗為周折,不像C++、Java、C#那樣直接new就行了。
C++的new是狗屎. new導(dǎo)致的問題是構(gòu)造函數(shù)和普通函數(shù)的行為不一致, 這個(gè)補(bǔ)丁特性真的沒啥優(yōu)越的.
我還是喜歡C語言的 fopen 和 malloc 之類構(gòu)造函數(shù), 構(gòu)造函數(shù)就是普通函數(shù), Go語言中也是這樣.
C++中, 除了構(gòu)造不兼容普通函數(shù), 析構(gòu)函數(shù)也是不兼容普通函數(shù). 這個(gè)而引入的坑有很多吧.
1.8 對象沒有構(gòu)造函數(shù)和析構(gòu)函數(shù)
沒有構(gòu)造函數(shù)還好說,畢竟還有自定義的New方法,大致也算是構(gòu)造函數(shù)了。沒有析構(gòu)函數(shù)就比較難受了,沒法實(shí)現(xiàn)RAII。額外的人工處理資源清理工作,無疑加重了程序員的心智負(fù)擔(dān)。沒人性啊,還嫌我們程序員加班還少嗎?C++里有析構(gòu)函數(shù),Java里雖然沒有析構(gòu)函數(shù)但是有人家finally語句啊,Go呢,什么都沒有。沒錯(cuò),你有個(gè)defer,可是那個(gè)defer問題更大,詳見下文吧。
defer 可以覆蓋析構(gòu)函數(shù)的行為, 當(dāng)然 defer 還有其他的任務(wù). Swift2.0 也引入了一個(gè)簡化版的 defer 特性.
1.9 defer語句的語義設(shè)定不甚合理
Go語言設(shè)計(jì)defer語句的出發(fā)點(diǎn)是好的,把釋放資源的“代碼”放在靠近創(chuàng)建資源的地方,但把釋放資源的“動作”推遲(defer)到函數(shù)返回前執(zhí)行。遺憾的是其執(zhí)行時(shí)機(jī)的設(shè)置似乎有些不甚合理。設(shè)想有一個(gè)需要長期運(yùn)行的函數(shù),其中有無限循環(huán)語句,在循環(huán)體內(nèi)不斷的創(chuàng)建資源(或分配內(nèi)存),并用defer語句確保釋放。由于函數(shù)一直運(yùn)行沒有返回,所有defer語句都得不到執(zhí)行,循環(huán)過程中創(chuàng)建的大量短暫性資源一直積累著,得不到回收。而且,系統(tǒng)為了存儲defer列表還要額外占用資源,也是持續(xù)增加的。這樣下去,過不了多久,整個(gè)系統(tǒng)就要因?yàn)橘Y源耗盡而崩潰。像這類長期運(yùn)行的函數(shù),http.ListenAndServe()就是典型的例子。在Go語言重點(diǎn)應(yīng)用領(lǐng)域,可以說幾乎每一個(gè)后臺服務(wù)程序都必然有這么一類函數(shù),往往還都是程序的核心部分。如果程序員不小心在這些函數(shù)中使用了defer語句,可以說后患無窮。如果語言設(shè)計(jì)者把defer的語義設(shè)定為在所屬代碼塊結(jié)束時(shí)(而非函數(shù)返回時(shí))執(zhí)行,是不是更好一點(diǎn)呢?可是Go 1.0早已發(fā)布定型,為了保持向后兼容性,已經(jīng)不可能改變了。小心使用defer語句!一不小心就中招。
前面說到 defer 還有其他的任務(wù), 也就是 defer 中執(zhí)行的 recover 可以捕獲 panic 拋出的異常.
還有 defer 可以在 return 之后修改命名的返回值.
上面2個(gè)工作要求 defer 只能在函數(shù)退出時(shí)來執(zhí)行.
樓主說的 defer 是類似 Swift2.0 中 defer 的行為, 但是 Swift2.0 中 defer 是沒有前面2個(gè)特性的.
Go中的defer是以函數(shù)作用域作為觸發(fā)的條件的, 是會導(dǎo)致樓主說的在 for 中執(zhí)行的錯(cuò)誤用法(哪個(gè)語言沒有坑呢?).
不過 for 中 局部 defer 也是有辦法的 (Go中的defer是以函數(shù)作用域):
for {
func(){
f, err := os.Open(...)
defer f.Close()
}()
}
在 for 中做一個(gè)閉包函數(shù)就可以了. 自己不會用不要怪別人沒告訴你.
1.10 許多語言內(nèi)置設(shè)施不支持用戶定義的類型
for in、make、range、channel、map等都僅支持語言內(nèi)置類型,不支持用戶定義的類型(?)。用戶定義的類型沒法支持for in循環(huán),用戶不能編寫像make、range那樣“參數(shù)類型和個(gè)數(shù)”甚至“返回值類型和個(gè)數(shù)”都可變的函數(shù),不能編寫像channel、map那樣類似泛型的數(shù)據(jù)類型。語言內(nèi)置的那些東西,處處充斥著斧鑿的痕跡。這體現(xiàn)了語言設(shè)計(jì)的局限性、封閉性、不完善,可擴(kuò)展性差,像是新手作品——且不論其設(shè)計(jì)者和實(shí)現(xiàn)者如何權(quán)威。延伸閱讀:Go語言是30年前的陳舊設(shè)計(jì)思想,用戶定義的東西幾乎都是二等公民(Tikhon Jelvis)。
說到底, 這個(gè)是因?yàn)閷Ψ盒椭С值牟煌陚鋵?dǎo)致的.
Go語言是沒啥NB的特性, 但是Go的特性和工具組合在一起就是好用.
這就是Go語言NB的地方.
1.11 沒有泛型支持,常見數(shù)據(jù)類型接口丑陋
沒有泛型的話,List、Set、Tree這些常見的基礎(chǔ)性數(shù)據(jù)類型的接口就只能很丑陋:放進(jìn)去的對象是一個(gè)具體的類型,取出來之后成了無類型的interface{}(可以視為所有類型的基礎(chǔ)類型),還得強(qiáng)制類型轉(zhuǎn)換之后才能繼續(xù)使用,令人無語。Go語言缺少min、max這類函數(shù),求數(shù)值絕對值的函數(shù)abs只接收/返回雙精度小數(shù)類型,排序接口只能借助sort.Interface無奈的回避了被比較對象的類型,等等等等,都是沒有泛型導(dǎo)致的結(jié)果。沒有泛型,接口很難優(yōu)雅起來。Go開發(fā)者沒有明確拒絕泛型,只是說還沒有找到很好的方法實(shí)現(xiàn)泛型(能不能學(xué)學(xué)已經(jīng)開源的語言呀)。現(xiàn)實(shí)是,Go 1.0已經(jīng)定型,泛型還沒有,那些丑陋的接口為了保持向后兼容必須長期存在著。
Go有自己的哲學(xué), 如果能有和目前哲學(xué)不沖突的泛型實(shí)現(xiàn), 他們是不會反對的.
如果只是簡單學(xué)學(xué)(或者叫抄襲)已經(jīng)開源的語言的語法, 那是C++的設(shè)計(jì)風(fēng)格(或者說C++從來都是這樣設(shè)計(jì)的, 有什么特性就抄什么), 導(dǎo)致了各種腦裂的編程風(fēng)格.
編譯時(shí)泛型和運(yùn)行時(shí)泛型可能是無法完全兼容的, 看這個(gè)例子:
type AdderT interface {
Add(a, b T) T
}
正則表達(dá)式
\d代表數(shù)字, [\\d]+ 數(shù)字出現(xiàn)一次或多次,匹配數(shù)字
這句話的意思是把字符串的數(shù)字替換為空,也就是說去除所有數(shù)字
下面介紹下正則
1. 正則表達(dá)式規(guī)則
1.1 普通字符
字母、數(shù)字、漢字、下劃線、以及后邊章節(jié)中沒有特殊定義的標(biāo)點(diǎn)符號,都是"普通字符"。表達(dá)式中的普通字符,在匹配一個(gè)字符串的時(shí)候,匹配與之相同的一個(gè)字符。
舉例1:表達(dá)式 "c",在匹配字符串 "abcde" 時(shí),匹配結(jié)果是:成功;匹配到的內(nèi)容是:"c";匹配到的位置是:開始于2,結(jié)束于3。(注:下標(biāo)從0開始還是從1開始,因當(dāng)前編程語言的不同而可能不同)
舉例2:表達(dá)式 "bcd",在匹配字符串 "abcde" 時(shí),匹配結(jié)果是:成功;匹配到的內(nèi)容是:"bcd";匹配到的位置是:開始于1,結(jié)束于4。
--------------------------------------------------------------------------------
1.2 簡單的轉(zhuǎn)義字符
一些不便書寫的字符,采用在前面加 "\" 的方法。這些字符其實(shí)我們都已經(jīng)熟知了。
表達(dá)式
可匹配
\r, \n
代表回車和換行符
\t
制表符
\\
代表 "\" 本身
還有其他一些在后邊章節(jié)中有特殊用處的標(biāo)點(diǎn)符號,在前面加 "\" 后,就代表該符號本身。比如:^, $ 都有特殊意義,如果要想匹配字符串中 "^" 和 "$" 字符,則表達(dá)式就需要寫成 "\^" 和 "\$"。
表達(dá)式
可匹配
\^
匹配 ^ 符號本身
\$
匹配 $ 符號本身
\.
匹配小數(shù)點(diǎn)(.)本身
這些轉(zhuǎn)義字符的匹配方法與 "普通字符" 是類似的。也是匹配與之相同的一個(gè)字符。
舉例1:表達(dá)式 "\$d",在匹配字符串 "abc$de" 時(shí),匹配結(jié)果是:成功;匹配到的內(nèi)容是:"$d";匹配到的位置是:開始于3,結(jié)束于5。
--------------------------------------------------------------------------------
1.3 能夠與 '多種字符' 匹配的表達(dá)式
正則表達(dá)式中的一些表示方法,可以匹配 '多種字符' 其中的任意一個(gè)字符。比如,表達(dá)式 "\d" 可以匹配任意一個(gè)數(shù)字。雖然可以匹配其中任意字符,但是只能是一個(gè),不是多個(gè)。這就好比玩撲克牌時(shí)候,大小王可以代替任意一張牌,但是只能代替一張牌。
表達(dá)式
可匹配
\d
任意一個(gè)數(shù)字,0~9 中的任意一個(gè)
\w
任意一個(gè)字母或數(shù)字或下劃線,也就是 A~Z,a~z,0~9,_ 中任意一個(gè)
\s
包括空格、制表符、換頁符等空白字符的其中任意一個(gè)
.
小數(shù)點(diǎn)可以匹配除了換行符(\n)以外的任意一個(gè)字符
舉例1:表達(dá)式 "\d\d",在匹配 "abc123" 時(shí),匹配的結(jié)果是:成功;匹配到的內(nèi)容是:"12";匹配到的位置是:開始于3,結(jié)束于5。
舉例2:表達(dá)式 "a.\d",在匹配 "aaa100" 時(shí),匹配的結(jié)果是:成功;匹配到的內(nèi)容是:"aa1";匹配到的位置是:開始于1,結(jié)束于4。
--------------------------------------------------------------------------------
1.4 自定義能夠匹配 '多種字符' 的表達(dá)式
使用方括號 [ ] 包含一系列字符,能夠匹配其中任意一個(gè)字符。用 [^ ] 包含一系列字符,則能夠匹配其中字符之外的任意一個(gè)字符。同樣的道理,雖然可以匹配其中任意一個(gè),但是只能是一個(gè),不是多個(gè)。
表達(dá)式
可匹配
[ab5@]
匹配 "a" 或 "b" 或 "5" 或 "@"
[^abc]
匹配 "a","b","c" 之外的任意一個(gè)字符
[f-k]
匹配 "f"~"k" 之間的任意一個(gè)字母
[^A-F0-3]
匹配 "A"~"F","0"~"3" 之外的任意一個(gè)字符
舉例1:表達(dá)式 "[bcd][bcd]" 匹配 "abc123" 時(shí),匹配的結(jié)果是:成功;匹配到的內(nèi)容是:"bc";匹配到的位置是:開始于1,結(jié)束于3。
舉例2:表達(dá)式 "[^abc]" 匹配 "abc123" 時(shí),匹配的結(jié)果是:成功;匹配到的內(nèi)容是:"1";匹配到的位置是:開始于3,結(jié)束于4。
--------------------------------------------------------------------------------
1.5 修飾匹配次數(shù)的特殊符號
前面章節(jié)中講到的表達(dá)式,無論是只能匹配一種字符的表達(dá)式,還是可以匹配多種字符其中任意一個(gè)的表達(dá)式,都只能匹配一次。如果使用表達(dá)式再加上修飾匹配次數(shù)的特殊符號,那么不用重復(fù)書寫表達(dá)式就可以重復(fù)匹配。
使用方法是:"次數(shù)修飾"放在"被修飾的表達(dá)式"后邊。比如:"[bcd][bcd]" 可以寫成 "[bcd]{2}"。
表達(dá)式
作用
{n}
表達(dá)式重復(fù)n次,比如:"\w{2}" 相當(dāng)于 "\w\w";"a{5}" 相當(dāng)于 "aaaaa"
{m,n}
表達(dá)式至少重復(fù)m次,最多重復(fù)n次,比如:"ba{1,3}"可以匹配 "ba"或"baa"或"baaa"
{m,}
表達(dá)式至少重復(fù)m次,比如:"\w\d{2,}"可以匹配 "a12","_456","M12344"...
?
匹配表達(dá)式0次或者1次,相當(dāng)于 {0,1},比如:"a[cd]?"可以匹配 "a","ac","ad"
+
表達(dá)式至少出現(xiàn)1次,相當(dāng)于 {1,},比如:"a+b"可以匹配 "ab","aab","aaab"...
*
表達(dá)式不出現(xiàn)或出現(xiàn)任意次,相當(dāng)于 {0,},比如:"\^*b"可以匹配 "b","^^^b"...
舉例1:表達(dá)式 "\d+\.?\d*" 在匹配 "It costs $12.5" 時(shí),匹配的結(jié)果是:成功;匹配到的內(nèi)容是:"12.5";匹配到的位置是:開始于10,結(jié)束于14。
舉例2:表達(dá)式 "go{2,8}gle" 在匹配 "Ads by goooooogle" 時(shí),匹配的結(jié)果是:成功;匹配到的內(nèi)容是:"goooooogle";匹配到的位置是:開始于7,結(jié)束于17。
--------------------------------------------------------------------------------
1.6 其他一些代表抽象意義的特殊符號
一些符號在表達(dá)式中代表抽象的特殊意義:
表達(dá)式
作用
^
與字符串開始的地方匹配,不匹配任何字符
$
與字符串結(jié)束的地方匹配,不匹配任何字符
\b
匹配一個(gè)單詞邊界,也就是單詞和空格之間的位置,不匹配任何字符
進(jìn)一步的文字說明仍然比較抽象,因此,舉例幫助大家理解。
舉例1:表達(dá)式 "^aaa" 在匹配 "xxx aaa xxx" 時(shí),匹配結(jié)果是:失敗。因?yàn)?"^" 要求與字符串開始的地方匹配,因此,只有當(dāng) "aaa" 位于字符串的開頭的時(shí)候,"^aaa" 才能匹配,比如:"aaa xxx xxx"。
舉例2:表達(dá)式 "aaa$" 在匹配 "xxx aaa xxx" 時(shí),匹配結(jié)果是:失敗。因?yàn)?"$" 要求與字符串結(jié)束的地方匹配,因此,只有當(dāng) "aaa" 位于字符串的結(jié)尾的時(shí)候,"aaa$" 才能匹配,比如:"xxx xxx aaa"。
舉例3:表達(dá)式 ".\b." 在匹配 "@@@abc" 時(shí),匹配結(jié)果是:成功;匹配到的內(nèi)容是:"@a";匹配到的位置是:開始于2,結(jié)束于4。
進(jìn)一步說明:"\b" 與 "^" 和 "$" 類似,本身不匹配任何字符,但是它要求它在匹配結(jié)果中所處位置的左右兩邊,其中一邊是 "\w" 范圍,另一邊是 非"\w" 的范圍。
舉例4:表達(dá)式 "\bend\b" 在匹配 "weekend,endfor,end" 時(shí),匹配結(jié)果是:成功;匹配到的內(nèi)容是:"end";匹配到的位置是:開始于15,結(jié)束于18。
一些符號可以影響表達(dá)式內(nèi)部的子表達(dá)式之間的關(guān)系:
表達(dá)式
作用
|
左右兩邊表達(dá)式之間 "或" 關(guān)系,匹配左邊或者右邊
( )
(1). 在被修飾匹配次數(shù)的時(shí)候,括號中的表達(dá)式可以作為整體被修飾
(2). 取匹配結(jié)果的時(shí)候,括號中的表達(dá)式匹配到的內(nèi)容可以被單獨(dú)得到
舉例5:表達(dá)式 "Tom|Jack" 在匹配字符串 "I'm Tom, he is Jack" 時(shí),匹配結(jié)果是:成功;匹配到的內(nèi)容是:"Tom";匹配到的位置是:開始于4,結(jié)束于7。匹配下一個(gè)時(shí),匹配結(jié)果是:成功;匹配到的內(nèi)容是:"Jack";匹配到的位置時(shí):開始于15,結(jié)束于19。
舉例6:表達(dá)式 "(go\s*)+" 在匹配 "Let's go go go!" 時(shí),匹配結(jié)果是:成功;匹配到內(nèi)容是:"go go go";匹配到的位置是:開始于6,結(jié)束于14。
舉例7:表達(dá)式 "¥(\d+\.?\d*)" 在匹配 "$10.9,¥20.5" 時(shí),匹配的結(jié)果是:成功;匹配到的內(nèi)容是:"¥20.5";匹配到的位置是:開始于6,結(jié)束于10。單獨(dú)獲取括號范圍匹配到的內(nèi)容是:"20.5"。
--------------------------------------------------------------------------------
2. 正則表達(dá)式中的一些高級規(guī)則
2.1 匹配次數(shù)中的貪婪與非貪婪
在使用修飾匹配次數(shù)的特殊符號時(shí),有幾種表示方法可以使同一個(gè)表達(dá)式能夠匹配不同的次數(shù),比如:"{m,n}", "{m,}", "?", "*", "+",具體匹配的次數(shù)隨被匹配的字符串而定。這種重復(fù)匹配不定次數(shù)的表達(dá)式在匹配過程中,總是盡可能多的匹配。比如,針對文本 "dxxxdxxxd",舉例如下:
表達(dá)式
匹配結(jié)果
(d)(\w+)
"\w+" 將匹配第一個(gè) "d" 之后的所有字符 "xxxdxxxd"
(d)(\w+)(d)
"\w+" 將匹配第一個(gè) "d" 和最后一個(gè) "d" 之間的所有字符 "xxxdxxx"。雖然 "\w+" 也能夠匹配上最后一個(gè) "d",但是為了使整個(gè)表達(dá)式匹配成功,"\w+" 可以 "讓出" 它本來能夠匹配的最后一個(gè) "d"
由此可見,"\w+" 在匹配的時(shí)候,總是盡可能多的匹配符合它規(guī)則的字符。雖然第二個(gè)舉例中,它沒有匹配最后一個(gè) "d",但那也是為了讓整個(gè)表達(dá)式能夠匹配成功。同理,帶 "*" 和 "{m,n}" 的表達(dá)式都是盡可能地多匹配,帶 "?" 的表達(dá)式在可匹配可不匹配的時(shí)候,也是盡可能的 "要匹配"。這 種匹配原則就叫作 "貪婪" 模式 。
非貪婪模式:
在修飾匹配次數(shù)的特殊符號后再加上一個(gè) "?" 號,則可以使匹配次數(shù)不定的表達(dá)式盡可能少的匹配,使可匹配可不匹配的表達(dá)式,盡可能的 "不匹配"。這種匹配原則叫作 "非貪婪" 模式,也叫作 "勉強(qiáng)" 模式。如果少匹配就會導(dǎo)致整個(gè)表達(dá)式匹配失敗的時(shí)候,與貪婪模式類似,非貪婪模式會最小限度的再匹配一些,以使整個(gè)表達(dá)式匹配成功。舉例如下,針對文本 "dxxxdxxxd" 舉例:
表達(dá)式
匹配結(jié)果
(d)(\w+?)
"\w+?" 將盡可能少的匹配第一個(gè) "d" 之后的字符,結(jié)果是:"\w+?" 只匹配了一個(gè) "x"
(d)(\w+?)(d)
為了讓整個(gè)表達(dá)式匹配成功,"\w+?" 不得不匹配 "xxx" 才可以讓后邊的 "d" 匹配,從而使整個(gè)表達(dá)式匹配成功。因此,結(jié)果是:"\w+?" 匹配 "xxx"
更多的情況,舉例如下:
舉例1:表達(dá)式 "td(.*)/td" 與字符串 "tdpaa/p/td tdpbb/p/td" 匹配時(shí),匹配的結(jié)果是:成功;匹配到的內(nèi)容是 "tdpaa/p/td tdpbb/p/td" 整個(gè)字符串, 表達(dá)式中的 "/td" 將與字符串中最后一個(gè) "/td" 匹配。
舉例2:相比之下,表達(dá)式 "td(.*?)/td" 匹配舉例1中同樣的字符串時(shí),將只得到 "tdpaa/p/td", 再次匹配下一個(gè)時(shí),可以得到第二個(gè) "tdpbb/p/td"。
--------------------------------------------------------------------------------
2.2 反向引用 \1, \2...
表達(dá)式在匹配時(shí),表達(dá)式引擎會將小括號 "( )" 包含的表達(dá)式所匹配到的字符串記錄下來。在獲取匹配結(jié)果的時(shí)候,小括號包含的表達(dá)式所匹配到的字符串可以單獨(dú)獲取。這一點(diǎn),在前面的舉例中,已經(jīng)多次展示了。在實(shí)際應(yīng)用場合中,當(dāng)用某種邊界來查找,而所要獲取的內(nèi)容又不包含邊界時(shí),必須使用小括號來指定所要的范圍。比如前面的 "td(.*?)/td"。
其實(shí),"小括號包含的表達(dá)式所匹配到的字符串" 不僅是在匹配結(jié)束后才可以使用,在匹配過程中也可以使用。表達(dá)式后邊的部分,可以引用前面 "括號內(nèi)的子匹配已經(jīng)匹配到的字符串"。引用方法是 "\" 加上一個(gè)數(shù)字。"\1" 引用第1對括號內(nèi)匹配到的字符串,"\2" 引用第2對括號內(nèi)匹配到的字符串……以此類推,如果一對括號內(nèi)包含另一對括號,則外層的括號先排序號。換句話說,哪一對的左括號 "(" 在前,那這一對就先排序號。
舉例如下:
舉例1:表達(dá)式 "('|")(.*?)(\1)" 在匹配 " 'Hello', "World" " 時(shí),匹配結(jié)果是:成功;匹配到的內(nèi)容是:" 'Hello' "。再次匹配下一個(gè)時(shí),可以匹配到 " "World" "。
舉例2:表達(dá)式 "(\w)\1{4,}" 在匹配 "aa bbbb abcdefg ccccc 111121111 999999999" 時(shí),匹配結(jié)果是:成功;匹配到的內(nèi)容是 "ccccc"。再次匹配下一個(gè)時(shí),將得到 999999999。這個(gè)表達(dá)式要求 "\w" 范圍的字符至少重復(fù)5次,注意與 "\w{5,}" 之間的區(qū)別。
舉例3:表達(dá)式 "(\w+)\s*(\w+(=('|").*?\4)?\s*)*.*?/\1" 在匹配 "td id='td1' style="bgcolor:white"/td" 時(shí),匹配結(jié)果是成功。如果 "td" 與 "/td" 不配對,則會匹配失敗;如果改成其他配對,也可以匹配成功。
--------------------------------------------------------------------------------
2.3 預(yù)搜索,不匹配;反向預(yù)搜索,不匹配
前面的章節(jié)中,我講到了幾個(gè)代表抽象意義的特殊符號:"^","$","\b"。它們都有一個(gè)共同點(diǎn),那就是:它們本身不匹配任何字符,只是對 "字符串的兩頭" 或者 "字符之間的縫隙" 附加了一個(gè)條件。理解到這個(gè)概念以后,本節(jié)將繼續(xù)介紹另外一種對 "兩頭" 或者 "縫隙" 附加條件的,更加靈活的表示方法。
正向預(yù)搜索:"(?=xxxxx)","(?!xxxxx)"
格式:"(?=xxxxx)",在被匹配的字符串中,它對所處的 "縫隙" 或者 "兩頭" 附加的條件是:所在縫隙的右側(cè),必須能夠匹配上 xxxxx 這部分的表達(dá)式。因?yàn)樗皇窃诖俗鳛檫@個(gè)縫隙上附加的條件,所以它并不影響后邊的表達(dá)式去真正匹配這個(gè)縫隙之后的字符。這就類似 "\b",本身不匹配任何字符。"\b" 只是將所在縫隙之前、之后的字符取來進(jìn)行了一下判斷,不會影響后邊的表達(dá)式來真正的匹配。
舉例1:表達(dá)式 "Windows (?=NT|XP)" 在匹配 "Windows 98, Windows NT, Windows 2000" 時(shí),將只匹配 "Windows NT" 中的 "Windows ",其他的 "Windows " 字樣則不被匹配。
舉例2:表達(dá)式 "(\w)((?=\1\1\1)(\1))+" 在匹配字符串 "aaa ffffff 999999999" 時(shí),將可以匹配6個(gè)"f"的前4個(gè),可以匹配9個(gè)"9"的前7個(gè)。這個(gè)表達(dá)式可以讀解成:重復(fù)4次以上的字母數(shù)字,則匹配其剩下最后2位之前的部分。當(dāng)然,這個(gè)表達(dá)式可以不這樣寫,在此的目的是作為演示之用。
格式:"(?!xxxxx)",所在縫隙的右側(cè),必須不能匹配 xxxxx 這部分表達(dá)式。
舉例3:表達(dá)式 "((?!\bstop\b).)+" 在匹配 "fdjka ljfdl stop fjdsla fdj" 時(shí),將從頭一直匹配到 "stop" 之前的位置,如果字符串中沒有 "stop",則匹配整個(gè)字符串。
舉例4:表達(dá)式 "do(?!\w)" 在匹配字符串 "done, do, dog" 時(shí),只能匹配 "do"。在本條舉例中,"do" 后邊使用 "(?!\w)" 和使用 "\b" 效果是一樣的。
反向預(yù)搜索:"(?=xxxxx)","(?!xxxxx)"
這兩種格式的概念和正向預(yù)搜索是類似的,反向預(yù)搜索要求的條件是:所在縫隙的 "左側(cè)",兩種格式分別要求必須能夠匹配和必須不能夠匹配指定表達(dá)式,而不是去判斷右側(cè)。與 "正向預(yù)搜索" 一樣的是:它們都是對所在縫隙的一種附加條件,本身都不匹配任何字符。
舉例5:表達(dá)式 "(?=\d{4})\d+(?=\d{4})" 在匹配 "1234567890123456" 時(shí),將匹配除了前4個(gè)數(shù)字和后4個(gè)數(shù)字之外的中間8個(gè)數(shù)字。由于 JScript.RegExp 不支持反向預(yù)搜索,因此,本條舉例不能夠進(jìn)行演示。很多其他的引擎可以支持反向預(yù)搜索,比如:Java 1.4 以上的 java.util.regex 包,.NET 中System.Text.RegularExpressions 命名空間,以及本站推薦的最簡單易用的 DEELX 正則引擎。
--------------------------------------------------------------------------------
3. 其他通用規(guī)則
還有一些在各個(gè)正則表達(dá)式引擎之間比較通用的規(guī)則,在前面的講解過程中沒有提到。
3.1 表達(dá)式中,可以使用 "\xXX" 和 "\uXXXX" 表示一個(gè)字符("X" 表示一個(gè)十六進(jìn)制數(shù))
形式
字符范圍
\xXX
編號在 0 ~ 255 范圍的字符,比如:空格可以使用 "\x20" 表示
\uXXXX
任何字符可以使用 "\u" 再加上其編號的4位十六進(jìn)制數(shù)表示,比如:"\u4E2D"
3.2 在表達(dá)式 "\s","\d","\w","\b" 表示特殊意義的同時(shí),對應(yīng)的大寫字母表示相反的意義
表達(dá)式
可匹配
\S
匹配所有非空白字符("\s" 可匹配各個(gè)空白字符)
\D
匹配所有的非數(shù)字字符
\W
匹配所有的字母、數(shù)字、下劃線以外的字符
\B
匹配非單詞邊界,即左右兩邊都是 "\w" 范圍或者左右兩邊都不是 "\w" 范圍時(shí)的字符縫隙
3.3 在表達(dá)式中有特殊意義,需要添加 "\" 才能匹配該字符本身的字符匯總
字符
說明
^
匹配輸入字符串的開始位置。要匹配 "^" 字符本身,請使用 "\^"
$
匹配輸入字符串的結(jié)尾位置。要匹配 "$" 字符本身,請使用 "\$"
( )
標(biāo)記一個(gè)子表達(dá)式的開始和結(jié)束位置。要匹配小括號,請使用 "\(" 和 "\)"
[ ]
用來自定義能夠匹配 '多種字符' 的表達(dá)式。要匹配中括號,請使用 "\[" 和 "\]"
{ }
修飾匹配次數(shù)的符號。要匹配大括號,請使用 "\{" 和 "\}"
.
匹配除了換行符(\n)以外的任意一個(gè)字符。要匹配小數(shù)點(diǎn)本身,請使用 "\."
?
修飾匹配次數(shù)為 0 次或 1 次。要匹配 "?" 字符本身,請使用 "\?"
+
修飾匹配次數(shù)為至少 1 次。要匹配 "+" 字符本身,請使用 "\+"
*
修飾匹配次數(shù)為 0 次或任意次。要匹配 "*" 字符本身,請使用 "\*"
|
左右兩邊表達(dá)式之間 "或" 關(guān)系。匹配 "|" 本身,請使用 "\|"
3.4 括號 "( )" 內(nèi)的子表達(dá)式,如果希望匹配結(jié)果不進(jìn)行記錄供以后使用,可以使用 "(?:xxxxx)" 格式
舉例1:表達(dá)式 "(?:(\w)\1)+" 匹配 "a bbccdd efg" 時(shí),結(jié)果是 "bbccdd"。括號 "(?:)" 范圍的匹配結(jié)果不進(jìn)行記錄,因此 "(\w)" 使用 "\1" 來引用。
3.5 常用的表達(dá)式屬性設(shè)置簡介:Ignorecase,Singleline,Multiline,Global
表達(dá)式屬性
說明
Ignorecase
默認(rèn)情況下,表達(dá)式中的字母是要區(qū)分大小寫的。配置為 Ignorecase 可使匹配時(shí)不區(qū)分大小寫。有的表達(dá)式引擎,把 "大小寫" 概念延伸至 UNICODE 范圍的大小寫。
Singleline
默認(rèn)情況下,小數(shù)點(diǎn) "." 匹配除了換行符(\n)以外的字符。配置為 Singleline 可使小數(shù)點(diǎn)可匹配包括換行符在內(nèi)的所有字符。
Multiline
默認(rèn)情況下,表達(dá)式 "^" 和 "$" 只匹配字符串的開始 ① 和結(jié)尾 ④ 位置。如:
①xxxxxxxxx②\n
③xxxxxxxxx④
配置為 Multiline 可以使 "^" 匹配 ① 外,還可以匹配換行符之后,下一行開始前 ③ 的位置,使 "$" 匹配 ④ 外,還可以匹配換行符之前,一行結(jié)束 ② 的位置。
Global
主要在將表達(dá)式用來替換時(shí)起作用,配置為 Global 表示替換所有的匹配。
--------------------------------------------------------------------------------
4. 其他提示
4.1 如果想要了解高級的正則引擎還支持那些復(fù)雜的正則語法,可參見本站 DEELX 正則引擎的說明文檔。
4.2 如果要要求表達(dá)式所匹配的內(nèi)容是整個(gè)字符串,而不是從字符串中找一部分,那么可以在表達(dá)式的首尾使用 "^" 和 "$",比如:"^\d+$" 要求整個(gè)字符串只有數(shù)字。
4.3 如果要求匹配的內(nèi)容是一個(gè)完整的單詞,而不會是單詞的一部分,那么在表達(dá)式首尾使用 "\b",比如:使用 "\b(if|while|else|void|int……)\b" 來匹配程序中的關(guān)鍵字。
4.4 表達(dá)式不要匹配空字符串。否則會一直得到匹配成功,而結(jié)果什么都沒有匹配到。比如:準(zhǔn)備寫一個(gè)匹配 "123"、"123."、"123.5"、".5" 這幾種形式的表達(dá)式時(shí),整數(shù)、小數(shù)點(diǎn)、小數(shù)數(shù)字都可以省略,但是不要將表達(dá)式寫成:"\d*\.?\d*",因?yàn)槿绻裁炊紱]有,這個(gè)表達(dá)式也可以匹配成功。更好的寫法是:"\d+\.?\d*|\.\d+"。
4.5 能匹配空字符串的子匹配不要循環(huán)無限次。如果括號內(nèi)的子表達(dá)式中的每一部分都可以匹配 0 次,而這個(gè)括號整體又可以匹配無限次,那么情況可能比上一條所說的更嚴(yán)重,匹配過程中可能死循環(huán)。雖然現(xiàn)在有些正則表達(dá)式引擎已經(jīng)通過辦法避免了這種情況出現(xiàn)死循環(huán)了,比如 .NET 的正則表達(dá)式,但是我們?nèi)匀粦?yīng)該盡量避免出現(xiàn)這種情況。如果我們在寫表達(dá)式時(shí)遇到了死循環(huán),也可以從這一點(diǎn)入手,查找一下是否是本條所說的原因。
4.6 合理選擇貪婪模式與非貪婪模式,參見話題討論。
4.7 或 "|" 的左右兩邊,對某個(gè)字符最好只有一邊可以匹配,這樣,不會因?yàn)?"|" 兩邊的表達(dá)式因?yàn)榻粨Q位置而有所不同。
go語言有支持正則表達(dá)式后向引用的方法,方法如下
package main
import (
"fmt"
"os"
"path/filepath"
"regexp"
)
func main() {
// 命令行參數(shù)
args := os.Args
// 檢查參數(shù)
if len(args) == 1 {
fmt.Println("ff is a file find tool. use like bottom")
fmt.Println("ff [dir] [regexp]")
return
}
if len(args) 3 {
fmt.Println("args 3")
return
}
fileName := args[1]
pattern := args[2]
file, err := os.Open(fileName)
if err != nil {
fmt.Println(err)
return
}
fi, err := file.Stat()
if err != nil {
fmt.Println(err)
return
}
if !fi.IsDir() {
fmt.Println(fileName, " is not a dir")
}
reg, err := regexp.Compile(pattern)
if err != nil {
fmt.Println(err)
return
}
// 遍歷目錄
filepath.Walk(fileName,
func(path string, f os.FileInfo, err error) error {
if err != nil {
fmt.Println(err)
return err
}
if f.IsDir() {
return nil
}
// 匹配目錄
matched := reg.MatchString(f.Name())
if matched {
fmt.Println(path)
}
return nil
})
}