最近遇到很多人問我圖像分割技術(shù)發(fā)展怎么樣了,落地了嗎?有三只想說,豈止落地了,都貼在地上摩擦了。老規(guī)矩,分幾塊說起。
成都創(chuàng)新互聯(lián)公司是專業(yè)的龍文網(wǎng)站建設(shè)公司,龍文接單;提供做網(wǎng)站、網(wǎng)站設(shè)計,網(wǎng)頁設(shè)計,網(wǎng)站設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行龍文網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊,希望更多企業(yè)前來合作!
想當(dāng)年,大學(xué)的時候。同學(xué)們進(jìn)進(jìn)出出圖書館,手里揣著的都是什么微積分,明朝那些事兒之類的書。而我?guī)啄晗聛?,全是adobe photoshop,adobe premiere,adobe after effects,adobe flash,總之就是adobe全家桶。別人在網(wǎng)吧打游戲,我經(jīng)常鼓搗七八個小時的 繪聲繪影,premiere,nero等等。
要不是因為窮,就去武大修動漫雙學(xué)位了,日語二級都考好了,這會兒可能奔我的玄機(jī)科技去了,哪里還在這里碼代碼。
扯的貌似有點遠(yuǎn),只想說和音視頻早已經(jīng)建立了割不斷的聯(lián)系。
回歸正題。當(dāng)年學(xué)Adobe,最喜歡玩的就是摳圖,磁性套索一度讓我不可自拔,那對我而言就是圖像分割技術(shù)的啟蒙了。
到后來從傳統(tǒng)方法搞到cnn,一直未曾脫離關(guān)系。
這一次,咱不談高深的技術(shù),而是談歷史,談故事,說的輕松一點,盡量短一些,畢竟長文讀著累,留幾手,下次說。
圖像處理算法都是從傳統(tǒng)方法開始的,我們就簡單理解為非深度學(xué)習(xí)的方法吧。
圖像分割是什么?如果下學(xué)術(shù)定義,就是把圖像分割成想要的語義上相同的若干子區(qū)域,看上面的自動駕駛的分割任務(wù),路是路,車是車,樹是樹。
這些子區(qū)域,組成圖像的完備子集,相互之間不重疊。圖像分割可以被看作是一個逐像素的圖像分類問題
沒有深度學(xué)習(xí)的那些年,也發(fā)展出了非常多的圖像分割技術(shù),下面挑重點長話短說。
2.1 邊緣與閾值法
簡單的邊緣檢測也曾被用于圖像分割,但是因為要做復(fù)雜后處理以及后面和其他方法有重疊,這里就不再說了,而是從閾值法開始說。
閾值法的基本思想是基于圖像的灰度特征來計算一個或多個灰度閾值,并將圖像中每個像素的灰度值與閾值相比較。
其中,最廣泛使用也最具有代表性質(zhì)就是OTSU【1】方法,它是用于灰度圖像分割的方法,核心思想就是使 類間方差最大。
這樣的方法,非常簡單,要求被分割的物體顏色紋理比較緊湊,類內(nèi)方差小,只適合一些文本圖像的處理,比如車牌,比如指紋。
如果感興趣,有很多的綜述的,大家可以去關(guān)注。雖然簡單,讀研時也用它水了一篇文章和專利。
2.2 區(qū)域增長,分裂
閾值法的一個硬傷是太粗暴簡單,哪怕是自適應(yīng)的局部閾值法,一樣難逃無法分割類內(nèi)方差較大的目標(biāo)的宿命。它完全沒有利用好像素的空間信息,導(dǎo)致分割結(jié)果極其容易受噪聲干擾,經(jīng)常出現(xiàn)斷裂的邊緣,需要后處理。
所以, 區(qū)域生長法出現(xiàn)了,它通過一些種子點,再加上相似性準(zhǔn)則來不斷擴(kuò)充區(qū)域直到達(dá)到類別的邊界,這時候分割結(jié)果是連續(xù)的了。
區(qū)域分裂則是反過程,不再詳述。區(qū)域增長法的佼佼者,就是分水嶺算法【2】。
分水嶺算法是一種基于拓?fù)淅碚摰臄?shù)學(xué)形態(tài)學(xué)的分割方法,將圖像中每一點像素的灰度值表示該點的海拔高度,每一個局部極小值稱為集水盆,而集水盆的邊界則是分水嶺。分水嶺算法有很多種實現(xiàn)算法,常用浸水模擬法。
分水嶺算法對于弱邊緣有不錯的響應(yīng),因此常被用于材料圖像的分割,以及產(chǎn)生超像素用于提高其他方法的分割效率。咱在碩士期間也與師姐鼓搗過半導(dǎo)體材料的分割,還不錯。
說到這里,超像素也是很重要的一種方法,某種程度上也能被歸為圖像分割的方法。SLIC,Meanshift等都是非常經(jīng)典的方法,去文【3】中做更詳細(xì)解讀吧。筆者在很多的實際項目中都使用過,配合下面要講的方法一起使用,絕配。
2.3 圖割
以graphcut【4】為代表的圖割方法,是傳統(tǒng)圖像分割里面魯棒性最好的方法,它是一種概率無向圖模型(Probabilistic undirected graphical model),又被稱Markov random field馬爾可夫隨機(jī)場。
Graphcut的基本思路,就是建立一張圖,看下面這張圖,其中以圖像像素或者超像素作為圖像頂點,然后優(yōu)化的目標(biāo)就是要找到一個切割,使得各個子圖不相連從而實現(xiàn)分割,前提是移除邊的和權(quán)重最小。
后來圖割方法從MRF發(fā)展到CRF,也就是條件隨機(jī)場。它通常包含兩個優(yōu)化目標(biāo),一個是區(qū)域的相似度,被稱為區(qū)域能量項,即piecewise能量。一個是被切斷邊的相似度,被稱為邊緣能量項,即pairwise能量。它追求區(qū)域能量項的最大化以及邊緣能量的最小化,也就是 區(qū)域內(nèi)部越相似越好,區(qū)域間相似度越低越好。
圖割方法很通用,對于紋理比較復(fù)雜的圖像分割效果也不錯。缺點是時間復(fù)雜度和空間復(fù)雜度較高,所以通常使用超像素進(jìn)行加速計算,上面的分水嶺算法就可以拿來用用。
graphcut的迭代版本,也就是grabcut【5】更好用,它的基本思路是;使用混合高斯 模型(Gaussian Mixture Model,GMM)替代了graphcut基于灰度的模型,初始的混合高斯模型的構(gòu)建,通過用戶交互來指定,只需要指定確定性的背景像素區(qū)域即可,通常是畫一個框。
多年以后再看下面這張圖,效果依然是驚艷的,邊緣很不錯。不像上面的幾個方法,圖割方法仍然被廣泛使用,deeplab系列的前幾篇文章就用到了全連接的crf,它與mrf的區(qū)別可以參考這篇文章【Discriminative fields for modeling spatial dependencies in natural images】。
圖割方法很好用,是每個想做圖像分割的同學(xué)必須掌握的,我從碩士論文,從第一個實習(xí)項目一直用到了現(xiàn)在。
2.4 輪廓模型
輪廓模型大部分人可能不知道,它的 基本思想是使用連續(xù)曲線來表達(dá)目標(biāo)輪廓,并定義一個能量泛函,其自變量為曲線,將分割過程轉(zhuǎn)變?yōu)榍蠼饽芰糠汉淖钚≈档倪^程。數(shù)值實現(xiàn)可通過求解函數(shù)對應(yīng)的歐拉(Euler-Lagrange)方程來實現(xiàn)。包括以snake模型為代表的參數(shù)活動輪廓模型和以水平集方法為代表的幾何活動輪廓模型。
當(dāng)能量達(dá)到最小時的,曲線位置就處于正確的目標(biāo)輪廓。
該類分割方法具有幾個顯著的特點:(1)由于能量泛函是在連續(xù)狀態(tài)下實現(xiàn),所以最終得到的圖像輪廓可以達(dá)到較高的精度;(2)通過約束目標(biāo)輪廓為光滑,同時融入其它關(guān)于目標(biāo)形狀的先驗信息,算法可以具有較強(qiáng)的魯棒性;(3)使用光滑的閉合曲線表示物體的輪廓,可獲取完整的輪廓,從而避免傳統(tǒng)圖像分割方法中的預(yù)/后處理過程。
不過,缺點也很明顯,比較敏感,容易陷入局部極值。
下面是我的碩士論文【6】中采用水平集方法分割出的腫瘤,就是白色那一塊。這個方法的數(shù)學(xué)味有點濃,考慮到咱們是閑聊,就不擺公式了,畢竟后面還有很多事。
傳統(tǒng)方法遠(yuǎn)不止于此,但是我們應(yīng)該接著說深度學(xué)習(xí)的方法了。
大家認(rèn)可的第一篇采用深度學(xué)習(xí)方法來做圖像分割的是FCN【7】。分類任務(wù)到了最后,圖像被表征成了一個一維的向量,而分割任務(wù)則需要恢復(fù)一張與原圖大小相等的圖,所以全連接自然是不行了。
不可免俗也放這張圖,說的是在從最小分辨率的featuremap上采樣的過程中,融合了卷積過程中同一分辨率大小的特征圖。這種將網(wǎng)絡(luò)淺層和深層信息融合的思想是分割網(wǎng)絡(luò)的必備了,關(guān)于網(wǎng)絡(luò)的結(jié)構(gòu),其實我們看segnet【8】會更有感覺,對稱,優(yōu)美,更符合我的審美。
有了FCN之后,各路方法大顯神通。 不同的上采樣方法,帶孔卷積等增加感受野的方法,圖片與特征的多尺度信息融合,增加crf等后處理方法。
萬變不離其宗,最終分割結(jié)果的好壞往往取決于網(wǎng)絡(luò)的表征能力,問題的簡化,以及好的標(biāo)注數(shù)據(jù)。刷比賽的那些技巧,我也不豐富就不多說了。
更多的細(xì)節(jié),先按下不表,下一期專門講,如果等不及,看文【9】,上個圖先簡單的爽上一爽。
我們前面說的,都還是將分割當(dāng)成一個分類問題來解讀的,就是每個像素要被歸為明確的類別。
然而分割的終極目標(biāo)不只這一個,比如為了做背景替換的摳圖這件事。
二分類的問題,前背景能完美融合才怪,經(jīng)不起仔細(xì)觀察。所以,我們 需要帶透明度通道的分割,或者先分割出來再利用泊松融合等技術(shù)進(jìn)行邊緣融合。
這就是一個image matting問題。image matting問題可以用一個簡單的數(shù)學(xué)表達(dá)式表達(dá),I = aF + (1-a)B,其中F是前景,B是背景,a是透明度, 一張圖可以看作是在透明度圖像的控制下,前景和背景的線性融合。
只是,解這個問題有點病態(tài),對于三通道的RGB圖像,只有3個方程,卻需要解出6個變量。所以像closed matting等方法都要做局部區(qū)域顏色不變的約束才能求出解析解。
image matting問題也從傳統(tǒng)方法發(fā)展到了深度學(xué)習(xí), www.alphamatting.com這里有主流方法的比較,盡管一看。
之所以大家重新想起來這檔事,是因為adobe前幾年搞的end to end的方案deep image matting【10】重新吊起了大家的胃口。
在這個基礎(chǔ)上,摳腦袋做個表情包【11】也未必不可能,只是實際效果仍然欠缺。
技術(shù)當(dāng)然不會止步于此,關(guān)注這個領(lǐng)域的朋友自然又會看到siggraph3018有人【12】出來搞事情,原來是MIT和Adobe,也是,沒有Adobe誰有這能力。
我們只看文中的幾個關(guān)鍵詞,譜分割(spectral segmentation),Laplacian矩陣,soft transitions與layers,SLIC等。譜分割與laplacian矩陣是graphcut的歸一化版本Normalized Cut的核心,而soft transitions與layers是photoshop最核心的思想,SLIC則是用于減少計算量的超像素方法。
再加上深度學(xué)習(xí),徹底的牛逼圖像分割方法大融合了。
終于,傳統(tǒng)方法又和深度學(xué)習(xí)走到了一起。咱們閑聊也該結(jié)束了,下次再說技術(shù)細(xì)節(jié)。
【1】Otsu N. A Threshold Selection Method from Gray-Level Histograms[J]. IEEE Trans.syst.man. & Cybern, 2007, 9(1):62-66.
【2】L. Vincent and P. Soille, “Watersheds in digital spaces: an efficient algorithm based on immersion simulations,” IEEE Trans. Patt. Anal. Mach. Intell., vol. 13, pp. 583-598, 1991.
【3】Stutz D, Hermans A, Leibe B. Superpixels: an evaluation of the state-of-the-art[J]. Computer Vision and Image Understanding, 2018, 166: 1-27.
【4】Boykov Y Y, Jolly M P. Interactive Graph Cuts for Optimal Boundary & Region Segmentation of Objects in N-D Images[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2001:105.
【5】Rother C, Kolmogorov V, Blake A. "GrabCut": interactive foreground extraction using iterated graph cuts[C]// ACM SIGGRAPH. ACM, 2004:309-314.
【6】龍鵬. MRI醫(yī)學(xué)圖像增強(qiáng)與分割新方法[D]. 中國科學(xué)院大學(xué), 2015.
【7】Shelhamer E, Long J, Darrell T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4):1-1.
【8】Kendall A, Badrinarayanan V, Cipolla R. Bayesian segnet: Model uncertainty in deep convolutional encoder-decoder architectures for scene understanding[J]. arXiv preprint arXiv:1511.02680, 2015.
【9】Garcia-Garcia A, Orts-Escolano S, Oprea S, et al. A review on deep learning techniques applied to semantic segmentation[J]. arXiv preprint arXiv:1704.06857, 2017.
【10】Xu N, Price B L, Cohen S, et al. Deep Image Matting[C]//CVPR. 2017, 2: 4.
【11】Zhu B, Chen Y, Wang J, et al. Fast Deep Matting for Portrait Animation on Mobile Phone[C]//Proceedings of the 2017 ACM on Multimedia Conference. ACM, 2017: 297-305.
【12】OH T A E H, MATUSIK W. Semantic Soft Segmentation[J]. 2018.
https://www.toutiao.com/a6706310240607928835/