4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么,針對(duì)這個(gè)問(wèn)題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。
創(chuàng)新互聯(lián)建站專(zhuān)注于企業(yè)網(wǎng)絡(luò)營(yíng)銷(xiāo)推廣、網(wǎng)站重做改版、那曲網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、H5響應(yīng)式網(wǎng)站、購(gòu)物商城網(wǎng)站建設(shè)、集團(tuán)公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)公司、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁(yè)設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性?xún)r(jià)比高,為那曲等各大城市提供網(wǎng)站開(kāi)發(fā)制作服務(wù)。
Cityscapes評(píng)測(cè)數(shù)據(jù)集即城市景觀數(shù)據(jù)集,在2015年由奔馳公司推動(dòng)發(fā)布,是目前公認(rèn)的機(jī)器視覺(jué)領(lǐng)域內(nèi)最具權(quán)威性和專(zhuān)業(yè)性的圖像分割數(shù)據(jù)集之一。Cityscapes擁有5000張精細(xì)標(biāo)注的在城市環(huán)境中駕駛場(chǎng)景的圖像(2975train,500 val,1525test)。它具有19個(gè)類(lèi)別的密集像素標(biāo)注(97%coverage),其中8個(gè)具有實(shí)例級(jí)分割。具體類(lèi)別名稱(chēng)見(jiàn)于下表1。
表1 Cityscapes數(shù)據(jù)集中的類(lèi)別名稱(chēng)
當(dāng)前語(yǔ)義分割方法面臨3個(gè)挑戰(zhàn),其中第一個(gè)挑戰(zhàn)是基于FCN的分辨率由高到低會(huì)損失信息。
語(yǔ)義分割方法需要高分辨率特征,圖中1展示了幾種基于FCN的經(jīng)典方法的,它們的共同點(diǎn)通過(guò)一個(gè)網(wǎng)絡(luò)得到 低分辨 feature map,然后通過(guò)上采樣或反卷積恢復(fù)到高分辨率。
圖1 基于FCN方法的幾種經(jīng)典結(jié)構(gòu)
這些看起來(lái)不同,但本質(zhì)核心思路是差不多的。這些方法存在一個(gè)缺點(diǎn),分辨率由高到低會(huì)損失信息!
為了解決2.1中的問(wèn)題,作者團(tuán)隊(duì)(MSRA和中科院)提出一個(gè)方法,核心思路是“不恢復(fù)高分辨率,而是保持分辨率”。如下圖2中是一個(gè)基本的高分辨率保持網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)把不同分辨率的feature map并聯(lián),相同分辨率的占一條分支,不同分辨率的占不同分支。并在不同分支之間添加通路(圖中的斜線),形成high-resolution network。
圖2 基本的high-resolution network結(jié)構(gòu)
圖2中的機(jī)構(gòu)由4個(gè)stage組成,每一個(gè)藍(lán)底色塊為一個(gè)stage。在SOTA方法中,采用的是HRNet-W48,其結(jié)構(gòu)圖如圖3所示。
圖3 HRNet-W48結(jié)構(gòu)圖
HRNet V2-W48是在4個(gè)stage(圖3中藍(lán)、綠、紅、黃4種底色區(qū)域)的頭部加上stem net(圖3中白色底色區(qū)域),尾部加上segment head后(圖中未畫(huà)出)組成。下面按照先后順序依次對(duì)stem net、4個(gè)stage以及segment head進(jìn)行介紹。
(1)stem net
stem net由兩個(gè)Bottelneck組成,與Resnet的結(jié)構(gòu)一樣,經(jīng)過(guò)兩個(gè)Bottelneck以后,輸入圖像的維度由H*W*3變成了(H/4)*(W/4)*256
(2)4個(gè)stage
每個(gè) stage 上的各個(gè)組件配置如下表2,以 hrnet_48 為例
stage之間通過(guò)transition_layer連接,stage內(nèi)由重復(fù)的基本單元HighResolutionModule組成。
HighResolutionModule由分支以及分支末尾的fuse_layers組成。
每條分支內(nèi)由重復(fù)的basicblock組成,具體數(shù)量見(jiàn)表2
表2 HRNet-W48模型配置表
A:stage間的transition layer:完成 stage之間通道轉(zhuǎn)換和尺寸下采樣,即圖3中不同底色之間連接的直線和斜線stage之間的斜線,指向不做任何處理。
圖4 stage間的transition layer構(gòu)建代碼
B:構(gòu)建stage
每個(gè)stag均是有若干重復(fù)的HighResolutionModule組成,因此構(gòu)架stage的核心在與構(gòu)建HighResolutionModule。構(gòu)建HighResolutionModule分兩步:構(gòu)建分支、構(gòu)建分支末尾的fuse_layers。
構(gòu)建分支:圖3種的4個(gè)連續(xù)的basicblock即一個(gè)分支。
圖5 HighResolutionModule內(nèi)分支構(gòu)建代碼
構(gòu)建fuselayer:
以下圖中藍(lán)色框?yàn)槔f(shuō)明fuselayer層的處理過(guò)程:
圖6 fuselayer層
圖6 HighResolutionModule內(nèi)fuselayer層構(gòu)建代碼
當(dāng)前語(yǔ)義分割方法面臨3個(gè)挑戰(zhàn)中第二個(gè)挑戰(zhàn)是沒(méi)有解決好物體上下文信息。
上下文特征:圖像中的每一個(gè)像素點(diǎn)不可能是孤立的,一個(gè)像素一定和周?chē)袼厥怯幸欢ǖ年P(guān)系的,大量像素的互相聯(lián)系才產(chǎn)生了圖像中的各種物體,所以上下文特征就指像素以及周邊像素的某種聯(lián)系。具體到圖像語(yǔ)義分割,就是在判斷某一個(gè)位置上的像素屬于哪種類(lèi)別的時(shí)候,不僅考察到該像素的灰度值,還充分考慮和它臨近的像素。
當(dāng)前方法分析上下文信息如下圖7所示,比如說(shuō)紅色點(diǎn)是我們關(guān)注的點(diǎn),周?chē)G色幾個(gè)點(diǎn)是采樣出來(lái)的,可以看到,綠色點(diǎn)分為兩部分,一部分是屬于車(chē)的,還有一部分是屬于背景的。當(dāng)前方法并沒(méi)有進(jìn)行區(qū)分。
圖7 上下文信息圖
那我們?cè)撛趺崔k?我們找這個(gè)物體,要通過(guò)周?chē)矬w的象素表征來(lái)幫助。因此,我們需要把紅色像素周?chē)鷮儆?object 的pixel取出來(lái)做為上下文,如下圖8所示:
圖8 對(duì)象區(qū)域上下文信息圖
核心思路:OCR提出了一種新的關(guān)系上下文方法,該方法根據(jù)粗分割結(jié)果學(xué)習(xí)像素與對(duì)象區(qū)域特征之間的關(guān)系來(lái)增強(qiáng)像素特征的描述。模型結(jié)構(gòu)如下圖所示。
圖9 OCR模型結(jié)構(gòu)圖
計(jì)算步驟:
STEP1:獲得粗分割結(jié)果。
從backbone最后輸出的FM,在接上一組conv的操作,然后計(jì)算cross-entropy loss。
STEP2:獲得對(duì)象區(qū)域特征。
結(jié)合圖9中可知,該步驟需要兩個(gè)分支的tensor進(jìn)行矩陣乘:
Tensor1:pixel representation,骨干網(wǎng)絡(luò)最后一層FM,維度為b×c×h×w->b×c×hw
Tensor2:soft object region,F(xiàn)M經(jīng)過(guò)softmax后的結(jié)果,維度為b×k×h×w->b×k×hw
將Tensor1和tensor2相乘后的輸出結(jié)果為b×k×c,b×k×c便是圖9中對(duì)象區(qū)域特征的表示。
圖10 對(duì)象區(qū)域特征計(jì)算代碼
STEP3:獲得pixel-region relation。
結(jié)合圖9中可知,該步驟需要兩個(gè)分支的tensor進(jìn)行矩陣乘:
Tensor1:pixel representation,骨干網(wǎng)絡(luò)最后一層FM,維度為b×c×h×w->b×c×hw
Tensor2:STEP2中的對(duì)象區(qū)域特征,維度為b×k×c
代碼中將兩個(gè)tensor的維度進(jìn)行了轉(zhuǎn)化,轉(zhuǎn)化兩個(gè)tensor的維度分別為b×key×hw和b×key×k。兩個(gè)tensor相乘后得到pixel-region relation的表達(dá)式為b×k×h×w。
STEP4:計(jì)算最終對(duì)象特征上下文表示。
結(jié)合圖9中可知,該步驟需要兩個(gè)分支的tensor進(jìn)行矩陣乘:
Tensor1:STEP3中獲得的pixel-region relation,維度為b×k×h×w
Tensor2:STEP2中的對(duì)象區(qū)域特征,維度為b×k×c
兩個(gè)特征相乘后便得到對(duì)象上下文特征,即圖10中的紅色塊。
圖11 step2-step4中相關(guān)代碼
基于FCN的方法面臨的第三個(gè)挑戰(zhàn)是邊緣分割不準(zhǔn)確。下圖12顯示了分割結(jié)果的誤差圖。下圖12中的第一列顯示了分割GT圖,第二列/第三/ 第四列分別顯示了DeepLabv3 / HRNet / Gated-SCNN的誤差圖。 這些示例是從Cityscapes val set中裁剪的。 我們可以看到,對(duì)于這三種方法,在細(xì)邊界上都存在許多錯(cuò)誤。
圖12 模型分割結(jié)果誤差圖
基于經(jīng)驗(yàn)觀察的結(jié)果,即內(nèi)部像素的標(biāo)簽預(yù)測(cè)更加可靠,因此用內(nèi)部像素的預(yù)測(cè)代替邊界像素的最初不可靠的預(yù)測(cè),可能提高模型對(duì)邊緣的分割效果。提出了一種新穎的模型無(wú)關(guān)的后處理機(jī)制,通過(guò)將邊界像素的標(biāo)簽替換為對(duì)應(yīng)內(nèi)部像素的標(biāo)簽來(lái)減少分割結(jié)果,從而減少了邊界誤差。
根據(jù)4.1中的描述,理所當(dāng)然的會(huì)牽引出兩個(gè)問(wèn)題:(1)如何確定邊緣(2)如何關(guān)聯(lián)邊緣像素與內(nèi)部像素。這里借助于一個(gè)邊緣預(yù)測(cè)分支和一個(gè)方向預(yù)測(cè)分支來(lái)完成。在獲得良好的邊界和方向預(yù)測(cè)之后,就可以直接拿來(lái)優(yōu)化現(xiàn)有方法預(yù)測(cè)的分割圖了。所以另一問(wèn)題在于,如何將現(xiàn)有的針對(duì)邊緣的關(guān)聯(lián)方向的預(yù)測(cè)應(yīng)用到實(shí)際的預(yù)測(cè)優(yōu)化上。這主要借助于一個(gè)坐標(biāo)偏移分支。這三個(gè)分支構(gòu)成了SegFix的主要結(jié)構(gòu),其結(jié)構(gòu)圖如圖13所示。
圖13 SegFix模型結(jié)構(gòu)圖
邊緣預(yù)測(cè)分支:
方向預(yù)測(cè)分支:
獲取真值:
坐標(biāo)偏移分支:
大尺度物體在較小分辨率的特征圖上會(huì)分割的更好,而小尺度物體則需要精細(xì)的細(xì)節(jié)去推理分割結(jié)果,所以在較高分辨率的特征圖上進(jìn)行預(yù)測(cè)結(jié)果會(huì)更好。且論文也舉例分析了此情況的緣由,如下圖所示。
圖12 不同尺寸物體在不同分辨率上的分割表現(xiàn)
因此本文采用注意力機(jī)制的方法讓網(wǎng)絡(luò)去學(xué)習(xí)如何最好地組合多個(gè)尺度的推理預(yù)測(cè)。非常直觀的做法就是輸入不同分辨率的圖片,讓網(wǎng)絡(luò)學(xué)習(xí)一下,什么樣的物體應(yīng)該用什么樣的分辨率。
圖13 分層多尺度注意力機(jī)制
訓(xùn)練階段:
上面提出的attention機(jī)制與之前的某個(gè)方法類(lèi)似(Attention to scale: Scale-aware semantic image segmentation,圖13中左側(cè)方法),對(duì)于每個(gè)尺度學(xué)習(xí)一個(gè)密集的mask,然后不同尺度的預(yù)測(cè)再結(jié)合起來(lái),這些多尺度預(yù)測(cè)通過(guò)在mask之間進(jìn)行像素相乘,然后在不同尺度之間進(jìn)行像素求和,從而得到最終結(jié)果。
在本文的分層方法中,學(xué)習(xí)相鄰尺度之間的相對(duì)attention掩碼,而不是學(xué)習(xí)每個(gè)固定尺度集的所有attention掩碼。在訓(xùn)練網(wǎng)絡(luò)時(shí),只訓(xùn)練相鄰尺度對(duì)。如上圖13所示,給出一組來(lái)自lower scale的特征圖,預(yù)測(cè)一個(gè)兩個(gè)圖像尺度之間的密集的相關(guān)attention。在實(shí)驗(yàn)中,為了得到scaled圖像對(duì),使用一個(gè)輸入圖像然后將其下采樣兩倍利用scale尺度2,這樣,就有一個(gè)1x的輸入和一個(gè)0.5x的縮放輸入,當(dāng)然其他scale-down尺度也可以選擇。需要注意的是,網(wǎng)絡(luò)輸入本身是原始訓(xùn)練圖像的重新縮放版本,因?yàn)槲覀冊(cè)谟?xùn)練時(shí)使用圖像縮放增強(qiáng)。這使得網(wǎng)絡(luò)學(xué)會(huì)預(yù)測(cè)一個(gè)范圍內(nèi)的圖像尺度的相對(duì)注意力。
在訓(xùn)練過(guò)程中,給定的輸入圖像按因子r進(jìn)行縮放,其中r= 0.5表示向下采樣按因子2進(jìn)行,r= 2.0表示向上采樣按因子2進(jìn)行,r= 1表示不進(jìn)行操作。對(duì)于訓(xùn)練過(guò)程,選擇r= 0.5和r= 1.0。因此,對(duì)于兩種尺度的訓(xùn)練和推斷,以U為雙線性上采樣操作,將?和+分別作為像素級(jí)的乘法和加法,方程可以形式化為:
上式中注意力權(quán)重α的計(jì)算步驟:
1)獲得OCR模塊輸出的augmentations,即圖9中的正藍(lán)色塊。
2)見(jiàn)過(guò)若干次連續(xù)的conv-bn-relu后,獲得維度為b×1的向量
3)對(duì)b×1的向量進(jìn)行sogmoid后,便獲得一個(gè)batch上的注意力權(quán)重α。
推理階段:
在推理階段,分層的應(yīng)用學(xué)到的注意力來(lái)結(jié)合N個(gè)不同的scale預(yù)測(cè)。關(guān)于各尺度的組合優(yōu)先考慮較低的scale,然后逐步上升到較高的scale,因?yàn)?,它們具有更多的全局上下文信息,?duì)于需要改進(jìn)的scale可以使用更高scale的預(yù)測(cè)。
多尺度推理時(shí),各尺度組合先后順序:{2.0,1.5,1.0,0.5}
關(guān)于4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么問(wèn)題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒(méi)有解開(kāi),可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。