4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么，針對(duì)這個(gè)問(wèn)題，這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答，希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。

創(chuàng)新互聯(lián)建站專(zhuān)注于企業(yè)網(wǎng)絡(luò)營(yíng)銷(xiāo)推廣、網(wǎng)站重做改版、那曲網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、H5響應(yīng)式網(wǎng)站、購(gòu)物商城網(wǎng)站建設(shè)、集團(tuán)公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)公司、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁(yè)設(shè)計(jì)等建站業(yè)務(wù)，價(jià)格優(yōu)惠性?xún)r(jià)比高，為那曲等各大城市提供網(wǎng)站開(kāi)發(fā)制作服務(wù)。

1 Cityscapes數(shù)據(jù)集介紹

Cityscapes評(píng)測(cè)數(shù)據(jù)集即城市景觀數(shù)據(jù)集，在2015年由奔馳公司推動(dòng)發(fā)布，是目前公認(rèn)的機(jī)器視覺(jué)領(lǐng)域內(nèi)最具權(quán)威性和專(zhuān)業(yè)性的圖像分割數(shù)據(jù)集之一。Cityscapes擁有5000張精細(xì)標(biāo)注的在城市環(huán)境中駕駛場(chǎng)景的圖像（2975train，500 val,1525test）。它具有19個(gè)類(lèi)別的密集像素標(biāo)注（97％coverage），其中8個(gè)具有實(shí)例級(jí)分割。具體類(lèi)別名稱(chēng)見(jiàn)于下表1。

表1 Cityscapes數(shù)據(jù)集中的類(lèi)別名稱(chēng)

2 Deep High-Resolution Representation Learning for Visual Recognition（HRNet）

2.1動(dòng)機(jī)

當(dāng)前語(yǔ)義分割方法面臨3個(gè)挑戰(zhàn)，其中第一個(gè)挑戰(zhàn)是基于FCN的分辨率由高到低會(huì)損失信息。

語(yǔ)義分割方法需要高分辨率特征，圖中1展示了幾種基于FCN的經(jīng)典方法的，它們的共同點(diǎn)通過(guò)一個(gè)網(wǎng)絡(luò)得到低分辨 feature map，然后通過(guò)上采樣或反卷積恢復(fù)到高分辨率。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖1 基于FCN方法的幾種經(jīng)典結(jié)構(gòu)

這些看起來(lái)不同，但本質(zhì)核心思路是差不多的。這些方法存在一個(gè)缺點(diǎn)，分辨率由高到低會(huì)損失信息！

2.2 模型結(jié)構(gòu)與核心代碼

為了解決2.1中的問(wèn)題，作者團(tuán)隊(duì)（MSRA和中科院）提出一個(gè)方法，核心思路是“不恢復(fù)高分辨率，而是保持分辨率”。如下圖2中是一個(gè)基本的高分辨率保持網(wǎng)絡(luò)結(jié)構(gòu)，該結(jié)構(gòu)把不同分辨率的feature map并聯(lián)，相同分辨率的占一條分支，不同分辨率的占不同分支。并在不同分支之間添加通路（圖中的斜線），形成high-resolution network。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖2 基本的high-resolution network結(jié)構(gòu)

圖2中的機(jī)構(gòu)由4個(gè)stage組成，每一個(gè)藍(lán)底色塊為一個(gè)stage。在SOTA方法中，采用的是HRNet-W48，其結(jié)構(gòu)圖如圖3所示。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖3 HRNet-W48結(jié)構(gòu)圖

HRNet V2-W48是在4個(gè)stage（圖3中藍(lán)、綠、紅、黃4種底色區(qū)域）的頭部加上stem net（圖3中白色底色區(qū)域），尾部加上segment head后（圖中未畫(huà)出）組成。下面按照先后順序依次對(duì)stem net、4個(gè)stage以及segment head進(jìn)行介紹。

（1）stem net

stem net由兩個(gè)Bottelneck組成，與Resnet的結(jié)構(gòu)一樣，經(jīng)過(guò)兩個(gè)Bottelneck以后，輸入圖像的維度由H*W*3變成了（H/4）*（W/4）*256

（2）4個(gè)stage

每個(gè) stage 上的各個(gè)組件配置如下表2，以 hrnet_48 為例
stage之間通過(guò)transition_layer連接，stage內(nèi)由重復(fù)的基本單元HighResolutionModule組成。
HighResolutionModule由分支以及分支末尾的fuse_layers組成。
每條分支內(nèi)由重復(fù)的basicblock組成，具體數(shù)量見(jiàn)表2

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

表2 HRNet-W48模型配置表

A：stage間的transition layer：完成 stage之間通道轉(zhuǎn)換和尺寸下采樣，即圖3中不同底色之間連接的直線和斜線stage之間的斜線，指向不做任何處理。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖4 stage間的transition layer構(gòu)建代碼

B：構(gòu)建stage

每個(gè)stag均是有若干重復(fù)的HighResolutionModule組成，因此構(gòu)架stage的核心在與構(gòu)建HighResolutionModule。構(gòu)建HighResolutionModule分兩步：構(gòu)建分支、構(gòu)建分支末尾的fuse_layers。

構(gòu)建分支：圖3種的4個(gè)連續(xù)的basicblock即一個(gè)分支。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖5 HighResolutionModule內(nèi)分支構(gòu)建代碼

構(gòu)建fuselayer：

以下圖中藍(lán)色框?yàn)槔f(shuō)明fuselayer層的處理過(guò)程：

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖6 fuselayer層

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖6 HighResolutionModule內(nèi)fuselayer層構(gòu)建代碼

3 Object-Contextual Representations for Semantic Segmentation（OCR）

3.1 動(dòng)機(jī)

當(dāng)前語(yǔ)義分割方法面臨3個(gè)挑戰(zhàn)中第二個(gè)挑戰(zhàn)是沒(méi)有解決好物體上下文信息。

上下文特征：圖像中的每一個(gè)像素點(diǎn)不可能是孤立的，一個(gè)像素一定和周?chē)袼厥怯幸欢ǖ年P(guān)系的，大量像素的互相聯(lián)系才產(chǎn)生了圖像中的各種物體，所以上下文特征就指像素以及周邊像素的某種聯(lián)系。具體到圖像語(yǔ)義分割，就是在判斷某一個(gè)位置上的像素屬于哪種類(lèi)別的時(shí)候，不僅考察到該像素的灰度值，還充分考慮和它臨近的像素。

當(dāng)前方法分析上下文信息如下圖7所示，比如說(shuō)紅色點(diǎn)是我們關(guān)注的點(diǎn)，周?chē)G色幾個(gè)點(diǎn)是采樣出來(lái)的，可以看到，綠色點(diǎn)分為兩部分，一部分是屬于車(chē)的，還有一部分是屬于背景的。當(dāng)前方法并沒(méi)有進(jìn)行區(qū)分。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖7 上下文信息圖

那我們?cè)撛趺崔k？我們找這個(gè)物體，要通過(guò)周?chē)矬w的象素表征來(lái)幫助。因此，我們需要把紅色像素周?chē)鷮儆?object 的pixel取出來(lái)做為上下文，如下圖8所示：

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖8 對(duì)象區(qū)域上下文信息圖

3.2 模型結(jié)構(gòu)與核心代碼

核心思路：OCR提出了一種新的關(guān)系上下文方法，該方法根據(jù)粗分割結(jié)果學(xué)習(xí)像素與對(duì)象區(qū)域特征之間的關(guān)系來(lái)增強(qiáng)像素特征的描述。模型結(jié)構(gòu)如下圖所示。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖9 OCR模型結(jié)構(gòu)圖

計(jì)算步驟：

STEP1：獲得粗分割結(jié)果。

從backbone最后輸出的FM，在接上一組conv的操作，然后計(jì)算cross-entropy loss。

STEP2：獲得對(duì)象區(qū)域特征。

結(jié)合圖9中可知，該步驟需要兩個(gè)分支的tensor進(jìn)行矩陣乘：

Tensor1：pixel representation，骨干網(wǎng)絡(luò)最后一層FM，維度為b×c×h×w->b×c×hw

Tensor2：soft object region，F(xiàn)M經(jīng)過(guò)softmax后的結(jié)果，維度為b×k×h×w->b×k×hw

將Tensor1和tensor2相乘后的輸出結(jié)果為b×k×c，b×k×c便是圖9中對(duì)象區(qū)域特征的表示。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖10 對(duì)象區(qū)域特征計(jì)算代碼

STEP3：獲得pixel-region relation。

結(jié)合圖9中可知，該步驟需要兩個(gè)分支的tensor進(jìn)行矩陣乘：

Tensor1：pixel representation，骨干網(wǎng)絡(luò)最后一層FM，維度為b×c×h×w->b×c×hw

Tensor2：STEP2中的對(duì)象區(qū)域特征，維度為b×k×c

代碼中將兩個(gè)tensor的維度進(jìn)行了轉(zhuǎn)化，轉(zhuǎn)化兩個(gè)tensor的維度分別為b×key×hw和b×key×k。兩個(gè)tensor相乘后得到pixel-region relation的表達(dá)式為b×k×h×w。

STEP4：計(jì)算最終對(duì)象特征上下文表示。

結(jié)合圖9中可知，該步驟需要兩個(gè)分支的tensor進(jìn)行矩陣乘：

Tensor1：STEP3中獲得的pixel-region relation，維度為b×k×h×w

Tensor2：STEP2中的對(duì)象區(qū)域特征，維度為b×k×c

兩個(gè)特征相乘后便得到對(duì)象上下文特征，即圖10中的紅色塊。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖11 step2-step4中相關(guān)代碼

4 SegFix: Model-Agnostic Boundary Refinement for Segmentation（SegFix）

4.1SegFix的動(dòng)機(jī)

基于FCN的方法面臨的第三個(gè)挑戰(zhàn)是邊緣分割不準(zhǔn)確。下圖12顯示了分割結(jié)果的誤差圖。下圖12中的第一列顯示了分割GT圖，第二列/第三/ 第四列分別顯示了DeepLabv3 / HRNet / Gated-SCNN的誤差圖。這些示例是從Cityscapes val set中裁剪的。我們可以看到，對(duì)于這三種方法，在細(xì)邊界上都存在許多錯(cuò)誤。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖12 模型分割結(jié)果誤差圖

基于經(jīng)驗(yàn)觀察的結(jié)果，即內(nèi)部像素的標(biāo)簽預(yù)測(cè)更加可靠，因此用內(nèi)部像素的預(yù)測(cè)代替邊界像素的最初不可靠的預(yù)測(cè)，可能提高模型對(duì)邊緣的分割效果。提出了一種新穎的模型無(wú)關(guān)的后處理機(jī)制，通過(guò)將邊界像素的標(biāo)簽替換為對(duì)應(yīng)內(nèi)部像素的標(biāo)簽來(lái)減少分割結(jié)果，從而減少了邊界誤差。

4.2模型結(jié)構(gòu)與核心代碼

根據(jù)4.1中的描述，理所當(dāng)然的會(huì)牽引出兩個(gè)問(wèn)題：（1）如何確定邊緣（2）如何關(guān)聯(lián)邊緣像素與內(nèi)部像素。這里借助于一個(gè)邊緣預(yù)測(cè)分支和一個(gè)方向預(yù)測(cè)分支來(lái)完成。在獲得良好的邊界和方向預(yù)測(cè)之后，就可以直接拿來(lái)優(yōu)化現(xiàn)有方法預(yù)測(cè)的分割圖了。所以另一問(wèn)題在于，如何將現(xiàn)有的針對(duì)邊緣的關(guān)聯(lián)方向的預(yù)測(cè)應(yīng)用到實(shí)際的預(yù)測(cè)優(yōu)化上。這主要借助于一個(gè)坐標(biāo)偏移分支。這三個(gè)分支構(gòu)成了SegFix的主要結(jié)構(gòu)，其結(jié)構(gòu)圖如圖13所示。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖13 SegFix模型結(jié)構(gòu)圖

邊緣預(yù)測(cè)分支：

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

方向預(yù)測(cè)分支：

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

獲取真值：

坐標(biāo)偏移分支：

5 Hierarchical Multi-Scale Attention for Semantic Segmentation

5.1動(dòng)機(jī)

大尺度物體在較小分辨率的特征圖上會(huì)分割的更好，而小尺度物體則需要精細(xì)的細(xì)節(jié)去推理分割結(jié)果，所以在較高分辨率的特征圖上進(jìn)行預(yù)測(cè)結(jié)果會(huì)更好。且論文也舉例分析了此情況的緣由，如下圖所示。

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖12 不同尺寸物體在不同分辨率上的分割表現(xiàn)

因此本文采用注意力機(jī)制的方法讓網(wǎng)絡(luò)去學(xué)習(xí)如何最好地組合多個(gè)尺度的推理預(yù)測(cè)。非常直觀的做法就是輸入不同分辨率的圖片，讓網(wǎng)絡(luò)學(xué)習(xí)一下，什么樣的物體應(yīng)該用什么樣的分辨率。

5.2模型結(jié)構(gòu)

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

圖13 分層多尺度注意力機(jī)制

訓(xùn)練階段：

上面提出的attention機(jī)制與之前的某個(gè)方法類(lèi)似（Attention to scale: Scale-aware semantic image segmentation，圖13中左側(cè)方法），對(duì)于每個(gè)尺度學(xué)習(xí)一個(gè)密集的mask，然后不同尺度的預(yù)測(cè)再結(jié)合起來(lái)，這些多尺度預(yù)測(cè)通過(guò)在mask之間進(jìn)行像素相乘，然后在不同尺度之間進(jìn)行像素求和，從而得到最終結(jié)果。

在本文的分層方法中，學(xué)習(xí)相鄰尺度之間的相對(duì)attention掩碼，而不是學(xué)習(xí)每個(gè)固定尺度集的所有attention掩碼。在訓(xùn)練網(wǎng)絡(luò)時(shí)，只訓(xùn)練相鄰尺度對(duì)。如上圖13所示，給出一組來(lái)自lower scale的特征圖，預(yù)測(cè)一個(gè)兩個(gè)圖像尺度之間的密集的相關(guān)attention。在實(shí)驗(yàn)中，為了得到scaled圖像對(duì)，使用一個(gè)輸入圖像然后將其下采樣兩倍利用scale尺度2，這樣，就有一個(gè)1x的輸入和一個(gè)0.5x的縮放輸入，當(dāng)然其他scale-down尺度也可以選擇。需要注意的是，網(wǎng)絡(luò)輸入本身是原始訓(xùn)練圖像的重新縮放版本，因?yàn)槲覀冊(cè)谟?xùn)練時(shí)使用圖像縮放增強(qiáng)。這使得網(wǎng)絡(luò)學(xué)會(huì)預(yù)測(cè)一個(gè)范圍內(nèi)的圖像尺度的相對(duì)注意力。

在訓(xùn)練過(guò)程中，給定的輸入圖像按因子r進(jìn)行縮放，其中r= 0.5表示向下采樣按因子2進(jìn)行，r= 2.0表示向上采樣按因子2進(jìn)行，r= 1表示不進(jìn)行操作。對(duì)于訓(xùn)練過(guò)程，選擇r= 0.5和r= 1.0。因此，對(duì)于兩種尺度的訓(xùn)練和推斷，以U為雙線性上采樣操作，將?和+分別作為像素級(jí)的乘法和加法，方程可以形式化為:

上式中注意力權(quán)重α的計(jì)算步驟：

1）獲得OCR模塊輸出的augmentations，即圖9中的正藍(lán)色塊。

2）見(jiàn)過(guò)若干次連續(xù)的conv-bn-relu后，獲得維度為b×1的向量

3）對(duì)b×1的向量進(jìn)行sogmoid后，便獲得一個(gè)batch上的注意力權(quán)重α。

推理階段：

在推理階段，分層的應(yīng)用學(xué)到的注意力來(lái)結(jié)合N個(gè)不同的scale預(yù)測(cè)。關(guān)于各尺度的組合優(yōu)先考慮較低的scale，然后逐步上升到較高的scale，因?yàn)?，它們具有更多的全局上下文信息，?duì)于需要改進(jìn)的scale可以使用更高scale的預(yù)測(cè)。

多尺度推理時(shí)，各尺度組合先后順序：{2.0，1.5，1.0，0.5}

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

關(guān)于4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么問(wèn)題的解答就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，如果你還有很多疑惑沒(méi)有解開(kāi)，可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

文章題目：4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么
當(dāng)前地址：http://weahome.cn/article/ggehhe.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

4種語(yǔ)義分割數(shù)據(jù)集Cityscapes上SOTA方法分別是什么

1 Cityscapes數(shù)據(jù)集介紹

2 Deep High-Resolution Representation Learning for Visual Recognition（HRNet）

2.1動(dòng)機(jī)

2.2 模型結(jié)構(gòu)與核心代碼

3 Object-Contextual Representations for Semantic Segmentation（OCR）

3.1 動(dòng)機(jī)

3.2 模型結(jié)構(gòu)與核心代碼

4 SegFix: Model-Agnostic Boundary Refinement for Segmentation（SegFix）

4.1SegFix的動(dòng)機(jī)

4.2模型結(jié)構(gòu)與核心代碼

5 Hierarchical Multi-Scale Attention for Semantic Segmentation

5.1動(dòng)機(jī)

5.2模型結(jié)構(gòu)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管