這篇文章主要講解了“R-CNN模型是怎樣的”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“R-CNN模型是怎樣的”吧!
創(chuàng)新互聯(lián)于2013年成立,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元浦北做網(wǎng)站,已為上家服務(wù),為浦北各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18982081108
目標(biāo)識(shí)別與檢測(cè)數(shù)據(jù)庫(kù):PASCAL VOC在12年以前一直進(jìn)展緩慢,一些新提出的優(yōu)化方法只是把之前的方法線性地結(jié)合在一起。Ross Girshick提出的R-CNN直接將識(shí)別準(zhǔn)確率提高了30%。作者主要利用兩個(gè)因素:一個(gè)是CNN可以應(yīng)用于區(qū)域候選,以便定位和分割物體;另一個(gè)是當(dāng)標(biāo)記的訓(xùn)練數(shù)據(jù)很少時(shí),輔助任務(wù)的預(yù)訓(xùn)練加以fine-tuning,可以顯著提高性能。(when labeled training data is scarce, supervised pre-training for an auxiliary task, followed by domain-specific fine-tuning, yields a significant performance boost.)
R-CNN提出以前,各式各樣的目標(biāo)檢測(cè)算法大都基于SIFT和HOG算子,二者都是 blockwise orientation histograms,我們可以大致地將它們與哺乳動(dòng)物視覺聯(lián)系起來(lái)。但大腦的識(shí)別過(guò)程應(yīng)該是多層傳遞的,因此識(shí)別程序也應(yīng)該有一個(gè)多層結(jié)構(gòu)。基于此,Fukushima 提出了“neocognitron”方法,Lecun 也提出了“missing algorithm”。
鑒于13年CNN的火爆,作者認(rèn)為:CNN在圖像分類上的結(jié)果也可以擴(kuò)展應(yīng)用到PASCAL VOC的挑戰(zhàn)上。為了達(dá)成目標(biāo),需要解決兩個(gè)問題:
用深度網(wǎng)絡(luò)定位目標(biāo)。目標(biāo)檢測(cè)首先需要定位物體(localization)。定位的實(shí)現(xiàn)方式一般為滑動(dòng)窗檢測(cè)(用窗口截取圖像的一部分,每次都做一個(gè)定位回歸),但對(duì)于較大感受野和步長(zhǎng)的CNN是一個(gè)不小的挑戰(zhàn)。
用小容量的標(biāo)記數(shù)據(jù)訓(xùn)練大容量的網(wǎng)絡(luò)。解決方式上面其實(shí)已經(jīng)說(shuō)了,就是在ILSVRC這個(gè)大的輔助訓(xùn)練集上進(jìn)行監(jiān)督訓(xùn)練,接著在PASCAL上domain-specific fine-tuning。
另外,作者的系統(tǒng)也十分有效:The only class-specific computations are a reasonably small matrix-vector product and greedy non-maximum suppression。
作者還發(fā)現(xiàn),即使去除94%的參數(shù),CNN模型檢測(cè)的準(zhǔn)確率只會(huì)有略微的下降。通過(guò)一個(gè)檢測(cè)分析工具,發(fā)現(xiàn)只需要通過(guò)簡(jiǎn)單的邊界框回歸就可以顯著地降低定位錯(cuò)誤率。
整個(gè)檢測(cè)系統(tǒng)分為三個(gè)部分:
生成獨(dú)立分類的候選區(qū)域。作者的方法是use selective search to enable a controlled comparison with prior
用CNN,對(duì)每個(gè)候選區(qū)域提出固定長(zhǎng)度的特征向量。輸入的圖片固定為227*227,且提前進(jìn)行mean-subtracted處理。之后用一個(gè)5卷積層,2全連接層的CNN來(lái)提取4096維特征向量。
用SVM對(duì)特征向量進(jìn)行分類。
一開始,系統(tǒng)先用selective search提取2000個(gè)候選區(qū)域,并將其warp到277*277大小,進(jìn)入CNN提取特征,并用SVM分類。最后,再用 greedy non-maximum suppression 把那些高度重疊的框剔除。
R-CNN運(yùn)行時(shí)間很短,這歸功于兩點(diǎn):1. CNN對(duì)于每個(gè)分類的參數(shù)都是共享的;2. 與其他方法相比,4096維的特征向量算是很小的了。
運(yùn)行結(jié)果是,即使有100k個(gè)分類,一張圖在多核CPU上也只要10秒;生成的低維特征圖只占1.5GB。
Supervised pre-training:先將CNN在ILSVRC 2012上進(jìn)行預(yù)訓(xùn)練(with image-level annotations (i.e., no bounding box labels)),框架采用的是Caffe。由于訓(xùn)練過(guò)程的簡(jiǎn)單化,作者不小心就達(dá)到了ILSVRC最低錯(cuò)誤率;
Domain-specific fine-tuning:微調(diào)過(guò)程,以0.001的學(xué)習(xí)速率進(jìn)行SGD訓(xùn)練。對(duì)某個(gè)分類只要IOU>0.5就視該邊框?yàn)檎怠C看蜸GD迭代都采樣38個(gè)正邊框和96個(gè)背景。
Object category classifiers:對(duì)某個(gè)分類,高IOU和IOU都很好區(qū)分,但I(xiàn)OU處于中值時(shí)則很難定義生成的候選框是否包含了該物體。作者設(shè)定了一個(gè)閾值0.3,低于它的一律視為背景(負(fù)數(shù))。另外,每個(gè)分類都優(yōu)化一個(gè)SVM。由于負(fù)樣本很多,因此還采用了hard negative mining方法
作者提交了兩個(gè)版本,一個(gè)沒有bounding box regression(RCNN),一個(gè)有(RCNN BB),結(jié)果如下:
簡(jiǎn)而言之,就是MAP顯著提高了不少(從35.1%到53.7%),而且運(yùn)行時(shí)間也短。
感謝各位的閱讀,以上就是“R-CNN模型是怎樣的”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)R-CNN模型是怎樣的這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!