ICCV中國團(tuán)隊入選論文：首個提出視覺相關(guān)關(guān)系構(gòu)建更高語義價值

2019-11-25 12:54:06

【導(dǎo)讀】本文提出視覺相關(guān)的對象關(guān)系在語義理解上有更高的價值。在視覺關(guān)系學(xué)習(xí)表達(dá)中，我們需要關(guān)注于視覺相關(guān)關(guān)系，而避免對于視覺無關(guān)的信息學(xué)習(xí)。由于現(xiàn)有數(shù)據(jù)中存在大量的非視覺的先驗信息，方法上很容易學(xué)到簡單的位置關(guān)系或單一固定關(guān)系，而不具備進(jìn)一步推測學(xué)習(xí)語義信息的能力。從而導(dǎo)致現(xiàn)有關(guān)系數(shù)據(jù)的表征并不能明顯提升語義相關(guān)任務(wù)性能。來新智元AI朋友圈和AI大咖們一起討論吧。

酉陽土家族苗族網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián),酉陽土家族苗族網(wǎng)站設(shè)計制作，有大型網(wǎng)站制作公司豐富經(jīng)驗。已為酉陽土家族苗族1000多家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\外貿(mào)網(wǎng)站制作要多少錢，請找那個售后服務(wù)好的酉陽土家族苗族做網(wǎng)站的公司定做！

本文提出視覺相關(guān)的對象關(guān)系在語義理解上有更高的價值。在視覺關(guān)系學(xué)習(xí)表達(dá)中，我們需要關(guān)注于視覺相關(guān)關(guān)系，而避免對于視覺無關(guān)的信息學(xué)習(xí)。由于現(xiàn)有數(shù)據(jù)中存在大量的非視覺的先驗信息，方法上很容易學(xué)到簡單的位置關(guān)系或單一固定關(guān)系，而不具備進(jìn)一步推測學(xué)習(xí)語義信息的能力。從而導(dǎo)致現(xiàn)有關(guān)系數(shù)據(jù)的表征并不能明顯提升語義相關(guān)任務(wù)性能。而本文提出明確了視覺關(guān)系學(xué)習(xí)中什么是值得學(xué)習(xí)的，什么是需要學(xué)習(xí)的。并且通過實驗，也驗證了所提出的視覺相關(guān)關(guān)系數(shù)據(jù)可以有效的提升特征的語義理解能力。

數(shù)據(jù)及項目網(wǎng)站：

論文：

引文：

在計算機(jī)視覺的研究中，感知任務(wù)（如分類、檢測、分割等）旨在準(zhǔn)確表示單個物體對象信息；認(rèn)知任務(wù)（如看圖說話、問答系統(tǒng)等）旨在深入理解整體場景的語義信息。而從單個物體對象到整體場景，視覺關(guān)系表征兩個物體之間的交互，連接多個物體構(gòu)成整體場景。關(guān)系數(shù)據(jù)可以作為物體感知任務(wù)和語義認(rèn)知任務(wù)之間的橋梁和紐帶，具有很高的研究價值。

考慮到關(guān)系數(shù)據(jù)在語義上的這種紐帶的作用，對象關(guān)系數(shù)據(jù)應(yīng)當(dāng)有效的推進(jìn)計算機(jī)視覺方法對于場景語義理解上的能力。構(gòu)建從單物體感知，到關(guān)系語義理解，到整體場景認(rèn)知，由微觀到宏觀，由局部到整體的層次化的視覺理解能力。

但現(xiàn)有關(guān)系數(shù)據(jù)中，由于大量先驗偏置信息的存在，導(dǎo)致關(guān)系數(shù)據(jù)的特征并不能有效的利用在語義理解中。其中，位置關(guān)系如``on'', ``at''等將關(guān)系的推理退化為對象檢測任務(wù)，而單一固定的關(guān)系，如``wear''，``has''等，由于數(shù)據(jù)中主體客體組合搭配固定，此類關(guān)系將關(guān)系推理退化為簡單演繹推理。因此這些關(guān)系數(shù)據(jù)的大量存在，導(dǎo)致關(guān)系特征的學(xué)習(xí)更多傾向于對單物體感知，而非真正的對場景語義的理解，從而無法使關(guān)系數(shù)據(jù)發(fā)揮的作用。同時，這種語義上的、學(xué)習(xí)上的先驗偏置，無法通過常規(guī)的基于頻率或規(guī)則的方法篩選剔除，這導(dǎo)致上述數(shù)據(jù)端的問題阻礙了關(guān)系語義理解上的發(fā)展與研究，使得視覺對象關(guān)系的研究與語義理解的目標(biāo)漸行漸遠(yuǎn)。

本文首先提出視覺相關(guān)假設(shè)和視覺相關(guān)關(guān)系判別網(wǎng)絡(luò)來構(gòu)建具有更高語義價值的數(shù)據(jù)集。我們認(rèn)為，許多關(guān)系數(shù)據(jù)不需要理解圖像，僅僅通過單物體感知上的標(biāo)簽信息（如bounding box, class）就可以推斷的是關(guān)系學(xué)習(xí)中應(yīng)避免的，即非視覺相關(guān)關(guān)系。而在關(guān)系數(shù)據(jù)中，對于視覺相關(guān)關(guān)系的學(xué)習(xí)與理解，將逼迫網(wǎng)絡(luò)通過圖像上的視覺信息，推理得到關(guān)系語義信息，而不是依賴基于單物體感知的能力，擬合先驗偏置的標(biāo)簽。

在我們的方法中，我們設(shè)計了一個視覺相關(guān)判別網(wǎng)絡(luò)，通過網(wǎng)絡(luò)自主的學(xué)習(xí)，分辨那些僅通過一些標(biāo)簽信息即可推斷的非視覺相關(guān)關(guān)系，從而保證數(shù)據(jù)中留存的都是具有高語義價值的視覺相關(guān)關(guān)系。此外，我們設(shè)計了一個考慮關(guān)系的聯(lián)合訓(xùn)練方法，有效的學(xué)習(xí)關(guān)系標(biāo)簽的信息。在實驗中，我們從兩個方面驗證了我們的想法。關(guān)系表征學(xué)習(xí)中，在場景圖生成任務(wù)上，我們的視覺相關(guān)關(guān)系有效的拉大了學(xué)習(xí)型方法與非學(xué)習(xí)型方法之間的性能差距，由此證明了非視覺關(guān)系是關(guān)系數(shù)據(jù)中的先驗偏置且通過簡單方法即可推斷。另一方面，通過學(xué)習(xí)視覺相關(guān)關(guān)系，我們得到的特征具有更好的語義表達(dá)與理解能力。該特征也在問答系統(tǒng)、看圖說話中展現(xiàn)出更好的性能，由此證明了視覺相關(guān)關(guān)系是真正需要被學(xué)習(xí)，且更有利于提升語義理解能力。

方法:

1. 視覺相關(guān)判別網(wǎng)絡(luò)（VD-Net）

提出的VD-Net用于分辨對象關(guān)系是否視覺相關(guān)。網(wǎng)絡(luò)僅需要物體對象的位置信息bounding box和類別信息class，并將兩種信息做編碼輸入，而不考慮圖像信息。具體輸入如下：

位置編碼：

其中含有物體中心點、寬高、位置關(guān)系信息、尺寸信息等。

針對類別信息，我們使用類別標(biāo)簽的glove 特征向量作為輸入。

網(wǎng)絡(luò)設(shè)置如下：

為了避免過擬合，網(wǎng)絡(luò)設(shè)計需要盡可能的小。網(wǎng)絡(luò)包含4個全連接層，其中,,分別是主體、客體的位置編碼及二者聯(lián)合位置編碼。,分別是主體、客體對象的類別詞向量。

通過VD-Net的學(xué)習(xí)，可以發(fā)現(xiàn)現(xiàn)有的數(shù)據(jù)集中，關(guān)系預(yù)測具有很高的準(zhǔn)確率，在VG150中，37%的標(biāo)簽在VD-Net中有至少50%的準(zhǔn)確率。

2. 考慮關(guān)系信息的聯(lián)合特征學(xué)習(xí)：

我們提出的方法如下：

其中，我們使用Faster-RCNN用于特征提取，取自于RPN部分。網(wǎng)絡(luò)綜合的學(xué)習(xí)位置、類別、屬性和關(guān)系信息。通過對象關(guān)系的信息，進(jìn)一步拓展特征的語義表征能力。

實驗：

1. 場景圖生成實驗：

Freqency-Baseline是非學(xué)習(xí)型方法，基于對數(shù)據(jù)的統(tǒng)計。在我們的實驗中，VrR-VG明顯的拉開了非學(xué)習(xí)方法與可學(xué)習(xí)方法之間的性能差距。更加凸顯出場景圖生成任務(wù)中，各個方法的真實性能。同時，實驗也說明非視覺相關(guān)的關(guān)系比較容易。相對來說，在含有大量非視覺關(guān)系的情況下，網(wǎng)絡(luò)學(xué)習(xí)到的內(nèi)容和基于統(tǒng)計的非學(xué)習(xí)型方法直接推斷的內(nèi)容差距有限。

在問答系統(tǒng)實驗中，通過學(xué)習(xí)視覺相關(guān)關(guān)系，特征具有更好的性能，在指標(biāo)上有明顯的提升。

在具體的案例分析上，通過學(xué)習(xí)視覺相關(guān)關(guān)系，特征能夠提供更多的語義信息。一些通過單物體信息無法正確回答的問題，在我們的方法下有明顯的效果。

在看圖說話的任務(wù)中，通過學(xué)習(xí)視覺相關(guān)關(guān)系，任務(wù)的性能也有提升。

通過對生成的句子案例分析，我們可以發(fā)現(xiàn)，我們的方法給出了一些具有鮮明語義關(guān)系的句子。有時句子整體會有更加鮮活的表達(dá)，內(nèi)涵更加豐富的交互信息。

結(jié)論：

在對象關(guān)系的學(xué)習(xí)與應(yīng)用中，我們需要關(guān)注視覺相關(guān)關(guān)系的學(xué)習(xí)?，F(xiàn)有關(guān)系數(shù)據(jù)不能有效的利用在語義相關(guān)的任務(wù)中，其主要問題是在數(shù)據(jù)側(cè)而非方法側(cè)。為了使對象關(guān)系應(yīng)該在語義理解上有更廣泛深入的引用，需要首先明晰那些關(guān)系需要學(xué)習(xí)。在解決什么需要學(xué)的前提下，才能在如何學(xué)習(xí)的方法側(cè)走的更遠(yuǎn)。

https://www.toutiao.com/i6763103092482245132/

分享文章：ICCV中國團(tuán)隊入選論文：首個提出視覺相關(guān)關(guān)系構(gòu)建更高語義價值
網(wǎng)頁鏈接：http://weahome.cn/article/ppjhdj.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

ICCV中國團(tuán)隊入選論文：首個提出視覺相關(guān)關(guān)系構(gòu)建更高語義價值

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管