聽(tīng)聲辨物！不再只靠視覺(jué)和觸覺(jué)，機(jī)器人用“耳朵”聽(tīng)來(lái)區(qū)分不同物體

人們很少只用一種感覺(jué)來(lái)理解世界，但機(jī)器人通常只依靠視覺(jué)，并且越來(lái)越多地依靠觸覺(jué)。近年來(lái)，研究人員開(kāi)發(fā)了越來(lái)越多的計(jì)算技術(shù)，使機(jī)器人具有類(lèi)似人類(lèi)的能力。然而，到目前為止發(fā)展起來(lái)的大多數(shù)技術(shù)僅僅注重于人為地再現(xiàn)視覺(jué)和觸覺(jué)，而忽略了其它的感覺(jué)，如聽(tīng)覺(jué)。

創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括芒康網(wǎng)站建設(shè)、芒康網(wǎng)站制作、芒康網(wǎng)頁(yè)制作以及芒康網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃等。多年來(lái)，我們專(zhuān)注于互聯(lián)網(wǎng)行業(yè)，利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等，向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案，芒康網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前，我們服務(wù)的客戶(hù)以成都為中心已經(jīng)輻射到芒康省份的部分城市，未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶(hù)的支持與信任！

現(xiàn)在，卡耐基梅隆大學(xué)的研究人員發(fā)現(xiàn)，機(jī)器人的感知能力可以通過(guò)增加另一種感官來(lái)顯著提高：聽(tīng)覺(jué)。

卡內(nèi)基梅隆大學(xué) ( CMU ) 的一個(gè)研究小組最近進(jìn)行了一項(xiàng)研究，探索利用聲音開(kāi)發(fā)具有更先進(jìn)傳感能力的機(jī)器人的可能性。他們的論文發(fā)表在《機(jī)器人技術(shù) : 科學(xué)與系統(tǒng)》上，介紹了迄今為止大的聲音 - 動(dòng)作 - 視覺(jué)數(shù)據(jù)集，該數(shù)據(jù)集是作為一個(gè)名為 Tilt-Bot 的機(jī)器人平臺(tái)收集的，并與各種各樣的物體進(jìn)行交互。

在機(jī)器人學(xué)習(xí)中，我們通常只使用視覺(jué)輸入來(lái)進(jìn)行感知，但人類(lèi)有更多的感官模式，而不僅僅是視覺(jué)。開(kāi)展這項(xiàng)研究的研究人員之一 Lerrel Pinto 說(shuō)。聲音是學(xué)習(xí)和理解我們的物理環(huán)境的關(guān)鍵組成部分。所以，我們問(wèn)了這個(gè)問(wèn)題 : 聲音能給機(jī)器人帶來(lái)什么 ? 為了回答這個(gè)問(wèn)題，我們創(chuàng)造了 Tilt-Bot，一個(gè)機(jī)器人可以與物體互動(dòng)，并收集大規(guī)模的視聽(tīng)數(shù)據(jù)集的互動(dòng)。

研究人員收集了 15000 多個(gè) Tilt-Bot 與 60 個(gè)不同物體互動(dòng)的視覺(jué)和音頻數(shù)據(jù)。這使得他們能夠匯編一個(gè)新的圖像和音頻數(shù)據(jù)集，可以幫助訓(xùn)練機(jī)器人在動(dòng)作、圖像和聲音之間建立聯(lián)系。

在論文中，Pinto 和他的同事們使用這個(gè)數(shù)據(jù)集來(lái)探索機(jī)器人應(yīng)用中聲音和動(dòng)作之間的關(guān)系，收集了許多有趣的發(fā)現(xiàn)。首先，他們發(fā)現(xiàn)分析物體移動(dòng)和撞擊表面的聲音記錄可以讓機(jī)器區(qū)分不同的物體，例如區(qū)分金屬螺絲刀和金屬扳手。

Pinto 解釋說(shuō) : 我們研究的一個(gè)令人興奮的初步結(jié)果是，僅憑聲音就可以識(shí)別出物體的類(lèi)型，準(zhǔn)確率接近 80%。我們還證明，機(jī)器可以學(xué)習(xí)基于聲音的物體表示，這可以幫助機(jī)器人解決以后的任務(wù)。例如，當(dāng)識(shí)別空酒杯的聲音時(shí)，機(jī)器人會(huì)明白操作空酒杯和操作滿(mǎn)酒杯需要不同的動(dòng)作。

有趣的是，Pinto 和他的同事們發(fā)現(xiàn)，在解決機(jī)器人任務(wù)時(shí)，聲音記錄有時(shí)能比視覺(jué)表現(xiàn)提供更有價(jià)值的信息，因?yàn)樗鼈円部梢杂脕?lái)有效地預(yù)測(cè)一個(gè)物體的未來(lái)運(yùn)動(dòng)。在一系列使用機(jī)器人在訓(xùn)練中沒(méi)有遇到過(guò)的物體的實(shí)驗(yàn)中，他們發(fā)現(xiàn)機(jī)器人與這些物體交互時(shí)收集到的嵌入音頻可以預(yù)測(cè)正向模型 ( 也就是前向模型 ) 。 ( 例如，如何在未來(lái)最好地操縱一個(gè)物體 ) 比被動(dòng)的視覺(jué)嵌入好 24%。

其它領(lǐng)域的大量初步工作表明，聲音可能有用，但它在機(jī)器人技術(shù)上有多大用處尚不清楚。Pinto 補(bǔ)充說(shuō)，研究結(jié)果令人鼓舞，這可能會(huì)為未來(lái)的機(jī)器人裝備工具手杖，使它們能夠敲擊想要識(shí)別的物體。

研究人員在上個(gè)月的虛擬機(jī)器人科學(xué)與系統(tǒng)會(huì)議上展示了他們的發(fā)現(xiàn)。其他團(tuán)隊(duì)成員包括機(jī)器人學(xué)副教授 Abhinav Gupta，以及現(xiàn)任 Facebook 人工智能研究中心匹茲堡實(shí)驗(yàn)室科學(xué)家的 Dhiraj Gandhi。

研究人員創(chuàng)建的這個(gè)大型數(shù)據(jù)集，同時(shí)記錄 60 種常見(jiàn)物品的視頻和音頻，比如玩具積木、手工工具、鞋子、蘋(píng)果和網(wǎng)球，當(dāng)這些物品在托盤(pán)上滑動(dòng)或滾動(dòng)并撞到托盤(pán)側(cè)面時(shí)。此后，他們發(fā)布了這個(gè)數(shù)據(jù)集，對(duì) 15000 個(gè)互動(dòng)進(jìn)行了分類(lèi)，供其他研究人員使用。

研究小組采用 Tilt-Bot 的實(shí)驗(yàn)設(shè)備來(lái)捕捉這些互動(dòng)。Tilt-Bot 是一個(gè)附在 Sawyer 機(jī)器人手臂上的方形托盤(pán)。這是建立大型數(shù)據(jù)集的有效方法 ; 他們可以在托盤(pán)中放置一個(gè)物體，讓 Sawyer 花上幾個(gè)小時(shí)在不同傾斜程度的隨機(jī)方向移動(dòng)托盤(pán)，同時(shí)攝像頭和麥克風(fēng)記錄下每個(gè)動(dòng)作。

他們還收集了托盤(pán)之外的一些數(shù)據(jù)，使用 Sawyer 推動(dòng)表面上的物體。

盡管這個(gè)數(shù)據(jù)集的規(guī)模是前所未有的，其他研究人員也研究了智能代理如何從聲音中收集信息。例如，機(jī)器人學(xué)助理教授奧利弗克羅默 ( Oliver Kroemer ) 領(lǐng)導(dǎo)了一項(xiàng)研究，通過(guò)搖動(dòng)一個(gè)容器，利用聲音來(lái)估計(jì)大米或意大利面等顆粒狀物質(zhì)的數(shù)量，或者估計(jì)這些物質(zhì)從勺子中流出的量。

Pinto 說(shuō)，聲音對(duì)機(jī)器人的有用性并不令人驚訝，盡管他和其他人對(duì)聲音被證明如此有用感到驚訝。例如，他們發(fā)現(xiàn)，機(jī)器人可以利用它所學(xué)到的一組物體的聲音來(lái)預(yù)測(cè)之前未見(jiàn)過(guò)的物體的物理特性。

他說(shuō) : 我認(rèn)為真正令人興奮的是，當(dāng)它失敗的時(shí)候，它是在你預(yù)期會(huì)失敗的事情上失敗。例如，機(jī)器人不能用聲音分辨紅色積木和綠色積木。但如果是不同的物體，比如一塊積木和一個(gè)杯子，它就能搞清楚。

這個(gè)研究小組收集的數(shù)據(jù)集可以最終幫助開(kāi)發(fā)機(jī)器人，這些機(jī)器人可以根據(jù)在周?chē)h(huán)境中收集的音頻和圖像來(lái)選擇自己的動(dòng)作和對(duì)象操作策略。Pinto 和他的同事們現(xiàn)在正計(jì)劃進(jìn)一步研究聲音分析的潛力，以創(chuàng)造出更先進(jìn)的能力的機(jī)器人。

Pinto 說(shuō) : 這項(xiàng)工作只是將聲音整合到機(jī)器人中的第一步。在我們未來(lái)的工作中，我們將著眼于聲音和行動(dòng)的更多實(shí)際應(yīng)用。

編譯 / 前瞻經(jīng)濟(jì)學(xué)人 APP 資訊組

原文來(lái)源：

https://techxplore.com/news/2020-08-action-ears-eyes-robot-perception.html

https://techxplore.com/news/2020-08-exploring-interactions-action-vision-robotics.html

文章名稱(chēng)：聽(tīng)聲辨物！不再只靠視覺(jué)和觸覺(jué)，機(jī)器人用“耳朵”聽(tīng)來(lái)區(qū)分不同物體
當(dāng)前URL：http://weahome.cn/article/cjdgdp.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

聽(tīng)聲辨物！不再只靠視覺(jué)和觸覺(jué)，機(jī)器人用“耳朵”聽(tīng)來(lái)區(qū)分不同物體

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

聽(tīng)聲辨物！不再只靠視覺(jué)和觸覺(jué)，機(jī)器人用“耳朵”聽(tīng)來(lái)區(qū)分不同物體

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

聽(tīng)聲辨物！不再只靠視覺(jué)和觸覺(jué)，機(jī)器人用“耳朵”聽(tīng)來(lái)區(qū)分不同物體