編者按: 智顯未來,洞見新知。中科院之聲與中國科學(xué)院自動化研究所聯(lián)合開設(shè)“智言智語”科普專欄,為你介紹人工智能相關(guān)知識與故事,從最新成果到背后趣聞,帶你徜徉AI空間,看人工智能如何喚醒萬物,讓世界變得更美好 。
創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供海勃灣網(wǎng)站建設(shè)、海勃灣做網(wǎng)站、海勃灣網(wǎng)站設(shè)計、海勃灣網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計與制作、海勃灣企業(yè)網(wǎng)站模板建站服務(wù),10余年海勃灣做網(wǎng)站經(jīng)驗,不只是建網(wǎng)站,更提供有價值的思路和整體網(wǎng)絡(luò)服務(wù)。隨著智能技術(shù)的發(fā)展,各式各樣的服務(wù)機器人已經(jīng)成為我們生活中的???。那么,你有沒有產(chǎn)生過這樣的疑問:機器人會認路嗎?它們是怎么探索新環(huán)境的呢?
(圖片來自網(wǎng)絡(luò))
是像人類一樣用炯炯有神的大眼睛直接探路?
(圖片來自網(wǎng)絡(luò))
或者借助某種神妙之力?
當然沒有這么簡單,請聽我們的詳細解答!
以目前已經(jīng)在我們的日常生活中廣泛使用的掃地機器人為例,作為非常需要具備“認路”能力的一類機器人,為了實現(xiàn)快速的環(huán)境清掃工作,它在到達新環(huán)境時的第一項工作便是構(gòu)建環(huán)境地圖。地圖對于移動機器人來說非常重要,一方面,機器人需要通過地圖估計當前時刻在環(huán)境中的位置;另一方面,地圖為機器人的路徑規(guī)劃系統(tǒng)提供了搜索空間,以實現(xiàn)機器人在環(huán)境中安全,快速地移動。
圖1 掃地機器人(圖片來自于網(wǎng)絡(luò))
因此,快速地構(gòu)建精確的環(huán)境地圖是服務(wù)機器人實現(xiàn)安全高效服務(wù)的前提。環(huán)境地圖很重要,但機器人又是如何順利構(gòu)建地圖的呢?這里我們就不得不提到解決這類問題的核心方法未知環(huán)境探索,它是指機器人在一個全新的環(huán)境中,通過自主移動構(gòu)建整個環(huán)境地圖的過程。未知環(huán)境探索的關(guān)鍵在于機器人運動控制的計算,以保證機器人采取有效的動作構(gòu)建精確的環(huán)境地圖。
除了室內(nèi)這種掃地機器人,未知環(huán)境探索方法也廣泛應(yīng)用于室外環(huán)境下的移動機器人上。例如救援機器人,需要在一個新的環(huán)境中搜救幸存者,通過自主探索希望能夠快速地覆蓋整個環(huán)境區(qū)域。礦井勘探機器人以及海底探測機器人上也常常用到這類技術(shù),其任務(wù)目的都是盡可能地覆蓋更多的區(qū)域,以完成特定的任務(wù)。
未知環(huán)境探索方法有著怎樣的發(fā)展歷史呢?
未知環(huán)境探索問題在上個世紀90年代提出,其目標是使機器人在全新的環(huán)境中具有自主決策能力。目前常用的未知環(huán)境探索決策方法有三大類:基于邊界的方法,基于信息的方法,以及基于深度神經(jīng)網(wǎng)絡(luò)的方法。
基于邊界的方法是最早的未知環(huán)境探索方法,它通過檢測地圖中的自由區(qū)域與未知區(qū)域之間的邊界,以引導(dǎo)機器人探索沒有去過的環(huán)境。在三維環(huán)境中,由于這種邊界很難在三維空間地圖上直接搜索,因此會常常與一些隨機搜索算法相結(jié)合,例如快速隨機搜索樹等。這種方法在室內(nèi)服務(wù)機器人,礦井搜索機器人中廣泛使用。
基于信息的方法則是將信息理論中熵的概念引入到未知環(huán)境探索問題中以構(gòu)建優(yōu)化問題。在信息理論中,熵通常用于衡量一個分布的不確定程度。熵值越大,表示對狀態(tài)的不確定性越高。當機器人到達一個新的環(huán)境時,此時面臨地圖的熵值是的,而機器人需要通過移動,增加地圖上每個位置狀態(tài)的確定性,以減小地圖熵值。
隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,近幾年也衍生出了一些基于深度神經(jīng)網(wǎng)絡(luò)的未知環(huán)境探索方法。例如采用深度圖像或局部視野范圍內(nèi)構(gòu)建的地圖作為深度神經(jīng)網(wǎng)絡(luò)的輸入,采用監(jiān)督學(xué)習(xí)訓(xùn)練方法,直接預(yù)測機器人的運動方向。這種方法一方面依賴于大量的監(jiān)督數(shù)據(jù),另一方面容易陷入局部解。強化學(xué)習(xí)作為一種序列決策方法,通常會被結(jié)合進來用于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中。相比于前兩類方法,這類方法的優(yōu)勢有兩點:不再依賴專家規(guī)則,并且可以處理更雜亂的環(huán)境。
基于深度強化學(xué)習(xí)的未知環(huán)境探索方法
近幾年,Alpha Go, AlphaGo Zero等游戲AI在圍棋領(lǐng)域取得巨大突破使其核心技術(shù)“深度強化學(xué)習(xí)”得到了廣泛的關(guān)注。與此同時,深度強化學(xué)習(xí)也逐漸應(yīng)用到機器人領(lǐng)域,而基于深度強化學(xué)習(xí)的自主探索成為未知環(huán)境探索領(lǐng)域的熱點方向之一,這類方法通常是設(shè)計獎勵函數(shù),通過強化學(xué)習(xí)算法,訓(xùn)練傳感器數(shù)據(jù)到動作的映射網(wǎng)絡(luò)。前面也提到,基于深度神經(jīng)網(wǎng)絡(luò)的方法相比于其他方法有很多優(yōu)勢,但是它也存在一些問題。首先,這種方法需要大量訓(xùn)練樣本和訓(xùn)練時間,而訓(xùn)練過程通常是在仿真環(huán)境中進行,由于實際環(huán)境和實際機器人誤差,從而導(dǎo)致從仿真環(huán)境中訓(xùn)練出的智能體很難遷移到實際的機器人上。針對這個問題,中科院自動化所深度強化學(xué)習(xí)團隊提出了一種學(xué)習(xí)效率高、遷移性能強的深度強化學(xué)習(xí)未知環(huán)境自主探索算法。
圖2 自主探索框架
團隊以自主導(dǎo)航框架為基礎(chǔ),將未知環(huán)境探索分解為建圖、決策和規(guī)劃三個模塊。通過將決策模塊與規(guī)劃模塊相結(jié)合,減小機器人學(xué)習(xí)運動的難度,從而提高機器人學(xué)習(xí)效率。并且重新定了機器人決策動作空間,提高算法實體遷移性。該動作空間定義在建圖模塊得到的柵格地圖,由若干目標點構(gòu)成。
圖3 基于柵格地圖的動作空間
在此基礎(chǔ)上,設(shè)計了一種帶有輔助任務(wù)的全卷積Q網(wǎng)絡(luò)(Fully Convolutional Q-network with an Auxiliary task,AFCQN),可以根據(jù)當前時刻構(gòu)建的地圖,當前時刻機器人位置和上一時刻機器人位置,對動作空間中的目標點進行評價。
圖4 動作評價網(wǎng)絡(luò)結(jié)構(gòu)
該網(wǎng)絡(luò)結(jié)構(gòu)可以通過使用結(jié)合地圖信息熵設(shè)計的獎勵函數(shù)實現(xiàn)參數(shù)的自適應(yīng)學(xué)習(xí)。
圖5 實際環(huán)境中自動探索過程
通過仿真環(huán)境中的實驗和實際環(huán)境中實體機器人上的實驗表明,團隊提出的這種基于深度強化學(xué)習(xí)的自主探索算法具有更好的學(xué)習(xí)效率和實體遷移性能。并且相比于經(jīng)典方法,該方法在處理雜亂環(huán)境時具有更高的探索效率。
總結(jié):
未知環(huán)境探索使機器人在新環(huán)境中不再“迷路”,是進行自主工作的前提,也是機器人自主學(xué)習(xí)和進化的關(guān)鍵。未知環(huán)境探索不僅讓機器人熟悉新環(huán)境,更重要的是為后續(xù)決策提供重要的環(huán)境地圖信息。深度強化學(xué)習(xí)為未知環(huán)境探索提供了新思路,但也面臨著學(xué)習(xí)效率低的問題。高效和魯棒的學(xué)習(xí)算法仍然是今后努力發(fā)展的方向。
參考文獻:
1. B. Yamauchi, “A frontier-based approach for autonomous exploration,” in Proceeding of IEEE International Symposium on Computational Intelligence in Robotics and Automation (CIRA). IEEE, 1997, pp. 146151.
2. C. Stachniss, et al. “Information gain-based exploration using Rao-Blackwellized particle filters.” In Proceedings of Robotics: Science and Systems (RSS), 2005, pp. 6572.
3. L. Tai and M. Liu, “Mobile robots exploration through CNN-based reinforcement learning,” Robotics and Biomimetics, vol. 3, no. 1, p. 24, 2016.
4. S. Bai, F. Chen, and B. Englot, “Toward autonomous mapping and exploration for mobile robots through deep supervised learning,” in Proceeding of IEEE International Conference on Intelligent Robots and Systems (IROS). IEEE, 2017, pp. 23792384.
5. H. Li, Q. Zhang, and D. Zhao. “ Deep reinforcement learning-based automatic exploration for navigation in unknown environment,” IEEE Transactions on Neural Networks and Learning Systems, vol. 31, no. 6, pp. 20642076, 2020.
來源:中國科學(xué)院自動化研究所