9月26日,在溫哥華舉行的IROS大會上,計算機視覺專家、斯坦福AI Lab&Vision Lab主任李飛飛做了“A Quest for Visual Intelligence”的演講,這也是李飛飛首次參加IROS這一機器人為主題的大會。值得注意的是,近日雷鋒網在Arxiv發現了一篇講述新型機器人學習架構的論文《Neural Task Programming: Learning to Generalize Across Hierarchical Tasks》,該論文的主要作者來自于斯坦福,其指導教師正是李飛飛及其丈夫Silvio Savarese。這也标志着人工智能和機器人兩個社群在視覺與感覺方面的重合度越來越大,之後的合作也會越來越緊密。
下面雷鋒網和大家來一起看這篇論文。
摘要: 在本論文中,我們提出了一種名為神經任務程式設計(NTP)的新型機器人學習架構,該方法可以通過較少的示範和神經程式引導進行學習。NTP可将輸入的規範性任務(例如任務的視訊示範)遞歸地将其分解成更精細的子任務規範, 這些規範被傳遞到分級神經程式,通過可調用的底層子程式是與環境進行互動。同時,我們在三個機器人操縱任務中驗證了我們的方法,在試驗中,NTP展示了在顯示分層結構群組合結構的順序任務的強泛化能力化。 實驗結果表明,NTP在學習長度不定、可變拓撲和不斷變化的未知任務的學習和拓展有較好的效果。
自越來越強調“人機協作”的今天,機器人通常在某些特定環境中與人進行長時間的互動,如物體分類、裝配、和清理等。但是以往的機器人通常需要在固定的場景下才能與人互動,如何讓機器人能适應複雜的操作任務、新的任務目标和周圍環境,則是機器人技術中的一個重大挑戰。
設想一個倉庫中的物體分類任務,這通常包括分類、檢索、打包等具體任務,每個任務又可以分解為若幹個動作,如抓取、移動、放下等,這些動作構成了如抓取和放置等子任務,如果在考慮到不同的對象、排序、子任務的排列組合,當中的變化将會非常複雜,例如,将四類物品分類放到四個容器中,這當中的組合會有256中之多。本文中,我們希望解決複雜任務規劃的兩個主要挑戰,即a)從新的概念化到新的任務目标的學習政策,以及b)與長期環境互動的基本原生代碼子產品的組合。
NTP的關鍵基本思想在是跨任務學習和與共享域中的可重用表示。NTP對一個描述任務過程和最終目标時間序列的任務規範進行解釋,并将其分層政策執行個體轉化為一個神經程式。NTP從輸入規範中解碼生成任務目标,并将其分解為子任務并與周邊環境進行互動和回報直至搭成目标,每個程式調用環境觀察和任務規範(輸入),并輸出下一個子程式和相應的子任務規範。
如上圖所示,在給定輸入、任務規範和目前環境的情況下,NTP模型預測需要運作什麼樣的子程式,并作為下一級子任務的輸入,并判斷目前程式是否結束,否則将繼續循環執行任務 。
該研究團隊通過對模拟和實際機器人實驗中的單臂操作任務模拟對NTP進行評估。任務包括:堆疊方塊,目标分類和清理桌子。
該研究的兩個目标:I. 在同一個域中學習多項任務;以及 II. 通過單一例子形成在測試中的泛化能力。
如圖所示,機器手可從模拟的Demo環境(包括圖像、視訊、VR輸入)中進行學習并完成積木的堆疊;
NTP程式設計:通過分級的任務條件輸出政策歸納程式,調用Robot API進行操作。
上圖展示了在堆疊方塊任務中 NTP 的樣本執行軌迹圖。任務是按指定要求堆疊字母塊,頂層程式作為輸入參與整個示範,預測下一個運作的子程式,并為特定輸入作為指定任務的一部分,底層 API 調用機器人作出相應的動作(如Move_to(Blue)、Grasp(Blue)等)。當程式結束符(EOP)為 True,目前程式停止并傳回其調用程式。
如果環境發生變化(如人為破壞已完成的任務),機器人會探測到環境的變化并重複任務。
任務結構的變化包括:改變完成條件(任務語義),可變子任務排列(任務拓撲)和更大的任務量(任務的長度)。随着任務數量的增加,NTP可以為新的任務師範及目标生成更好的結果。
完整示範視訊見:
類似的研究還有雷鋒網之前介紹過的BAIR《One-Shot Visual Imitation Learning via Meta-Learning》的論文,都是通過一次性學習形成的泛化能力讓機器人快速掌握新技能。相比之下,BAIR的論文更偏于算法的疊代改進,而Visual Lab的研究則從任務結構出發提出了一種新的學習架構。雷鋒網(公衆号:雷鋒網)認為,雖然李飛飛團隊之前的研究更多是在計算機視覺領域,但正是如此,才有可能從機器人領域研究者習慣的視角外去思考問題,這篇論文提出的新思路也值得機器人研究者注意。
本文作者:岑大師