天天看點

看YouTube學做廣播體操?機器人即将掌握人類所有動作 | 一周AI最火論文

能夠“觀看和學習”YouTube視訊的機器人

機器人世界正在迅速地發展,很快我們就會目睹機器人掌握更多之前隻有人類能夠掌握的技能。在這篇論文中,研究人員提出了一個激動人心的課題——指導機器人複制視訊中的動作。他們解決了機器人對協同動作計劃學習的挑戰。

研究的目标是讓機器人在網際網路上“觀看”視訊、提取視訊中的動作序列并将其轉換為可執行的計劃,使其既可以自主執行、也可以作為機器人團隊和人機團隊中的一部分來執行。

看YouTube學做廣播體操?機器人即将掌握人類所有動作 | 一周AI最火論文

為了示範該架構的适用性,研究人員輸入了一個YouTube視訊,該視訊示範了一個完整的協作烹饪任務。該架構假定視訊中的目标已被标記,并使用一個最新的目标檢測模型為每個目标限定一個邊界。

技術世界正處于一個令人興奮的發展階段,尤其是在機器人技術等機器學習技術不斷進步的當下。更令人激動的是,網際網路中包含的大量視訊内容都可以被機器人用以執行人機團隊和機器人團隊中的協同任務。

在本文示範中,兩個機械臂重制了一個簡單的烹饪視訊。這是朝着機器人通過線上觀看視訊來執行一系列操作計劃的目标,邁出的重要一步。本文方法的局限性來自最新的目标檢測技術需要滿足的前提假設等。

原文:

https://arxiv.org/abs/1911.10686

用于六維姿态估計的多視圖比對網絡

本文中,研究人員提出了一種新技術,用于估計單個RGB圖像中的六維姿态。

該方法結合了目标檢測和分割方法,通過将輸入圖像與渲染圖像進行比對來估計、優化和跟蹤目标的姿态。

首先,研究人員使用Mask R-CNN來檢測和分割輸入圖像中感興趣的目标;然後,使用多視圖比對模型來估計該目标的6D姿态;最後,使用單視圖比對模型完善姿态估計。該方法獲得的準确度可與正常RGB姿态估計的最新方法(如PoseCNN + DeepIM)得到的準确度相媲美。

看YouTube學做廣播體操?機器人即将掌握人類所有動作 | 一周AI最火論文

本文為如何擴充獨特的模型用于估計、改進和跟蹤目标的姿态,提供了新的研究思路。

本項研究提出的方法展示了網絡如何自動協助優化和跟蹤過程。該方法擴充了一個用于姿态估計、改進和跟蹤的姿态優化網絡DeepIM,而無需使用外部的初始姿态估計方法。

是以,初始姿态估計網絡(如PoseCNN)可能會被可用度高的目标檢測網絡所取代,而該目标檢測網絡已認證大型訓練資料集進行了訓練。

https://arxiv.org/abs/1911.12330

使用圖像分析和檢測社會關系

本文中,兩名研究人員提出了一種可用于圖像集中的面部圖表示的方法。該方法根據面部表情、親近程度、同時出現和頭部朝向來分析在一個社交活動中有多少人被聯系起來。為了實作這一目标,研究人員定義了集合中每對目标之間的“連通性”測量值,該值代表了他們之間的關聯程度。

在下圖中,節點表示集合中的主題,邊緣表示節點之間的連接配接。節點越近,主題之間的聯系就越緊密。

看YouTube學做廣播體操?機器人即将掌握人類所有動作 | 一周AI最火論文

研究人員還開發了圖形使用者界面,使用者可以在界面中單擊節點或邊緣來展示存在相連主題的圖像集。

文中通過分析婚禮慶典、情景喜劇視訊、排球比賽以及從Twitter提取的帶有标簽的圖像提供了較為準确的結果。

的确,人臉識别和分析的最新技術還遠遠不夠完美。是以,為了對社會關系進行更強有力地分析,任何有助于檢測和衡量圖像集中個人互動的貢獻都很重要。

本文提供的工具對于檢測圖像集中現有的社會關系非常有幫助。未來,研究人員希望通過分析連通性矩陣,将檢測目标增加到三人或更多。

https://arxiv.org/abs/1911.11970

以智能手機為觸摸闆在大型沉浸式顯示器中進行多人互動

自誕生之日起,智能手機就完成了許多曾經被定義為Impossible Mission的任務。在這次的研究中,智能手機可以用作多人空間互動界面的觸摸闆了!

這項工作背後的研究人員提出了多種方法,合并了使用者實體位置、輸入裝置(如智能手機和藍牙麥克風)等資訊,并将個人和共享螢幕區域進行自動情境化,使多個使用者同時與一個大型的沉浸式螢幕進行互動。

個人互動區域出現在矩形封閉螢幕的兩側,使用者可以在其中自由移動,選擇空間,并操縱或生成相關圖像。中間的共享螢幕區域可供多個使用者同時使用,這一區域會基于使用者選擇的圖像和預先定義的環境來生成布局。

該方法允許多個使用者以自然的方式與較大的視覺沉浸式空間進行互動。

它可以将各種個人裝置和語音與空間智能內建在一起,定義個人和共享互動區域,這為利用空間進行應用(包括課堂學習、協作、遊戲等)提供了可能性。

視訊示範:

https://www.youtube.com/watch?v=KMFVWdSi--4&feature=youtu.be https://arxiv.org/abs/1911.11751v1

實作有效的Mix-and-Match圖像生成

在本文中,研究人員介紹了一個叫做MixNMatch的條件生成模型,它可以學習從真實圖像中分離編碼背景、對象姿态、形狀和紋理因素等。MixNMatch提供了圖像生成中的細粒度控制,其中每個因子都可被唯一地控制。

看YouTube學做廣播體操?機器人即将掌握人類所有動作 | 一周AI最火論文

MixMatch在訓練期間需要邊界框來對背景模組化,但不需要其它監督。它以實際參考圖像、采樣的潛在代碼或兩者的混合作為輸入,以準确分離、編碼群組合多個因素,以生成混合比對圖像。

自從生成對抗網絡(GAN)發現以來,圖像生成已經取得了長足的進步。這項工作示範了如何将來自四個不同圖像的各種形狀、姿勢、紋理和背景進行組合,以建立全新的圖像。

通過許多有趣的應用程式(包括sketch2color、cartoon2img和img2gif),圖像生成在實作真實圖像的最新細粒度對象類别聚類結果方面取得了顯著成果。

這一研究目前還存在着一些限制,如MixNmatch未能生成良好的對象掩碼,進而生成不完整的對象。

代碼/模型/示範:

https://github.com/Yuheng-Li/MixNMatch https://arxiv.org/abs/1911.11758v1

文章來源:大資料文摘

作者:Christopher Dossman

繼續閱讀