大家在用手機或單反拍照的時候,通常快門設定太長的時候,拍運動物體出來的照片容易産生拖影,如果非藝術拍攝這樣的照片是非常糟糕的。
麻省理工學院的研究人員最近開發了一種模型,該模型可以恢複從“折疊”成較小尺寸的圖像和視訊中丢失的寶貴資料。
概述
該模型可用于從運動模糊圖像或新的錄影機中重新建立視訊,這些錄影機捕獲人在拐角處的運動,但隻能作為模糊的一維線。盡管需要更多的測試,但研究人員認為這種方法有朝一日可以用于将2D醫學圖像轉換為内容更豐富(但價格更高)的3D身體掃描,這可以使貧窮國家的醫學成像受益。
捕獲的可視資料通常會将時間和空間的多個次元的資料折疊為一維或二維,稱為“投影”。例如,X射線将有關解剖結構的三維資料折疊成平面圖像。或者,考慮長時間曝光的恒星在天空中移動的鏡頭:位置随時間變化的恒星在靜止鏡頭中顯示為模糊的條紋。
描述該模型的論文的第一作者Guha Balakrishnan說:在所有這些情況下,視覺資料都在時間或空間上具有一個次元-完全丢失了。
麻省理工學院發明的“轉角錄影機”可以檢測到拐角處的人。例如,這些對于消防員在燃燒的建築物中找到人可能有用。但是這些相機并非完全使用者友好。目前,它們僅産生類似于人的軌迹和速度的模糊,彎曲的線條的投影。
研究人員發明了一種“視覺投影”模型,該模型使用神經網絡來“學習”将低維投影與其原始高維圖像和視訊相比對的模式。給定新的投影,模型将使用所學知識從投影重新建立所有原始資料。
在實驗中,該模型通過從與角落錄影機産生的相似的單維線中提取資訊,合成了精确的視訊幀,以顯示人的行走情況。該模型還從流行的“移動MNIST”資料集中,從螢幕周圍移動的單個運動模糊數字投影中恢複了視訊幀。
線索像素
Balakrishnan說,這項工作起初是一個“酷反轉問題”,用于重制造成長時間曝光攝影中運動模糊的運動。在投影的像素中,存在有關高維光源的一些線索。
例如,捕獲長時間曝光的數位相機基本上會在一段時間内在每個像素上聚集光子。在捕獲對象随時間的運動時,相機将擷取運動捕獲像素的平均值。然後,将那些平均值應用于靜止圖像的相應高度和寬度,進而建立對象軌迹的特征性模糊條紋。通過計算像素強度的一些變化,理論上可以重新建立運動。
正如研究人員所意識到的那樣,該問題在許多領域都涉及到:例如X射線捕獲解剖結構的高度,寬度和深度資訊,但他們使用類似的像素平均技術将深度折疊成2D圖像。角照相機-由弗裡曼(Freeman),杜蘭德(Durand)和其他研究人員于2017年發明-捕獲隐藏場景周圍的反射光信号,該圖像承載有關人與牆壁和物體的距離的二維資訊。然後,像素平均技術會将這些資料折疊成一維視訊-基本上是在一行中随時間變化的不同長度的測量值。
研究人員基于卷積神經網絡(CNN)建立了一個通用模型-一種機器學習模型,該模型已成為圖像處理任務的強大動力-可以捕獲有關平均像素中任何尺寸損失的線索。
合成信号
在訓練中,研究人員為CNN提供了成千上萬對投影及其高維信号,稱為“信号”。CNN會學習與信号中的像素圖案比對的投影中的像素圖案。為CNN供電的是一個稱為“變量自動編碼器”的架構,該架構可評估CNN輸出在某種統計機率上與輸入的比對程度。由此,模型學習了可能産生給定投影的所有可能信号的“空間”。本質上,這為如何從投影變為所有可能的比對信号建立了一種藍圖。
原理
我們的網絡體系結構概述,此處針對2D到3D時空投影任務繪制。
該網絡具有三個參數化函數:變分後驗分布的qΨ(···)、先驗分布的pφ(···)、反投影網絡的gθ(·,·)。z在訓練期間從q網絡中采樣,在測試期間從p網絡中采樣。
對于後驗分布參數編碼器q,它包含一系列3d跨度卷積算子和一個洩漏的relu激活函數,得到μΨ和σΨ兩個分布參數。
條件a先驗編碼器p由于沒有時間次元資訊,而僅具有2d跨度卷積,是以以類似的方式實作。
對于反投影函數gθ(x,z),它使用unet類型架構計算x的每個像素特征。UNET分為兩個階段:第一階段,使用一系列二維跨度卷積算子來提取多尺度特征;第二階段,使用一系列二維卷積和上采樣運算來合成X和更多的資料信道。
FacePlace的空間投影
FacePlace由236種不同的5,000幅圖像組成人。可變性的來源很多,包括
不同種族,多種觀點,面部表情和道具。我們随機提供了30個人的所有圖像形成測試集。我們将圖像縮放到128×128像素,通過翻譯,縮放和執行資料增強飽和度變化。我們将我們的方法與以下基準:
1.最近鄰居選擇器(k-NN):使用均方誤差距離從訓練資料集中選擇k個圖像,這些圖像的投影最接近測試投影。
1.最近鄰居選擇器(k-NN):使用均方誤差距離從訓練資料集中選擇k個圖像,這些圖像的投影最接近測試投影。
2.與我們方法的投影網絡gθ(x,z)相同的确定性模型(DET),但不包含潛在變量z
3.線性最小均方誤差(LMMSE)估計器,它假定x和y來自分布X,Y,使得y = EY [y]在x中是線性的:對于某些參數A和b,y = Ax + b。最小化y的期望MSE産生封閉形式的表達式對于p(y | x):
所有方法的FacePlace PSNR(垂直投影在頂部,水準在底部,最大信号PSNR(投影估計)在左側,平均投影PSNR在右),并具有100個測試投影的不同樣本量。我們的該方法産生的最大信号PSNR高于所有基線。DET對于一個樣本具有較高的預期信号PSNR,因為它傾向于在許多樣本上傳回模糊的平均值信号。LMMSE具有無限投影PSNR。
我沒看下他們内部資料集中的四個示例的示例輸出。左列顯示輸入垂直投影。對于每個示例,第一行顯示基本事實序列,而下一行顯示我們方法的使用z = µφ的平均輸出。
步行視訊的空間變形
我們定性地評估我們的重建方法來自垂直空間投影的人類步态視訊。這個場景對于轉角錄影機具有實際意義,如第2節所述。2.1。我們收集了30個主題的35個視訊每個人在指定區域内步行一分鐘。科目着裝不同,身高(5’2”-6’5”),年齡(18-60)和性别(18m / 12f)。沒有訓示受試者走進任何特定的方式,許多人以奇怪的方式走着。所有視訊的背景都是相同的。我們對視訊到每秒5幀,每幀到256×224像素,并将水準平移的資料增強應用于每個視訊。我們選出6個科目進行測試組。我們預測24幀的序列(大約5秒鐘實時)。如下圖所示:
再來看看移動MNIST資料集的樣本輸出。左列顯示輸入投影。對于每個示例,第一行顯示基本事實序列。我們顯示了每個輸入投影通過我們的方法産生的兩個樣本序列:第一個與基本事實的時間方向比對,第二個則與逆向時間程序合成。
總結
在這篇文章中,作者介紹了視覺的投影問題:合成已經沿着一個次元崩潰成一個低次元的觀察,并提出了第一個通用方法圖像和視訊,以及沿這些資料任何次元的投影,解決了任務的不确定性。
首先介紹一個機率模型以投影為條件的原始信号分布。作者實作了該模型的參數化功能與CNN一起學習每個域中的共享圖像結構,并實作準确的信号合成。盡管從折疊的次元擷取的資訊通常似乎無法從裸露的投影中恢複
顯而易見,但結果表明,許多“丢失”的資訊都是可以恢複的。
最近研究人員沒有在醫學圖像上測試他們的模型。但是他們現在正在與康奈爾大學的同僚合作,從2D醫學圖像(例如X射線)中恢複3D解剖學資訊,而無需增加成本,這可以在較貧窮的國家實作更詳細的醫學成像。醫生通常更喜歡3D掃描,例如用CT掃描捕獲的3D掃描,因為它們包含更多有用的醫學資訊。
是以這項技術在未來的應用中具有無形的可能性。
相關論文源碼下載下傳位址:關注“圖像算法”微信公衆号