Video Frame Synthesis using Deep Voxel Flow 論文筆記

arXiv

　　摘要：本文解決了模拟新的視訊幀的問題，要麼是現有視訊幀之間的插值，要麼是緊跟着他們的探索。這個問題是非常具有挑戰性的，因為，視訊的外觀和運動是非常複雜的。傳統 optical-flow-based solutions 當 flow estimation 失敗的時候，就變得非常困難；而最新的基于神經網絡的方法直接預測像素值，經常産生模糊的結果。

　　于是，在此motivation的基礎上，作者提出了結合這兩種方法的思路，通過訓練一個神經網絡，來學習去合成視訊幀，通過 flowing pixel values from existing ones, 我們稱之為：deep voxel flow. 所提出的方法不需要人類監督，任何video都可以用于訓練，通過丢掉，并且預測現有的frames。這種方法是非常有效的，可以用于任何的分辨率。實驗結果還是不錯的。

　　引言：本文所涉及到的兩個重要的部分，一個是 video interporation；一個是 video extrapolation。

　　傳統的方法解決上述問題，就是依賴于幀與幀之間的 optical flow，然後進行 optical flow vectors 之間的【插值】或者【預測】。這種方法稱為：“optical-flow-complete”；當光流準确的時候，這種方法是非常有效的，但是當不準确的時候，就會産生額外的錯誤資訊。一種基于産生式 CNN 的方法，直接産生 RGB 像素值。但是這種方法經常會産生模糊的情況，并非像光流一樣有效。

　　本文的目标是結合這兩種方法的優勢。作者有兩個方面的觀察：

　　1. 大部分像素塊都是近鄰圖像的直接copy，而直接copy pixels 比模拟産生他們，要簡單的多。

　　2. 端到端訓練的神經網絡是一個非常有效的工具。對于 video interpolation 和 extrapolation 來說，更是如此，因為訓練可以是無限的；任何video都可以用于訓練一個無監督的神經網絡。

　　是以，我們就可以利用現有的video進行無監督的學習。我們扔掉 frames，然後利用損失函數來衡量産生的像素值和 gt 像素值之間的差距。但是，像 optical-flow approaches 一樣，我們的網絡通過從附近的 frames 插值 pixel values。這個網絡包括 a voxel flow layer ------ a per-pixel, 3D optical flow vector across space and time in the input video. 是以，對于 video interpolation，最終輸出的像素值，可以是前一幀和後一幀混合的像素值。

　　The Proposed Methods :

　　本文提出一種 Deep Voxel Flow (DVF) 算法 ------ an end-to-end fully differentiable network for video frame synthesis.

Video Frame Synthesis using Deep Voxel Flow 論文筆記

　　像上圖所展示的那樣，卷積 encoder-decoder 預測 the 3D voxel flow, 然後我們添加添加一個 volume sampling layer sythesizes the desired frame, accordingly. DVF 學習去模拟target frame Y，輸入的video為 X。我們将 the convolutional encoder-decoder 看做是 H()，H 的輸出是 3D voxel flow field F

　　voxel flow F 的空間成分表示從 target frame 到 the next frame 的optical flow；該光流的 negative 用來鑒别對應的前一幀的位置。即，我們假設光流是局部線性的，并且是時間上對稱的 around the in-between frame. 準确的說，我們在前一幀和後一幀，定義了對應位置的絕對位置：$L_0, L_1$。

　 voxel flow F 時間上的成分是 a linear blend weight between the previous and next frames to form a color in the target frame.

　　我們利用這個 voxel flow 來采樣原始的輸入video X with a volume sampling function T 來構成最終的拟合幀 Y：

　　 The volume sampling function 從 X 上計算出在 optical-flow-aligned video volume 内部進行插值采樣color。給定對應的位置 (L0, L1)，我們利用這個 volume 建構一個 virtual voxel，然後利用 trilinear interpolation 來計算輸出的 video color 。我們在輸入 video X 上計算 the virtual voxel 的 8個頂點的 integer locations ：

　　給定了這個 virtual voxel，3D voxel flow 通過 trilinear interpolation，産生每個 target voxel Y

　　其中，$W^{ijk}$ 是 trilinear resampling weight.

　　這個 3D voxel flow 可以看做是 2D motion field 和前一幀和後一幀的 mask 選擇。我們可以将 F 分為 $F_{motion} and F_{mask}$。

　　Network Architecture.

　　　　DVF 由一個完整的全卷積 encoder-decoder architecture, 包括三個卷積層，三個反卷積層和一個 bottleneck layer。

　　1. Learning

　　　　網絡訓練的目标函數為：

　　　　其中，D 是所有視訊三元組的訓練集合，N 是對應的基數，Y 是需要重構的 target frame。

　　　　$||F_{motion}||_1$ 是在（x, y）上的 total variation term ;

　　　　$||F_{mask}||_1$ 是 the regularizer on the temporal component of voxel flow。

　　2. Multi-scale Flow Fusion.

　　3. Multi-step Prediction. 　　

Video Frame Synthesis using Deep Voxel Flow 論文筆記

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希