天天看點

收錄180篇文獻,上海交大推出深度學習圖像合成領域首篇綜述

圖像合成 (image composition) 是指把一張圖檔的前景剪切下來,粘貼到另外一張背景圖檔上,得到一張合成圖。廣義來講,把來自不同圖檔的多個視覺元素嫁接到同一張圖檔上,都屬于圖像合成的範疇。

圖像合成有着廣泛應用,比如人像換背景、虛拟社交、藝術創作、廣告圖檔自動生成等等。為了得到理想的圖像,圖像合成和圖像生成 (image generation) 往往會配合使用,圖像生成負責從無到有,圖像合成負責從有到優。圖像生成的可控性有限,即使提供了大量的條件資訊,也未必能生成完全符合預期的圖檔。從這個角度來說,圖像合成更擅長精細控制,對完全符合預期的視覺元素進行拼接,得到真實合理的圖檔。相比較其重大的應用價值,圖像合成并沒有受到足夠的關注。

本論文是第一篇系統性梳理圖像合成技術的綜述,共收錄 180 篇文獻,總結了圖像合成需要解決的子問題以及每個子問題涉及的研究子方向和代表性方法,總結了各個研究子方向的資料庫、評測标準、傳統方法、深度學習方法。因為合成圖中的前景和背景原本都是真實的,組成一個整體之後由于前景和背景之間的不一緻性變得不真實,圖像合成旨在解決前景和背景之間的不一緻性,讓合成圖再次變得真實,是以綜述取名叫 making images real again。 

收錄180篇文獻,上海交大推出深度學習圖像合成領域首篇綜述

收錄180篇文獻,上海交大推出深度學習圖像合成領域首篇綜述

上圖展示了得到一張合成圖的過程,從一張圖檔上把前景用分割算法或者摳圖算法剪切下來,粘貼到另外一張背景圖檔上,得到一張合成圖。是以圖像合成需要建立在分割 (segmentation) 算法或者摳圖 (matting) 算法相對成熟的基礎上,可以看成是分割算法或者摳圖算法的下遊任務。通過剪切複制得到的合成圖可能會有諸多問題,影響合成圖的真實程度和圖檔品質。

這些問題可以歸結為合成圖中前景和背景之間的不一緻性 (inconsistency),進一步可分成外觀不一緻性 (appearance inconsistency) 和幾何不一緻性 (geometry inconsistency)。

外觀不一緻性和幾何不一緻性又可以細分成很多子問題。每個子問題都非常有挑戰性,都具有獨立的研究價值,是以從圖像合成任務衍生出了很多子方向,每個子方向重點研究一個子問題。

圖像合成任務看似簡潔,實則包羅萬象,涉及的技術紛繁複雜。在圖像合成領域,之前有些工作隻關注一個子問題,有些工作則同時關注多個子問題,任務設定各不相同,給人一種支離破碎的感覺。該綜述試圖理清各個研究工作之間的差別和聯系,還原出一副較為完整的圖景。有了完整的圖景,在圖像合成的過程中如果遇到具體問題,就能夠很友善地找到對應的解決方案。接下來分别介紹外觀不一緻性和幾何不一緻性。

外觀不一緻性包括但不局限于:1)前景和背景之間不自然的邊界; 2) 前景和背景不比對的顔色光照資訊;3) 缺失或不合理的前景陰影或反光。

關于第一個子問題,前景物體一般通過分割算法或者摳圖算法獲得,但是邊緣往往不能被清晰完整地分離出來。如果把邊緣不完美的前景粘貼到背景上,前景和背景之間就會存在不自然的邊界。為了解決第一個子問題,圖像融合 (image blending) 旨在消除不自然邊界,讓前景和背景無縫銜接。

關于第二個子問題,因為前景和背景可能是在不同的拍攝環境下 (天氣、季節、時間、照相機參數) 拍攝的,得到的合成圖就會看起來不和諧,比如前景是在白天拍攝的,背景是在夜間拍攝的。為了解決第二個子問題,圖像和諧化 (image harmonization) 旨在調整前景的顔色光照資訊,使其和背景看起來更和諧。

關于第三個子問題,當把前景粘貼到背景上,前景可能會對背景造成影響,比如陰影或者反光。為了解決第三個子問題,陰影或反光生成方法可以根據前景和背景資訊為前景物體生成合理的陰影或者反光。因為反光生成的應用場景有限,相應的研究工作特别少,是以在本論文中我們側重于前景物體的陰影生成。

幾何不一緻性包括但不局限于:

1) 前景物體過大或者過小;

2) 前景物體沒有受力支撐,比如懸浮在空中;

3) 前景物體出現在語義不合适的地方,比如船出現在内陸上;

4) 前景和周圍物體存在不合理的遮擋關系;

5)前景和背景的透視角度不一緻。

總結起來就是前景物體的大小、位置、形狀不合理。物體擺放 (object placement) 和空間形變 (spatial transformation) 旨在為前景尋找合理的大小、位置、形狀,進而避免上面提到的諸多不合理因素。物體擺放一般來說主要是對前景物體進行平移和縮放,而空間形變則會涉及到相對複雜的幾何形變,比如仿射變換或透視變換。

在本論文中,為了友善描述,我們用物體擺放指代任意幾何形變。之前物體擺放的研究工作大多通過尋找合适的位置避免不合理的遮擋,也有少數工作探索當不合理遮擋發生時如何對前景進行調整,比如根據估計的深度資訊把前景的被遮擋區域擦除。 

收錄180篇文獻,上海交大推出深度學習圖像合成領域首篇綜述

上圖展示了四個研究方向:物體擺放 (object placement), 圖像融合 (image blending), 圖像和諧化 (image harmonization), 陰影生成 (shadow generation)。模型輸入原始合成圖和前景掩碼,輸出調整之後更加真實自然的合成圖。

之前的研究工作有些側重于解決一個子問題,有些則同時解決多個子問題。為了友善尋找每個子方向的系列方法,比較不同工作的研究範圍,我們在下表中列舉了五個圖像合成中的子問題: 邊界 (boundary),外觀(appearance, 主要指前景的顔色光照),陰影 (shadow), 幾何資訊 (geometry, 主要指大小位置形狀),遮擋 (occlusion, 主要指前景被遮擋區域),并且将之前的研究工作對号入座。

從下表可以看出,大多數研究工作主要解決一個子問題,解決外觀和幾何的工作相對較多。其次有少量工作解決兩個子問題,隻有極少數工作解決三個及以上的子問題。 

收錄180篇文獻,上海交大推出深度學習圖像合成領域首篇綜述

在解決了外觀不一緻性和幾何不一緻性之後,合成圖看起來更加真實自然。但是有些時候,我們會對合成圖提出更高的要求,不僅要求合理,而且要求美觀。比如把一個花瓶放在另外一張背景圖檔的桌子上有無數種合理的大小和位置。然而考慮到構圖規則和美學準則,隻有部分位置和大小可以讓整張圖檔看起來較為美觀。

在這種情況下,我們需要對一張合成圖進行美學評估。美學評估包含很多因素,比如光線、顔色和諧程度、顔色鮮豔程度、景深、三分法、對稱性等等。上文介紹的圖像和諧化可以提高整張圖檔的和諧程度,是以也可以被認為提高了圖檔的美學品質。在本論文中,我們重點關注和物體擺放直接相關的美學評估,即構圖相關的美學評估。構圖相關的美學評估主要考慮圖檔中視覺元素的布局,和前景物體的位置大小直接相關。

雖然圖像合成有着非常廣闊的應用前景,但是該技術也有可能被用來作惡,比如傳播虛假消息、制作僞證等等,對人們的生活産生負面的影響。不僅是圖像合成,圖像生成也有同樣的問題。是以我們在研究圖像合成技術的同時,也要研究它的反面,即鑒别合成圖。

現有一些圖像僞造檢測 (image manipulation detection) 的方法,利用前景和背景不同的噪音特征、照相機參數、顔色光照資訊等線索鑒别一張圖檔是否是僞造的。僞造圖像包含的範圍很廣,比如圖像拼接 (image splicing)、圖像填充、圖像增強等等。其中圖像拼接檢測 (image splicing detection) 和圖像合成最為契合。圖像拼接檢測可以識别出合成圖,而且能成功定位到合成圖中粘貼的前景物體。圖像合成和圖像拼接檢測之間互相博弈,圖像合成旨在讓合成圖檔和真實圖檔不可區分,而圖像拼接檢測旨在把合成圖檔和真實圖檔區分開來。

盡管之前有不少圖像合成的研究工作,圖像合成領域也取得了很大的進步,但是該領域依然存在很多嚴峻的問題:

1)大多數工作隻考慮把一個前景物體粘貼到另外一張背景圖檔上,并且假設前景物體是完整的。然而在現實應用中往往需要把多個前景物體合成在同一張背景圖檔上,并且前景物體可能殘缺不全。是以我們需要改進圖像合成算法使其能夠适應複雜的應用場景。

2) 圖像合成任務包含很多子問題,并且每個子問題都非常有挑戰性,都可以開辟一個獨立的研究子方向。但這種研究方式讓圖像合成領域有很強的割裂感,沒有一個系統可以統一解決所有的子問題,給圖像合成系統在真實應用場景中的部署帶來了困難。

3) 之前的圖像合成工作非常零散,不成體系。由于 ground-truth 資料極難擷取,評測又有很強的主觀性,很多子領域沒有統一的資料集,不同的方法不能直接比較,在一定程度上阻礙了圖像合成技術的發展。是以迫切需要為各個子領域建立統一的資料集,公平比較,推動各個子領域的發展。

4) 現有大多數方法都是從圖檔到圖檔,也就是 2D->2D。但一個直覺的想法是從合成圖推測出完整的前景和背景的 3D 資訊、場景的光照資訊等,根據這些完整資訊實作圖像和諧化、前景物體陰影生成等功能。然而,基于現有技術從單張圖檔推測出所有資訊是非常困難的,預測不準可能會适得其反。但是 2D->3D->2D 仍然是一條值得探索的路徑,或許可以找到 2D->2D 和 2D->3D->2D 之間難度适中、性能最佳的中間地帶。

綜上所述,本論文的貢獻有三點:

1)據我們所知,這是首篇深度學習圖像合成技術綜述。

2) 我們對圖像合成任務中需要解決的子問題以及針對每個子問題的研究子方向做了系統的梳理和總結,呈現出圖像合成領域較為完整的圖景。

3) 為了綜述的完整性,我們還介紹了構圖相關的美學評估和圖像拼接檢測。而且,我們在 GitHub 上總結了圖像合成相關的論文、代碼、資料庫,歡迎下載下傳使用。