該解除安裝PhotoShop了！MIT用AI實作3分鐘自動摳圖，精細到頭發絲

是時候解除安裝你的PS軟體了。

最近，MIT計算機科學與人工智能實驗室（CSAIL）的研究人員開發了一種AI輔助的圖像編輯工具，它可以自動摳圖，替換任何圖像的背景。

像這樣：

和這樣：

要使摳完的這些圖像看起來很逼真并不是一件容易的事，因為圖像編輯必須要成功捕捉前景和背景之間微妙的審美轉換點，這對于人類頭發等複雜材質來說尤其困難。

下圖除外。

“處理這些圖像的棘手之處在于，圖像中每個像素并不是全部隻屬于一個物體。”麻省理工學院計算機科學與人工智能實驗室（CSAIL）的通路研究員Yagiz Aksoy說。“很多時候，我們很難确定哪些像素是背景的一部分，哪些像素是特定的人的一部分。”

除了經驗最豐富的編輯人員之外，其他人都很難把控這些細節。但是在最近的一篇新論文中，Aksoy和他的同僚展示了一種利用機器學習讓照片編輯過程自動化的方法，而且表示這種方法也可用于視訊處理。

該團隊提出的方法可以将拍攝的圖像自動分解為一組不同的圖層，圖層之間通過一系列“軟過渡”（soft transitions）相分隔。

他們把這個系統命名為“語義軟分割”（semantic soft segmentation，SSS），它能夠分析原始圖像的紋理和顔色，并将其與神經網絡收集的有關圖像中實際目标的資訊相結合。

這一技術有多牛？看下面的視訊體會一下：

3分鐘AI自動摳圖，徹底抛棄PhotoShop

編輯器将圖像中的對象和背景分割成不同的部分，以便于選擇。但不像大多數圖檔編輯軟體需要式樣磁性套索或魔術套索工具，MIT開發的AI工具并不依賴于使用者輸入的上下文，你不必跟蹤一個對象或放大并捕捉精細細節。AI可以自動實作這一過程。

這個過程從神經網絡估計圖像的區域和特征開始：

然後，神經網絡檢測到“soft transitions”，例如狗狗的毛發和草。以前這個過程必須手動去做。

然後通過顔色将圖像中的像素互相關聯：

這些資訊與神經網絡檢測到的特征相結合，對圖像的層進行估計。

經過這一系列處理，現在，可以實作AI自動摳圖并更換背景了。

研究人員表示，這樣自動處理一張640×480的圖像需要3~4分鐘。

“一旦計算出這些軟分割段，使用者就不必手動套索，也不用對圖像的特定圖層的外觀進行單獨修改，”Aksoy說道，他在上周與溫哥華舉辦的SIGGRAPH計算機圖形會議上發表了該技術的論文。“這樣一來，更換背景和調整顔色等手動編輯任務将變得更加容易。”

當然，這個魔術一般的工具背後涉及許多複雜的算法和計算，我們将在後文介紹。該團隊使用神經網絡來處理圖像特征和确定圖像的柔化邊緣。

技術細節：圖像“軟分割”技術煉成大法

該方法最重要的是自動生成輸入圖像的軟分割，也就是說，将輸入圖像分解成表示場景中對象的層，包括透明度和軟過渡（soft transitions）。

圖2：SSS方法的概述

如上圖所示，對于輸入圖像，我們要生成每個像素的超維語義特征向量（hyperdimensional semantic feature vectors），并使用紋理和語義資訊定義圖形。圖形構造使得相應的Laplacian矩陣及其特征向量揭示了語義對象和它們之間的軟過渡（soft transitions）。

我們使用特征向量來建構一組初始的軟分割（soft segments），并将它們組合起來得到語義上有意義的分割。最後，我們對soft segments進行細化，使其可用于目标圖像編輯任務。

非局部顔色親和性（Nonlocal Color Affinity）

我們定義了一個額外的 low-level affinity，表示基于顔色的長期互動。

這種親和性（affinity）基本上確定了具有非常相似的顔色的區域在複雜場景結構中保持關聯，其效果如下圖所示。

進階語義親和性（High-Level Semantic Affinity）

雖然非局部顔色親和為分割過程增加了大範圍的互動，但它仍然屬于低級别特征。我們的實驗表明，在沒有附加資訊的情況下，在分割中仍然會經常對不同對象的相似顔色的圖像區域進行合并。

為了建立僅限于語義相似區域的分割片段，我們添加了一個語義關聯項，對屬于同一場景對象的像素進行分組，并盡量防止來自不同對象的像素的混雜。我們在目辨別别領域的先前成果的基礎上，在每個像素上計算與底層對象相關的特征向量。

我們還定義了超像素的語義親和。除了增加線性系統的稀疏性之外，超像素的使用還減少了過渡區域中不可靠特征向量的負面影響，如圖4所示。

圖4. 不同處理流程效果比較。（a）僅使用Laplacian matting（b）結合使用Laplacian matting和語義分割（c）進一步利用稀疏顔色連接配接方法。

由于特征向量不能表示人與背景之間的語義切割，是以僅使用Laplacian matting會導緻包括背景的大部分的人物分割片段突出顯示。加入稀疏顔色連接配接可提供更清晰的前景遮景。

建立圖層

我們使用前面描述的語義親和來建立圖層，得到Laplacian matrix L。我們要從該矩陣中提取特征向量，并使用兩步稀疏化過程，利用這些特征向量建立圖層。

圖6.圖像（a）顯示了像素稀疏化之前（b）和之後（c）的結果。

如圖所示，因為我們的結果（c）保留了頭發周圍的柔和過渡，而常數參數（d）則會導緻過度稀疏的結果。

語義特征向量

圖8.我們首先為給定圖像生成每像素128維特征向量（圖a）。圖b表示128維到3維的随機投影。我們利用每個圖像的主成分分析（c）将特征的維數減少到3。在降維之前，使用引導過濾器對特征進行邊緣對齊。

更多技術細節，請閱讀論文：

該論文由麻省理工學院副教授Wojciech Matusik、CSAIL博士後研究員Tae-Hyun Oh、Adobe Research的Sylvain Paris、以及蘇黎世聯邦理工學院和微軟的Marc Pollefeys共同撰寫。

論文位址：

http://cfg.mit.edu/sites/cfg.mit.edu/files/sss_3.pdf

未來可用于視訊處理

SSS目前主要是處理靜态圖像。不過研究團隊表示，未來可以預見将該技術用于視訊處理，并将可能産生許多電影制作應用程式。

研究人員表示，他們的目的并不是解決一般的自然摳圖問題。自然摳圖是一個成熟的領域，面臨許多特有的挑戰，例如在非常相似顔色的前景和背景區域中生成精确的摳圖結果。目前最先進的方法取決于兩個區域的顔色分布。當目标顔色非常相似時，他們的方法可能在開始的限制稀疏化步驟中失敗，或者基于大面積過渡區域建立了不可靠的語義特征向量，可能導緻軟分割的失敗。

兩個失敗的例子

“我們想讓摳圖的過程變得更簡單、快捷，讓一般使用者也可以更友善地進行圖像編輯。“Aksoy說。“我們的目标是，隻需點選一下滑鼠，編輯就可以将圖像組合在一起，打造出成熟、逼真的夢幻世界。”

Aksoy表示，目前SSS可供Instagram和Snapchat等社交平台使用，讓圖像過濾器的效果更加逼真，尤其是在更改自拍背景或模拟特定類型的相機時。在未來，研究人員計劃進一步将處理圖像所需的時間從幾分鐘降低到幾秒，并通過提高系統比對顔色和處理光照和陰影目标的能力，使圖像看上去更加逼真。

原文釋出時間為：2018-08-21

本文作者：肖琴、大明

本文來自雲栖社群合作夥伴新智元，了解相關資訊可以關注“AI_era”。

原文連結：

該解除安裝PhotoShop了！MIT用AI實作3分鐘自動摳圖，精細到頭發絲

該解除安裝PhotoShop了！MIT用AI實作3分鐘自動摳圖，精細到頭發絲

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普