天天看點

Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論

StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

StyleCLIP

Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論

摘要

受StyleGAN在各種領域中生成高品質逼真的圖像的能力的啟發,許多新工作集中在了解如何使用StyleGAN的潛在空間來操作生成的和真實的圖像。然而,發現語義上有意的潛在操作通常涉及人類對多個自由度的仔細檢查,或者為每個所需操作的圖像的注釋集合。在這項工作中,我們探索利用最新引入的對比語言-圖像預訓練(CLIP)模型的功能,以便為StyleGAN圖像的處理開發基于文本的界面,而無需進行此類人工操作。我們首先介紹一種優化方案,該方案利用基于CLIP的算了來修改輸入潛在矢量,以響應使用者提供的文本提示。接下來,我們描述一個潛在映射器,該映射器針對給定的輸入圖像推斷文本知道的潛在操作步驟,進而實作更快更穩定的基于文本的操作。最後,我們提出了一種在StyleGAN樣式空間中将文本提示映射到與輸入無關的方向的方法,進而實作互動文本驅動的圖像處理。廣泛的結果和比較證明了我們方法的有效性。

介紹

生成對抗網絡徹底改變了圖像合成,最近基于樣式的生成模式擁有一些迄今為止最逼真的合成圖像。此外,已經證明StyleGAN的學習中間潛在空間具有求解特征,這使得利用預訓練的模型對合成圖像和真實圖像執行各種圖像處理。

利用StyleGAN的表達能力需要開發簡單直覺的界面,以便使用者輕松的實作他們的意圖。現在的語義控制發現方法要麼涉及手動檢查,大量帶注釋的資料,要麼涉及預訓練的分類器。通過沿一個潛在空間中的方向移動來執行後續操作。使用參數模型如StyleRig中的3DMM或StyleFlow中的訓練歸一化流。

是以,現有控件智能沿預設的語義方向進行圖像操作,進而嚴重限制了使用者的創造力和想象力。每當需要附加的、未映射的方向時,就需要進一步的人工操作和/或大量的注釋資料。

在這項工作中,我們将探索利用最新引入的對比語言-圖像預訓練(CLIP)模型的功能,以實作基于文本的直覺語義圖像操作,該操作不僅限于預設的操作方向,也不需要額外的人工來發現新空間。CLIP模型在從Web上擷取的4億個圖像文本對上進行了預訓練,并且由于自然語言能夠表達更廣泛的視覺概念,是以将CLIP與StyleGAN的生成功能相結合将為圖像處理提供有趣的途徑。圖1顯示使用我們的方法産生的獨特操作的幾個示例。具體而言,在本文中,我們研究了将CLIP與StyleGAN相結合的三種技術:

  • 文本引導的潛在優化,其中CLIP模型用作損失網絡。這是最通用的方法,但是需要幾分鐘的優化才能進行操作。
  • 潛在殘差映射器,針對特定的文本提示進行了訓練,給定潛在空間中的起點(要處理的輸入圖像),映射器會在潛在空間中産生局部步長。
  • 一種将文本提示映射到StyleGAN樣式空間中的輸入不可知(全局)方向的方法,可控制操縱強度和解開程度。

本文和補充材料中的結果展示了對人臉、動物、汽車和教堂圖像的廣泛語義操縱。這些操作的範圍從抽象到特定,從廣泛到細化。他們中的許多都沒有通過以前的StyleGAN操作工作所證明,并且所有這些都是使用預先訓練的StyleGAN和CLIP模型的組合很容易獲得。

相關工作

視覺和語言

  • 聯合表示

    多種工作學習跨模式的視覺和語言(VL)表示形式以完成各種任務,例如基于語言的圖像檢索,圖像字幕和視覺問題解答。即BERT在各種語言任務中取得成功之後,最近的VL方法通常使用變換啦學習聯合表示。一個基于對比語言-圖像預訓練的最新模型,學習了一種多模式嵌入空間,該空間可用于估計給定文本和圖像之間的語義相似性。CLIP是在4一個文本圖像對上進行訓練的,這些文本圖像對是從網際網路上各種公開源收集的。CLIP所學的表示方法非常強大,可以對各種資料集進行最新的零鏡頭圖像分類。可以參考OpenAI的Distill文章,其以廣泛闡述和讨論CLIP所學的視覺概念。

  • 文本引導的圖像生成和處理

    Reed等人的開拓性工作,通過訓練條件GAN來處理文本引導的圖像,條件GAN由從預訓練的編碼器獲得的文本嵌入進行調節。張等人通過使用多尺度GAN改善了圖像品質,AttnGAN在文本和圖像特征之間納入了一種注意力機制。其他工作中使用了額外的監督,以進一步提高圖像品質。

一些研究集中在文本引導的圖像處理上。一些方法使用基于GAN的編碼器-解碼器體系結構來解開輸入圖像和文本描述的語義。ManiGAN引入了一種新穎的文本-圖像組合子產品,可以産生高品質的圖像。與上述工作不同,我們提出了一個單一架構,該架構将StyleGAN生成的高品質圖像與CLIP所學的豐富的多域語義相結合。最近,DALL·E是GPT-3的120億參數版本,其精度為16位,需要超過24GB的GPU記憶體,它在生成轉換并将其應用于文本引導的圖像時顯示了多種功能。 相反,我們的方法甚至可以部署在單個商用GPU上。

與此同時TediGAN也使用StyleGAN進行文本引導的圖像生成和操作。通過訓練編碼器将文本映射到StyleGAN潛在空間中,可以生成與給定文本相對應的圖像。為了執行文本引導的圖像處理,TediGAN将圖像和文本都編碼到潛在空間中,然後執行樣式混合以生成相應的圖像。在第7節中,我們示範了使用我們的方法實作的操作更好地反映了驅動文本的語義。

在最近的一篇線上文章中,Perez描述了一種文本到圖像的方法,它以類似于第4節中潛在優化器的方式将StyleGAN和CLIP結合起來。我們的優化方案,以及本文中描述的其他兩種方法,都側重于圖像處理,而不是從零開始合成圖像。盡管文本到圖像的生成是一個有趣且具有挑戰性的問題,但我們認為,我們提供的圖像處理功能對于創意藝術家的典型工作流程而言,是一種更有用的工具。

潛在空間圖像處理

許多工作探索了如何利用預訓練生成器的潛在空間進行圖像處理。特别地,StyleGAN中的中間潛在空間已經被證明能夠實作許多分離的和有意義的圖像操作。一些方法通過訓練将給定圖像編碼為潛在表示的網絡來學會以端到端的方式執行圖像操縱。其他方法旨在找到潛在路徑,以便沿它們周遊會導緻所需的操作。此類方法可以分類為:(i)使用圖像注釋查找有意義的潛在路徑的方法,和(ii)在沒有監督的情況下查找有意義的方向并且需要針對每個方向進行手動注釋的方法。

雖然大多數作品在W或W +空間中執行圖像處理,但Wu等人。 建議使用StyleSpace S,并表明它比W和W +更好地求解。 我們潛在的優化器和映射器在W +空間中工作,而我們檢測到的與輸入無關的方向是在S中。在這三個方面,操縱都是直接從文本輸入中得出的,而我們唯一的監督來源是預先訓練的CLIP模型。 由于CLIP已針對數億個文本圖像對進行了教育訓練,是以我們的方法是通用的,可以在多個域中使用,而無需特定于域或特定于操作的資料注釋。

StyleCLIP文本驅動的操作

在這項工作中,我們探索了文本驅動的圖像處理的三種方法,所有這些方法将StyleGAN的生成能力與CLIP所學的豐富的聯合視覺語言表示形式相結合。我們從第4節開始,介紹一個簡單的潛在優化方案,通過最小化CLIP空間中計算的損失來優化StyleGAN W +空間中圖像的給定潛在代碼。針對每個(源圖像,文本提示)對執行優化。是以,盡管用途廣泛,但一次操作仍需花費幾分鐘,是以該方法可能難以控制。在第5節中介紹了一種更穩定的方法,訓練映射網絡以推斷潛在空間中的操作步驟,一次向前通過。訓練需要幾個小時,但每個文本提示隻能進行一次。操作步驟的方向可能會根據W +中的開始位置(對應于輸入圖像)的不同而有所不同,是以我們将此映射器稱為“局部”。

我們在本地映射器上進行的實驗表明,盡管起點不同,但對于各種各樣的操作,操作步驟的方向通常彼此相似。此外,由于操作步驟是在W +中執行的,是以難以以解的方式獲得細粒度的視覺效果。是以,在第6節中,我們探讨了第三種文本驅動的操作方案,該方案将給定的文本提示轉換為不可知的輸入(即,潛在空間中的全局)映射方向。全局方向是在StyleGAN的樣式空間S中計算的,與W +相比,該樣式空間更适合細粒度和非整齊的視覺處理。

表1總結了上述三種方法之間的差異,而以下部分介紹了可視化結果和比較結果。

Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論

潛在優化

利用CLIP指導圖像處理的一種簡單方法是直接進行潛在代碼優化。具體來說,給定源潛在代碼 w s ∈ W + w_s \in W + ws​∈W+,并使用自然語言的指令或文本提示 t t t,我們解決了以下優化問題:

Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論

在圖3中,我們提供了200-300次疊代後使用此優化方法獲得的一些編輯。輸入圖像被e4e反轉。 請注意,視覺特征可以通過訓示真實或虛構的人(碧昂絲,特朗普,艾爾莎)來顯式控制(胡須,金發)或隐式控制。 λ L 2 λ_{L2} λL2​和 λ I D λ_{ID} λID​的值取決于所需編輯的性質。 對于轉向另一個辨別的更改,将 λ I D λ_{ID} λID​設定為較低的值。

Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論

潛在映射器

上面描述的潛在優化是通用的,因為它對每個(源圖像,文本提示)對都執行了專門的優化。不利的一面是,需要花費幾分鐘的時間才能編輯單個圖像,并且該方法對其參數值有些敏感。下面,我們描述一種更有效的過程,其中針對特定的文本提示 t t t訓練映射網絡,以針對任何給定的嵌入 w ∈ W + w \in W + w∈W+的潛像推斷 W + W + W+空間中的操作步驟 M t ( w ) M_t(w) Mt​(w)。

  • 架構

    我們的文本引導映射器的體系結構如圖2所示。如圖所示,不同的StyleGAN層負責生成的圖像中不同級别的細節。是以,通常将圖層分為三組(粗,中,細),并為每組提供(擴充的)潛矢量的不同部分。我們相應地設計了映射器,它具有三個完全連接配接的網絡,每個組/部分一個。這些網絡的每個架構與StyleGAN映射網絡的架構相同,但是層數較少(在我們的實作中為4層而不是8層)。将輸入圖像的潛在代碼表示為 w = ( w c , w m , w f ) w =(w_c,w_m,w_f) w=(wc​,wm​,wf​),映射器定義為:

    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論
    請注意,您可以選擇隻訓練三個映射器的一個子集。 在某些情況下,保留某些屬性級别并固定相應條目中的樣式代碼很有用。
  • 損失

    我們的映射器經過訓練,可以操作文本提示t所訓示的圖像的所需屬性,同時保留輸入圖像的其他視覺屬性。CLIP損失 L C L I P ( w ) L_{CLIP}(w) LCLIP​(w)引導映射器最小化CLIP潛在空間中的餘弦距離:

    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論
    其中G再次表示預訓練的StyleGAN生成器。為了保留原始輸入圖像的視覺屬性,我們最小化了潛在空間中操作步驟的L2範數。最後,對于需要身份儲存的編輯,我們使用等式(2)中定義的身份丢失。 我們的總損失函數是這些損失的權重組合:
    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論

    和以前一樣,當編輯需要更改辨別時,我們不使用辨別丢失。我們在本文示例中使用的參數值為λL2= 0.8,λID= 0.1,我們在本文示例中使用的參數值為 λ L 2 = 0.8 , λ I D = 0.1 λ_L2= 0.8,λ_ID= 0.1 λL​2=0.8,λI​D=0.1,除了圖9中的“ Trump”操作外,其中我們使用的參數值為 λ L 2 = 2 , λ I D = 0 λ_L2=2,λ_ID= 0 λL​2=2,λI​D=0。

    在圖4中,我們提供了一些發型編輯示例,其中每列中使用了一個不同的映射器。在所有這些示例中,映射器成功儲存了身份以及與頭發無關的大多數其他視覺屬性。注意,所産生的頭發外觀适合個人。 這在“卷發”和“鮑勃剪的發型”編輯中尤為明顯。

    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論
    應當注意,文本提示一次不限于單個屬性。 圖5顯示了四種不同的頭發屬性組合,直發/卷發和短發/長發,每種組合都能産生預期的效果。 我們知道,以前沒有任何方法可以證明這種控制程度。
    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論
    由于潛在映射器會為每個輸入圖像推斷出定制的操作步驟,是以研究潛在空間中步驟方向在不同輸入上變化的程度非常有趣。為了對此進行測試,我們首先使用e4e反轉CelebA-HQ 的測試集。接下來,我們将反演的潛在代碼輸入幾個訓練有素的映射器中,并計算所有成對的操縱方向之間的餘弦相似度。表2報告了每個映射器的餘弦相似度的平均值和标準偏差。該表顯示,即使映射器推斷出适合輸入圖像的操作步驟,但實際上,對于給定的文本提示,這些步驟的餘弦相似度很高,這意味着它們的方向沒有人期望的那樣不同。
    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論

全局方向

雖然潛在映射器允許快速的推理時間,但我們發現,當需要進行細粒度的解操作時,它有時會不足。此外,正如我們所看到的,給定文本提示的不同操作步驟的方向趨于相似。基于這些觀察,在本節中,我們提出了一種在StyleGAN的樣式空間S中将文本提示映射到單個全局方向的方法,該方法已顯示出比其他潛在空間更有解。

令s∈S表示樣式代碼,而G(s)表示相應的生成圖像。給定一個文本提示,訓示所需的屬性,我們尋求一個操縱方向∆s,以使G(s + α∆s)産生一個圖像,在該圖像中該屬性被引入或放大,而不會顯着影響其他屬性。操縱強度由α控制。我們的進階想法是,首先使用CLIP文本編碼器在CLIP的聯合語言-圖像嵌入中獲得矢量∆t,然後将此矢量映射到S中的操作方向∆s。如下所述,使用快速工程從自然語言獲得穩定的∆t。然後,通過評估每個樣式通道與目标屬性的相關性來确定相應的方向∆s。

更正式地說,由I表示CLIP聯合嵌入空間中的圖像嵌入流形,由T表示其文本嵌入中的流形。我們區分這兩個流形,因為它們之間沒有一對一的映射:圖像可能包含大量的視覺屬性,很難用一個文本語句來全面描述; 相反,給定的句子可能描述許多不同的圖像。在CLIP訓練期間,所有嵌入都被歸一化為一個機關範數,是以隻有嵌入的方向包含語義資訊,而範數可能會被忽略。是以,在CLIP空間訓練有素的區域中,我們期望與相同語義變化相對應的T和I流形上的方向大緻是共線的(即,具有較大的餘弦相似度),并且在歸一化之後幾乎相同。

給定一對圖像G(s)和G(s + α∆s),我們分别用i和i + ∆i表示它們的I嵌入。是以,CLIP空間中的兩個圖像之間的差異由∆i給出。給定以Δt編碼的自然語言指令,并假定∆t和∆i之間存在共線性,我們可以通過評估S中每個通道與∆i方向的相關性來确定操縱方向∆s。

  • 從自然語言到∆t

    為了減少文本嵌入的噪聲,Radford等人利用了一種稱為提示工程的技術,該技術向文本編碼器提供了幾個具有相同含義的句子,并對它們的嵌入求平均。例如,對于ImageNet零鏡頭分類,使用了80個不同的句子模闆庫,例如“ {}的不良照片”,“ {}的裁剪照片”,“ {}的黑白照片”和“ {}的繪畫”。在推斷時,目标類會自動替換為這些模闆,以建構具有相似語義的句子庫,然後對它們的嵌入進行平均。與使用單個文本提示相比,此過程将零鏡頭分類準确性提高了3.5%。

    同樣,我們還采用了快速工程(使用相同的ImageNet提示庫)來計算T中的穩定方向。具體來說,應該為我們的方法提供目标屬性和相應中性類的文本描述。例如,當操縱汽車的圖像時,目标屬性可能被指定為“跑車”,在這種情況下,對應的中性類别可能是“汽車”。然後應用及時工程來生成目标和中性類别的平均嵌入,并将這兩個嵌入之間的歸一化差異用作目标方向Δt。

  • 通道相關性

    接下來,我們的目标是構造一個樣式空間操縱方向∆s,該方向将産生與目标方向∆t共線的變化∆i。為此,我們需要評估CLIP聯合嵌入空間中S的每個通道c與給定方向∆i的相關性。我們生成樣式代碼s∈S的集合,并通過添加負值和正值來僅擾動每個樣式代碼的c通道。用 ∆ i c ∆i_c ∆ic​表示結果圖像對之間的CLIP空間方向,将通道c與目标操作的相關性估計為 ∆ i c ∆i_c ∆ic​在∆i上的平均投影:

    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論

    在實踐中,我們使用100對圖像來估計均值。

    我們生成的圖像對由 G ( s ± α ∆ s c ) G(s±α∆s_c) G(s±α∆sc​)給出,其中 ∆ s c ∆s_c ∆sc​是零矢量,但其c坐标除外,該c坐标設定為通道的标準偏差。 擾動的大小設定為α= 5。

    在估算了每個通道的相關性Rc之後,我們忽略Rc低于門檻值β的通道。此參數可用于控制操作中的糾纏程度:使用較高的門檻值會導緻更多的操作糾纏,但同時會降低操作的視覺效果。由于諸如年齡之類的各種進階屬性涉及多個較低級屬性(例如,白發,皺紋和膚色)的組合,是以涉及多個管道,在這種情況下,降低門檻值可能是可取的, 如圖6所示。據我們所知,以這種方式控制解纏程度的能力是我們方法所獨有的。

    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論
    總而言之,給定CLIP空間中的目标方向∆i,我們設定:
    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論
    圖7和8顯示了沿文本驅動的操縱方向進行的各種編輯,這些方向如上所述确定的在人臉,汽車和狗的圖像上。圖7中的操作是使用在FFHQ上預訓練的StyleGAN2執行的。輸入是真實圖像,使用e4e編碼器嵌入W +空間。該圖示範了文本驅動的18種屬性的操縱,包括複雜的概念,例如面部表情和發型。圖8中的操作使用了在LSUN汽車上預訓練的StyleGAN2(在真實圖像上)以及在AFHQ狗上預訓練的來自StyleGAN2-ada的圖像。
    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論
    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論

比較與評估

現在,我們将前面各節中介紹和分析的三種方法與其他方法進行比較。 我們處理的所有真實圖像都使用e4e編碼器進行了反轉。

  • 文本驅動的圖像處理方法

    我們首先比較圖9中的幾種文本驅動的面部圖像處理方法。我們比較了我們的潛在映射器方法(第5節),全局方向方法(第6節)和TediGAN 。對于TediGAN,我們使用作者的官方實作,最近對它進行了更新,以利用CLIP進行圖像處理,是以與他們論文中介紹的方法有所不同。我們不包括第4節中介紹的優化方法的結果,因為它對超參數的敏感性使其非常耗時,是以無法擴充。

    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論
    我們使用三種屬性進行比較,這些屬性的範圍從複雜但特定(例如“特朗普”),較不複雜和較不特定(例如“ Mohawk”)到更簡單和更常見(例如“無皺紋”)。複雜的“特朗普”操縱涉及多個屬性,例如金發、,眼,張開嘴巴,面部有些腫脹和特朗普的身份。盡管全局潛在方向能夠捕獲并非特朗普特有的主要視覺屬性,但它無法捕獲特定的身份。相反,潛在映射器更為成功。“莫霍克發型”是一種不太複雜的屬性,因為它隻涉及頭發,而且不那麼具體。是以,我們的兩種方法都能夠産生令人滿意的操作。由于CLIP空間中的方向是平均方向,是以由全局方向生成的操作稍微不太明顯。最後,對于“無皺紋”提示,全局方向成功地消除了皺紋,同時使其他屬性大部分不受影響,而映射器失敗了。我們将其歸因于W +的糾纏程度較小。我們在另一組屬性(“奧巴馬”,“憤怒”,“胡須”)上觀察到了類似的行為。我們得出結論,對于複雜和特定的屬性(尤其是涉及身份的屬性),映射器能夠産生更好的操作。對于更簡單和/或更常見的屬性,全局方向就足夠了,同時提供了更多分散的操作。我們注意到,TediGAN産生的結果在圖9所示的所有三種操作中均失敗。
  • 其他StyleGAN操作方法

    在圖10中,我們比較了全局方向方法和幾種最新的StyleGAN圖像處理方法:GANSpace,InterFaceGAN和StyleSpace。比較僅檢查所有比較方法能夠操縱的屬性(性别,灰色頭發和唇膏),是以不包括我們的方法所能實作的許多新穎操縱。由于所有這些都是通用屬性,是以在此比較中我們不包括映射器。繼吳等,選擇操縱步長強度,以使其在相應分類器的對數值上引起相同量的變化(在CelebA上進行預訓練)。

    Image Manipulation:StyleCLIP:Text-Driven Manipulation of StyleGAN Imagery(2021)摘要介紹相關工作StyleCLIP文本驅動的操作潛在優化潛在映射器全局方向比較與評估結論

    可以看出,在GANSpace中,操縱與皮膚顔色和光照糾纏在一起,而在InterFaceGAN中,身份可能發生顯着變化(操縱唇膏時)。我們的操作非常類似于StyleSpace,它隻更改目标屬性,而所有其他屬性保持不變。

    在補充材料中,我們還展示了與StyleFLow [1](一種最新的非線性方法)的比較。盡管StyleFlow同時使用了幾個屬性分類器和回歸器(來自Microsoft Face API),但我們的方法仍能産生類似品質的結果,是以可以處理一組有限的屬性。相反,我們的方法不需要額外的監督。

  • 局限性

    我們的方法依賴于預訓練的StyleGAN生成器和CLIP模型進行聯合的語言視覺嵌入。是以,不能期望将圖像操縱到它們位于預訓練的生成器的域之外(或保留在該域的内部,但在生成器覆寫範圍較小的區域中)的程度。同樣,映射到CLIP空間中沒有很好填充圖像的區域的文本提示,不能期望産生如實反映提示語義的可視化操作。我們還觀察到,很難在視覺上多樣化的資料集中進行激烈的操作。例如,雖然老虎很容易變成獅子(參見圖1),但如補充材料所示,當将老虎變成狼時,我們取得的成功并不那麼大。

結論

我們介紹了三種新穎的圖像處理方法,這些方法将StyleGAN的強大生成能力與CLIP出色的視覺概念編碼能力結合在一起。我們已經證明,這些技術可以實作各種獨特的圖像處理,其中某些操作無法通過依賴于注釋資料的現有方法來實作。我們還證明了CLIP提供了細粒度的編輯控件,例如指定了所需的發型,而我們的方法能夠控制操縱強度和松開程度。總而言之,我們認為文本驅動的操作是功能強大的圖像編輯工具,其功能和重要性将繼續增長。

繼續閱讀