天天看點

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

作者:閃念基因

1. 背景

随着AI生成内容(AIGC)技術如Diffusion的飛速進展,現如今,大家已能夠輕易地使用Stable Diffusion(SD)[1]等文生圖的模型或工具,将心中所想僅憑語言描述(prompt)即轉化為具體圖像。基于此,我們不禁思考:是否有可能進一步發展該技術,允許使用者通過描述來為商品定制特定背景,進而協助商家快速且輕松地打造理想的商品圖像?例如,為一個包生成一個室内桌面擺放的背景,或是為某款連衣裙創造出站在海邊的、氣質甜美的模特形象等。

正是出于這樣的設想,我們基于SD和一些圖像控制模型(如controlNet[2])成功實作了這一功能,并推出了AI創意生産工具——萬相實驗室(https://agi.taobao.com/),生成效果如下圖所示,頁面上輕松點選,短短幾分鐘,同一個商品便可以輕松擁有千變萬化的背景場景,服裝模特也可以調整各種膚色發型。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

同前景不同背景生成圖

然而在這一過程中,我們在商品/元素控制、模特控制、背景控制上也遇到了一系列挑戰。如商品特征不準确、控制局部元素和背景虛化間存在trade off、模特屬性與描述不比對、模特手部畸形、指定顔色的純色背景生成困難等問題。為了達到更好的效果,我們進行了一番探索并總結出了若幹有效的控制方法。在接下來的文章中,我們将圍繞各個問題進行詳細闡述。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

2. 商品/元素控制

為了實作商品換背景這一功能,最直接的方法是采用圖像修複(inpainting)技術。具體來說,我們可以結合使用SD模型與inpainting controlNet,将摳出的商品視作圖像的前景部分,而将其餘區域視為待處理的背景。然後通過prompt精準地指導背景的修複内容。然而,直接應用開源模型容易導緻商品的過度補全問題,商品特征難以正確定持。如下圖展示的例子,一瓶精華液上長出了一個多餘的蓋子,這顯然是難以接受的。為了解決這個問題,我們提出了兩種方法:一是進行執行個體掩模(instance mask)訓練,二是在推理時引入基于掩碼的Canny邊緣控制網絡(Masked Canny ControlNet,詳見論文>>https://arxiv.org/abs/2404.14768)。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

2.1 Instance Mask訓練

從普通inpainting模型的訓練過程中,可以分析出商品過度補全的主要原因在于,在資料構造過程中,會在圖像上随機圈出一個區域生成mask(如下圖所示),以該mask劃分前背景來訓練,圖上的物體很容易被這個mask給截斷,是以訓出的模型傾向于對物體外觀形狀進行聯想補全。為了減少這種現象,更好地生成商品圖,我們收集了一批淘寶商品圖像,通過牛皮廯過濾、美觀度打分等操作過濾出較為優質的資料,再通過分割模型得到商品前景的mask(如下圖所示),以這種instance mask建構資料集并訓練inpainting模型。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

圖像 | 随機區域mask | instance mask

2.2 Masked Canny ControlNet推理

在使用了Instance Mask訓練後,商品過度補全的現象有明顯緩解,但還是有一定機率出現,于是我們在推理時加入了Canny ControlNet來幫助控制商品形狀。但由于Canny ControlNet在訓練時是以全圖canny為條件控制訓練的,直接疊加Canny ControlNet,背景區域會因為Canny圖中無梯度而在生成圖中虛化嚴重,與prompt描述不符。為此,我們提出了一種training-free的政策,如下圖所示(Text Encoder和Inpainting ControlNet省略),在Canny ControlNet與U-net結合時,我們增加了一個商品前景的mask,并對該mask進行膨脹,與ControlNet的輸出進行點乘,得到的結果再輸入到U-net的decoder中。這一操作利用了latent與像素空間的位置一緻性和controlNet訓練模式的特殊性,有效地控制了商品的邊緣輪廓,且排除了canny圖背景區域對prompt控制的幹擾。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

Masked Canny ControlNet流程圖

2.3 效果

使用上述兩個方法後,商品過度補全的現象有明顯緩解,對比如下所示。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

此外,Masked Canny ControlNet還能作用到"自由元素"構圖上,即為了增強畫圖的控制準确性,使用者可以拖動一些元素(如展台、蛋糕等)的canny圖到畫布中,該政策将mask由前景其餘擴充到前景+元素區域,可保證前景和元素的正确生成,同時避免其餘背景區域過于虛化或簡單,能夠按promopt生成,效果如下圖所示。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

3. 模特屬性控制

為了準确地控制視覺效果,大家經常會在prompt中給要生成的模特或者背景物體加上一些屬性限制,例如紅色的頭發、白色的桌面等,但結果往往不盡如意,模型并不能生成指定的屬性(下文簡稱為屬性綁定問題)。如下圖所示,輸入prompt “a blue bowl, a white cup, and yellow flowers in a grassy park”和視覺控制條件Canny Edge, 結果如右上角所示,prompt中相關部分為“a white cup”,但SD+ControlNet錯誤地将杯子的顔色生成了藍色。

目前已有文章[3]分析屬性綁定問題主要是在于屬性和物體的attention map重合度不高,于是有了許多training-free方法[4-6]在text-to-image文生圖場景來解決這個問題。但将這些方法應用到我們的場景中時,發現圖像控制圖像導緻其效果大打折扣,要麼屬性綁定失敗率較高,方法失效;要麼容易違背視覺條件的控制,産生使用者不想要的結果或者artifacts。為此,我們提出了一種新的training-free的方法“Mask-guided Attribute Binding”(MGAB,詳見論文>>https://arxiv.org/abs/2404.14768),在有圖像控制的條件下實作精準的屬性綁定。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

圖像控制條件下的屬性綁定效果

3.1 解決方案

首先,我們可以通過文法分析得到物體及要綁定的屬性。然後,在生圖過程中,我們引入了object mask來代表視覺控制中需要綁定屬性的物體區域,同時設計了簡單而有效的目标函數,在視覺控制條件和object mask的雙重限制下,在隐空間拉近屬性詞與物體詞attention map分布的距離。具體來說,如下圖所示,文本提示和圖像條件作為圖像控制生成的基本輸入,其中表示提示的長度。此外,還提供了相關的object mask集合 ,其中表示與和中描述的第個對象相關聯的mask。我們用設計的損失函數,在去噪過程中的每個時間步疊代地去噪并更新噪聲的latent變量。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

Mask-guided Attribute Binding(MGAB)方法示意圖

我們使用依存關系解析器spaCy來分析文本prompt,并提取出所有的屬性詞-物體詞組合。中包含對組合,和分别表示物體詞和對應屬性詞索引。和分别代表prompt中與視覺控制條件比對/不比對兩部分的關系集合。在前向降噪過程中,我們可以分别從SD和ControlNet中獲得與promopt的cross attention map,分别命名為和,代表了文本prompt中的詞與視覺像素之間的相關程度。對于prompt提示詞,attention map的計算公式如下:

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

其中,和分别來自于和的embedding變形後表示。我們的主要目标是,在視覺控制和object mask的條件下,最小化中屬性詞-物體詞組合 的attention map的分布距離。為此,我們設計了一個損失函數,Language-guided loss。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

image

其中,是一個計算attention maps之間距離的函數,代表和之間的KL散度。這個loss将在每一步降噪中,不斷拉近物體詞在中的attention map與屬性詞在中的attention map的距離,同時将,的attention map與跟它們不相關的提示詞對應的attention map拉遠。

更進一步的,我們還提出了另一個Mask-guided loss ,将目标物體和它對應的屬性詞的attention map的關注的區域都最大程度的限制在object mask區域内:

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

其中,等式右側括号的兩個對象,前者代表提示詞對應的裡attention map在object mask 裡的權重,後者則代表在object mask 外的權重。顯然,在疊代過程中,前者将越來越大,後者反之。

最終,Language-guided loss和Mask-guided loss将結合起來,在前向降噪的每一步通過更新zt來拉近物體詞和對應屬性詞attention map的分布。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

3.2 效果展示

我們分别結合四種不同類型的ControlNet,複現了各種提升屬性綁定準确度的方法,并與我們的方法在coco上進行實驗和對比。可以看到我們的方法在屬性綁定、與prompt的比對程度等方面均有比較明顯的提升,且并不會對成圖品質産生明顯的負面影響。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

在coco資料集上的各方法對比

在業務場景,我們提出的這個方法也有較好的表現。如下圖所示,第一列為商品前景,第二列為優化前效果,第三列為屬性綁定優化後效果。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術
百變背景:萬相實驗室AIGC電商圖檔可控生成技術
百變背景:萬相實驗室AIGC電商圖檔可控生成技術

4. 模特手部控制

在生成模特的過程中,手部畸形也是常見的一個問題。我們關注到社群中現有的幾種優化方案,包括Negative Prompt、Negative Embedding[7]、LoRA[8]等輕量級方案。如下圖所示,我們嘗試了以上方法,發現相比于直接生成手部圖像,使用這些方法隻能帶來極其有限的改進效果。

僅依賴擴散模型自身的能力并不能保證手部區域的穩定正确生成,這可能是因為手部結構精細、手勢變化萬千但又具有特定的實體規律。借鑒臉部修複的思路,我們考慮采用後處理的方式,先生成圖像,再檢測畸形手,将畸形手區域進行局部放大和重繪。但手勢比臉部五官的模式更為複雜,直接重繪容易出現手腕、手勢和原圖對應不上等問題,且畸形率仍然很高,是以我們引入了額外的結構控制來保持一緻性。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

4.1 解決方案

為了引入手部結構的控制,我們對可控制結構的各種controlNet進行了分析。

如下圖所示,我們從原始的模特圖像中提取或預估出五種結構控制圖像。可以發現,softedge、canny包含邊界資訊但無手指前後位置關系資訊,depth與normal包含深度資訊但邊界不明顯,同時從圖像中提取的手部區域控制資訊噪聲較大,較難實作對結構的精準控制。pose預估模型由于包含手部結構的先驗,使得pose中的手部結構是預估出的五種控制圖像中最為清晰完整的,但它僅包含二維的手部結構骨架,難以表示如手指粗細、前後關系等資訊,用于結構控制時效果不佳。且從原圖直接提取的這些控制條件,因為原圖手部畸形,難免都會陷入控制準确度和手部結構正确度之間的trade off。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

原始圖像(左)從原圖預估的控制圖像及對應生成結果(右)

那麼我們能否找到這樣的理想控制圖像呢?它即能利用手部結構的先驗,從原圖提取出位置和手勢與原手基本一緻且正确的手部結構,又能表示出如手指粗細、前後關系等精準關鍵資訊以加強控制。為實作這一目标,如下圖所示,我們首先對畸形手部圖像使用了三維手部重建,即在手部結構先驗的限制下,從二維RGB圖像中預估出三維參數化手部模型,手部結構的一緻性和正确性得到較好保證;接着,我們将三維重建結果渲染并轉換為depth與canny圖,以形成對手形狀、深度等各次元的強控制,配合ControlNet利用擴散模型的局部重繪能力修複手部結構。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

畸形手修複流程

4.2 效果

通過以上方法,畸形手修複的成功率大幅提高,下面是一些修複結果。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

5. 純色背景控制

在萬相實驗室服務過程中,我們觀測到服飾類商家對純色背景的需求很大,且希望能夠指定純色背景的色系。但對sd而言,生成指定顔色的純色背景是比較困難的[9],容易産生如下圖所示的背景顔色不均勻、人物頭發被"染色"等現象。

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

為了解決模型難以生成指定的純色背景的問題,我們提出先 Shuffle Controlnet 結合 local mask 的方式 及 基于LoRA的方式 進行控制以生成白底背景,并引入後處理操作以生成指定顔色的純色背景。

5.1 白底背景生成

為了生成具有較好光影感的白底圖,我們采用對圖像的風格參考較強的Shuffle ControlNet 進行控制,輸入為一張純白色的參考圖;同時為了避免影響前景部分的生成效果,我們同上文所述的Masked Canny ControlNet一樣,引入mask 來控制 Shuffle ControlNet 僅作用于背景區域。此外,我們優化了生圖時的 prompt,使得結果圖在白底的基礎上具有一定的光影效果。

為了提高白底圖的效果穩定性,我們還使用了一種基于LoRA的方案。我們收集了大量高視覺美觀度的純色棚拍圖,為提高LoRA與Inpainting ControlNet的相容性,我們對圖像進行分割處理,獲得人物前景與背景,配合Inpainting ControlNet訓練一個LoRA來生成純色背景。

5.2 指定顔色後處理

在此基礎上,為了生成指定顔色的背景,我們首先對白底圖進行前景分割,然後以color matcher[10]的方式對背景進行顔色變換,具體來說,color matcher會接受一張顔色參考圖和白底圖的背景,并通過線性變換的方式将白底圖背景映射為參考圖的顔色。最後我們将前景和變換後的背景結合起來得到最終的結果圖。

5.3 效果

基于這種兩步法,我們能比較穩定地實作指定顔色的純色背景生成,效果如下所示:

百變背景:萬相實驗室AIGC電商圖檔可控生成技術

6. 總結與展望

我們通過SD和一些圖像控制模型實作了商品換背景換模特功能,并通過一些方法加強了商品/元素控制、模特控制、純色背景控制,使得生成控制更精準、視覺效果更好,目前這一功能已上線了萬相實驗室供廣大商家使用。但在商品圖生成上仍有很多值得去探索優化的地方,比如diffusion模型生圖速度慢、前背景光線融合感不夠強等,我們将持續優化模型能力和産品使用體驗,為廣大商家提供更友善更高效的智能創意制作能力。

▐ 關于我們

我們是阿裡媽媽智能創作與AI應用團隊,專注于圖檔、視訊、文案等各種形式創意的智能制作與投放,産品覆寫阿裡媽媽内外多條業務線,歡迎各業務方關注與業務合作。同時,真誠歡迎具備CV、NLP相關背景同學加入,一起擁抱 AIGC 時代!感興趣的同學歡迎投遞履歷加入我們。

✉️ 履歷投遞郵箱:[email protected]

▐ 參考文獻

團隊論文:

Hongyu Chen, Yiqi Gao, Min Zhou, Peng Wang, Xubin Li, Tiezheng Ge, Bo Zheng. Enhancing Prompt Following with Visual Control Through Training-Free Mask-Guided Diffusion, arXiv preprint arXiv:2404.14768, 2024.

其他論文:

[1] https://stability.ai/news/stable-diffusion-public-release

[2] Lvmin Zhang, Anyi Rao, Maneesh Agrawala. Adding Conditional Control to Text-to-Image Diffusion Models. ICCV2023: 3813-3824

[3] aphael Tang, Linqing Liu, Akshat Pandey, Zhiying Jiang, Gefei Yang, Karun Kumar, Pontus Stenetorp, Jimmy Lin, and Ferhan Ture. What the daam: Interpreting stable diffusion using cross attention. ACL 2023: 5644-5659

[4] Hila Chefer, Yuval Alaluf, Yael Vinker, Lior Wolf, and Daniel Cohen-Or.Attend-and-excite:Attention-based semantic guidance for text-to-image diffusion models.ACM Transactions on Graphics (TOG), 42(4):1–10, 2023.

[5] Royi Rassin, Eran Hirsch, Daniel Glickman, Shauli Ravfogel, Yoav Goldberg, and Gal Chechik. Linguistic binding in diffusion models: Enhancing attribute correspondence through attention map alignment. NeurIPS 2023.

[6] Weixi Feng, Xuehai He, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, Xin Eric Wang, and William Yang Wang. Training-free structured diffusion guidance for compositional text-to-image synthesis. arXiv preprint arXiv:2212.05032, 2022.

[7] https://civitai.com/models/56519/negativehand-negative-embedding

[8] https://civitai.com/models/200255/hands-xl-sd-15

[9] Shanchuan Lin, Bingchen Liu, Jiashi Li, Xiao Yang. Common Diffusion Noise Schedules and Sample Steps are Flawed. WACV2024: 5392-5399

[10] F. Pitie and A. Kokaram, "The linear Monge-Kantorovitch linear colour mapping for example-based colour transfer," 4th European Conference on Visual Media Production, London, 2007, pp. 1-9, doi: 10.1049/cp:20070055.

作者:雲芑、因塵、歲星、也鹿

來源-微信公衆号:阿裡媽媽技術

出處:https://mp.weixin.qq.com/s/Q15jWa2kQV0UNOX_RtyUEw

繼續閱讀