1、Stable Diffusion
Stable Diffusion 是一種基于潛在擴散模型(Latent Diffusion Models)的文本到圖像生成模型,能夠根據任意文本輸入生成高品質、高分辨率、高逼真的圖像。
如何使用Stable Diffusion?
你需要給出一個描述圖檔的提示,例如:姜餅屋,西洋鏡,焦點,白色背景,吐司,脆麥片;生成圖檔如下:
Stable Diffusion優勢
類似的文本生成圖像服務有很多,例如DALLE和MidJourney。那為什麼要選擇Stable Diffusion呢?
•開源:相較于剛才提到的兩個工具,Stable Diffusion對于使用者而言最大的優勢在于免費。
•高品質:Stable Diffusion模型可以生成高分辨率、樣化的圖像,與真實圖檔難以區分。
•靈活性:Stable Diffusion模型可以處理各種類型和風格的文本輸入和圖像輸入,無論是簡單的描述、複雜的故事、抽象的概念、還是具體的要求。
•穩定性:Stable Diffusion模型可以避免出現常見的圖像生成問題,如模糊、僞影、重複、不自然等。
2、多樣化風格模型
風格切換
在使用過程中大家可以根據自身的設計需求進行風格模型切換,例如:
•Stable Diffusion v1.4/.5/2.0/2.1:官方基礎模型。百搭各種風格;
•Realistic Vision v2.0 : 擅長生成照片風格的逼真圖像;
•Anything v3.0:動漫風格;
•dreamlike-photoreal :寫實風格;
動漫風格
逼真圖像
3、産品推薦
線上生成器
對于AI繪畫感興趣的0基礎初學者,可以使用一些免費線上生成器生成圖檔,無需進行鏡像部署等相對複雜的操作環節。
AI繪畫 Web UI
免費線上生成器的功能非常有限,對于圖檔有更高要求的人而言,可以使用更進階的Web UI(網絡産品界面設計)。我使用的是UCloud的GPU雲伺服器,搭配平台提供的AI繪圖 Web UI鏡像,開箱即用,無需進行繁瑣配置。請參閱安裝指南。
4、圖像生成
Prompt
雖然AI發展迅速,但Stable Diffusion仍然無法精準讀懂使用者的想法,更多的是需要靠使用者盡可能詳細地描述需要的圖像主題,確定包含有力的關鍵詞來定義整體圖像風格。Prompt可以作為元素權重的關鍵詞,讓AI更傾向于在繪圖中繪制和Prompt的内容相關的元素。
•假設您想生成一張比較有個性的貓咪的照片。一個簡單的提示:有個性的貓,生成圖檔如下:
如果我們用更加詳細具體的提示再生成一次:一隻灰色的貓,戴耳機,賽博朋克風
從前後兩次提示生成的圖檔對比來看,第一張就過于簡單,第二種相對更加符合我們的預期;是以在寫提示時,我們要較長的描述我們需要的圖像風格以及整體的建構。對于初學者而言,前期我們可以借助AI提示生成器學習逐漸過程和重要關鍵詞,進而使生成的圖檔盡可能達到預期效果。
另外在寫提示時,關鍵詞也十分重要,有向導性的關鍵詞可以使最終生成的圖檔更加符合使用者的預期效果,例如:
名人的名字(例如 Emma Watson)
藝術家姓名(如梵高)
藝術媒介(例如插圖、繪畫、照片)
後續我們會單獨講解有關提示建構和示例關鍵字的更多資訊。
Negative prompt
Negative Prompt則是和Prompt相反,是一個反向權重的權重關系,也就是減低某些元素出現的頻率,進而限制AI的行為。
參數設定
為了使圖檔達到更加精準的預期效果,我們在進行圖像生成的過程中也可以去調整整體的參數設定,以下是一些比較重要的參數參考:
Image size:輸出圖像的大小。标準尺寸為 512×512 像素。将其更改為縱向或橫向尺寸會對最終生成的圖檔效果産生很大影響。例如使用縱向尺寸最終會生成全身圖像。
Sampling steps:預設 20,整體可根據最終生成的圖像效果去設定。适當大一些的可以讓畫面内容更細緻,小的話就沒那麼細緻,想要追求更好的效果也可以将此參數适當調大到30左右。當然,參數越大越吃性能。
CFG scale:可以簡單了解為AI對描述參數的傾向程度,預設典型值為7,如果希望最終生成的圖像更符合提示,可以适當将參數調大一些。
Seed value:-1 生成随機圖像,這個随機數影響畫面的内容,如果seed以及Negative Prompt和Prompt都相同,生成幾乎完全一緻的圖檔的機率就很高。個人建議這個不用特意設定,預設就行;如果對生成圖像有明确要求,可以根據去看調整參數大小。
Batch count:一次性出圖的數量,出圖數量越多,生成越慢。
5、定制模型
Stability AI及其合作夥伴釋出的官方模型稱為基礎模型。例如 Stable Diffusion1.4、1.5、2.0和2.1。
定制模型是基于基礎模型進行訓練的。目前,大多數模型都是從 v1.4 或 v1.5 開始訓練的。他們通過額外的資料訓練,用于生成特定風格的圖像。
以下是 5 種不同型号的比較:
選擇哪種模型
對于初級玩家來說,可以使用基本模型先摸索整體玩法和應用,建議先從V1.5版本開始。基礎模型分為兩個主要組:v1和v2。v1模型包括1.4和1.5版本,而v2模型則包括2.0和2.1版本。
如何訓練新模型
訓練模型的兩種主要方法是:(1) Dreambooth和 (2) embedding。
目前整體看來,Dreambooth更強大,因為它對整個模型的權重進行微調。嵌入則保持模型不變,但會找到描述新主題或風格的關鍵詞。
6、圖生圖
除了上述提到的文生圖(txt2img),在頁籤中還有img2img,Extras,PNG Info,Checkpoint Merger,Train,Additional Networks,Dreambooth,Settings,Extensions,其中常用的也還有img2img圖生圖。
圖像精準控制
ControlNet使用輸入圖像作為參考圖,然後程式根據此圖按一定的模式預處理一張新圖,之後再由AI根據這兩幅圖繪制出成品;使用者也可以關閉程式的預處理功能,直接輸入一張使用者自己處理好的圖檔當作預處理圖,之後AI僅根據這副圖生成成品。它可以提取特定資訊,例如動物姿勢。下面是使用 ControlNet 從輸入圖像複制動物姿勢的示例。
Input
Output
圖像分割
segment anything支援圖像分層,切割,單次可處理單張或多張圖檔。下面以一隻貓的圖檔為示例,基于sam模型可以快速實作圖像的分層、蒙版、分割。
Input
Output
圖像微調
Additional-Networks可支援基于LoRA模型微調圖檔風格。以Prompt:“a grey cat, headphone, cyberpunk”為例,如圖所示模型輸出結果如下:
Input
Output
區域提示
Regional Prompter可以通過設定區域提示來控制生成圖像的具體細節和特征。您可以使用區域提示來指定生成圖像中特定區域的外貌、風格或屬性。下面是在左下角放置一隻狼,在右下角放置頭骨的示例。
深度圖像
Depth-to-image是指從深度圖或深度資訊生成圖像的過程。它可以檢測輸入圖像中的前景色和背景色,生成的輸出圖像将遵循相同的前景色和背景色。以下是一個示例:
Input
Output
7、視訊制作
Deforum是一種将Stable Diffusion的能力與動畫的動态性相結合的短視訊剪輯。目前該插件在社交媒體平台上越來越受歡迎,它們以多種形式呈現,如藝術動畫、形态變換效果或超現實的視覺序列。
通過這個新手指南,我們可以了解使用Stable Diffusion生成圖像的基本知識和技巧。後續我們将針對每個環節給大家做更加細緻的講解以及線上示範操作細節。讓我們一起深入探索,發現更多創作的可能性!