09 Stable Diffusion
https://youtu.be/fmjeDsO_TbE?si=hBsBoH_dTqEnaOr2
tensor.art(線上SD)👉https://tensor.art/ openposes(姿勢)👉https://openposes.com/ 可以到👉看整篇文章說明更清楚:https://tracyting.com/tensor-art/ ====================================== 最新AI繪圖工具「Tensor.art」提供了全套stable diffusion模型,以及ControNet功能,讓使用者能在網站上無需下載軟體或安裝,輕鬆創作圖片。網站涵蓋多種模型,包括LoRA和SDXL等,還能進行高清修復。使用方式簡單,每日登入免費送100點算力,可畫100張圖,且不限制使用次數。
參考資料:
https://youtube.com/playlist?list=PL4L5yXcAegdxwcD2RRffQntmXygv26auT&si=GoY5yRz3enh9qJZK
一、生成式AI的關鍵技術:
VAE技術 (編碼、解碼的過程)
Autoencoder 簡稱AE,字面上看起來就是【自動運作的編碼器】,其用途是用來重新編碼資料,可藉此壓縮資料大小或是濃縮資訊。
簡單來說artificial intelligence,我們用縮寫AI來代表人工智慧,這就是某種形式的重新編碼。
AE的運作也類似,想辦法把資料濃縮後,需要時也要有辦法還原回原始資料(這個動作稱為解碼decoder)。
科學家還進一步發現,若能針對自編碼器加諸一些條件來約束編碼的範圍,讓編碼不是全然隨機產生,將可以一定程度掌控生成資料的結果。也因此發展出VAE(Variational Autoencoder)變分自編碼器,讓機器依循常態分佈的機率來產生編碼!
訓練好的VAE編碼器除了可以達到壓縮、還原現在資料的目的外,由於編碼的表示法有固定的範圍,就可以生成與原有資料性質相近的新資料。這也是目前多數生成模型的基本概念
GAN技術 (生成、鑑別的競爭)
Generative Adversarial Network (生成對抗式網絡)
2014發表
GAN模型包括生成器(generator)和鑑別器(discriminator)兩個神經網路
生成器:負責生成新資料,而且要以假亂真、盡可能與原始資料一致
鑑別器:負責判別生成的結果是否為假資料
透過上面兩者的競爭機制,生成器會不斷的生成更貼近原始資料的內容,直到達到理想的結果為止
Diffusion Model 擴散模型 (加雜訊、去雜訊的過程)
雖然GAN模型生成的圖片已有不錯的品質,但採用神經網路訓練方式,像黑盒子,難以掌控生成結果
Diffusion Model 擴散模型是2020年提出的新的生成模型,它提供了一種不同於GAN的生成圖像方法,只需要建構一個神經網路模型,訓練過程更為穩定,而且方便觀察,開發人員比較能掌握資料生成的結果。
Diffusion模型的概念是將一張原始圖像加上一點點的雜訊,然後逐步不斷增加雜訊,直到最後整張圖像變成一整片的隨機雜訊;接著反過來,將雜訊一次一次的過濾掉,讓原本的圖像慢慢顯示出來,直到跟原始圖像一樣清晰。
Diffusion模型透過這種增加雜訊再逐步去除雜訊的過程,可以從原始圖像中獲取其特徵或結構的重要資訊;接著模型再利用這些資訊,來組合生成具有相似風格、主題和細節的新圖像。
二、認識Stable Diffusion
Stable Diffusion是由StabilityAI、Runway與慕尼黑大學團隊CompVis所研發,並公開原始碼在網路上。
可以安裝在自己的電腦(要有較高的硬體配置)
或安裝在Google Colab
Stable Diffusion的版本
V1.4
V1.5
V2.0 (不見得越高越好,像很多人還喜歡用V1.5版)
V2.1
SDXL V0.9
SDXL V1.0
網頁平台
由於Stable Diffusion是一款開源模型,因此有很多可生圖的網頁平台可用
下方另有常見網頁平台的介紹
參數說明
成生圖像的過程像在抽獎
Sampling(採樣方法)&Sampling step(採樣步數)
這兩個選項是指生成圖像過程中處理雜訊的設定,其中採樣方法會影響圖像的風格;採樣步數越多則通常越細緻(但時間會更長)
好像說:DPM++2M Karras採樣方法算出來的圖形比較美
採樣步數通常會設置在20~30
reatore faces(臉部修正)
臉部比較不容易出現扭曲、歪斜的狀況,但會增加運算負擔,建議當出現臉部失真後再勾選
Hires,fix(高品質圖像)
跟上面一樣,建議當算到不錯的圖片時,再固定seed,勾選此來重新算圖
Tiling(拼接圖)
可以讓生成的圖片無縫接軌
Batch count(輸出張數) & batch size(輸出批次)
Batch count:生成的張數,建議設2或4
batch size:會多次算圖,每次都加入隨機雜訊的過程,所以會產生更高的隨機性,建議設1即可
CFG(縮放因子)
CFG為Prompt的影響程度
CFG的值越高,所生成的圖像會越符合文字描述;值越小,模型則會加入自己的創意
Seed(隨機種子)
AI繪圖軟體在生成圖像時,就算輸入相同的Prompt,每次生成的圖像都不會相同
固定SEED則可以讓圖像的生成方式穩定下來,讓生成的圖像相同
如果要算出來的人物長得一樣,勢必要訓練出一個專屬的Lora模型
模型風格介紹
因為Stable Diffusion是一款開源模型,最讚的一點是可以使用其他人所訓練的【微調模型】
【微調模型】指的是在原有的模型上,進行架構更改或使用新資料集來訓練,讓AI可以學習新的人物、物件或藝術風格
可到Civitai網站 https://civitai.com/ 尋找喜歡的模型風格
常用的模型
Realistic Vision:擅長繪製超級擬真的虛擬人物照
ChilloutMix:擅長繪製亞洲臉孔女性
Deliberate:能夠生成多樣化的藝術風格 (可以先測試這個非常強大的模型-Deliberate)
DreamShaper:擅長繪製美版藝術圖像
ReV Animated:同樣擅長繪製美版藝術圖像,不過加入了更多光影與層次上的細節
MeinaMix:為日版動漫風格的佼佼者
OrangeMix:同樣擅長日版風格,但光線感較為柔和
最近很紅的兩大功能
Lora
微調原模型,讓模型記住新樣本的人物或風格
LoRA模型是一種輔助模型,可以幫助收束角色的特性和細節,讓生成圖像更符合預期。LoRA模型是根據特定的角色或風格訓練出來的,所以有很多種不同的LoRA模型可以下載。也是大家最常自己訓練來玩的,不管真人還是卡通人物都可以訓練成Lora模型。
Lora模型檔案通常較小,90~200MB就可打發掉,Lora模型通常放在Stable Diffusion資料夾的./models/lora/下。
ControlNet
幫助我們控制圖像的構圖(人物姿勢、建築格局)
三、常用的網頁平台介紹
Civitai
https://civitai.com/
因為 Stable Diffusion 是一款開源模型,最讚的一點是可以使用其他人所訓練的微調模型,每種模型的繪圖風格都不盡相同,Civitai大多數圖片都是使用 Stable Diffusion 產出,可以從裡面找到想要的照片風格。
不能算圖,可上傳AI圖
找到喜歡圖片,取得其prompt
Playground.ai
可算圖
免費帳號每天可算1000張圖,可用在商業
教學影片
https://youtu.be/dkUjHPQ4nHA 官方教學影片
圖片會有變形這是因為AI是在1:1的寛高比訓練的,特別是512x512
Prodia
結合類似 Stable Diffusion 繪圖功能
如果想產生比較細緻逼真的人像圖片,Prodia 就比較不適合,主要是模組不夠精細,沒辦法產生複雜比真的人物圖片
免註冊可算圖,免費的只有小圖(只能夠產生 512 X 512 像素 AI 圖片)
不支援SDXL
教學:
內容:
最快方法直接點下方六種不同範例風格,包含有手繪、寫實、擬真人物、CG動漫風格和電繪等風格
模型說明:
SD 1.4 模型:素描、手繪、3D風格
Anything V3 模型:CG風格(日系)
Anything V4.5 模型:CG風格(歐美)
Analog V1 模型:真人樣貌
TheAlly’s Mix II 電繪畫像(柔美):3D 電繪風格人物圖片
Elldreth’s Vivid 模型:電玩CG風格畫像(陰影),韓國電玩 CG 風格
Dreamlike Diffusion:真人樣貌
進階說明
CFG Scale 是一個創意指數,如果數值越低就會越自由發揮,數值越高就會按你的文字來執行。
步數越多畫出來的照片月細緻
Tensor.art
Tensor Art是大陸仿C站的結果,C站的大部分模型都已經搬磚搬到T站了,甚至不少大陸網友上傳自己訓練的模型只在T站,形成T站獨享的局勢;另外T站和偷客兔一樣,可以針對不同模型直接進行線上版的Stable Diffusion。
偷客兔
https://tokto.ai/