09 Stable Diffusion

https://youtu.be/fmjeDsO_TbE?si=hBsBoH_dTqEnaOr2

tensor.art(線上SD)👉https://tensor.art/ openposes(姿勢)👉https://openposes.com/ 可以到👉看整篇文章說明更清楚:https://tracyting.com/tensor-art/ ====================================== 最新AI繪圖工具「Tensor.art」提供了全套stable diffusion模型，以及ControNet功能，讓使用者能在網站上無需下載軟體或安裝，輕鬆創作圖片。網站涵蓋多種模型，包括LoRA和SDXL等，還能進行高清修復。使用方式簡單，每日登入免費送100點算力，可畫100張圖，且不限制使用次數。

參考資料：

https://youtube.com/playlist?list=PL4L5yXcAegdxwcD2RRffQntmXygv26auT&si=GoY5yRz3enh9qJZK

一、生成式AI的關鍵技術：

VAE技術 (編碼、解碼的過程)
- Autoencoder 簡稱AE，字面上看起來就是【自動運作的編碼器】，其用途是用來重新編碼資料，可藉此壓縮資料大小或是濃縮資訊。
- 簡單來說artificial intelligence，我們用縮寫AI來代表人工智慧，這就是某種形式的重新編碼。
- AE的運作也類似，想辦法把資料濃縮後，需要時也要有辦法還原回原始資料(這個動作稱為解碼decoder)。
- 科學家還進一步發現，若能針對自編碼器加諸一些條件來約束編碼的範圍，讓編碼不是全然隨機產生，將可以一定程度掌控生成資料的結果。也因此發展出VAE(Variational Autoencoder)變分自編碼器，讓機器依循常態分佈的機率來產生編碼！
- 訓練好的VAE編碼器除了可以達到壓縮、還原現在資料的目的外，由於編碼的表示法有固定的範圍，就可以生成與原有資料性質相近的新資料。這也是目前多數生成模型的基本概念
GAN技術 (生成、鑑別的競爭)
- Generative Adversarial Network (生成對抗式網絡)
- 2014發表
- GAN模型包括生成器(generator)和鑑別器(discriminator)兩個神經網路
  - 生成器：負責生成新資料，而且要以假亂真、盡可能與原始資料一致
  - 鑑別器：負責判別生成的結果是否為假資料
  - 透過上面兩者的競爭機制，生成器會不斷的生成更貼近原始資料的內容，直到達到理想的結果為止
Diffusion Model 擴散模型 (加雜訊、去雜訊的過程)
- 雖然GAN模型生成的圖片已有不錯的品質，但採用神經網路訓練方式，像黑盒子，難以掌控生成結果
- Diffusion Model 擴散模型是2020年提出的新的生成模型，它提供了一種不同於GAN的生成圖像方法，只需要建構一個神經網路模型，訓練過程更為穩定，而且方便觀察，開發人員比較能掌握資料生成的結果。
- Diffusion模型的概念是將一張原始圖像加上一點點的雜訊，然後逐步不斷增加雜訊，直到最後整張圖像變成一整片的隨機雜訊；接著反過來，將雜訊一次一次的過濾掉，讓原本的圖像慢慢顯示出來，直到跟原始圖像一樣清晰。
- Diffusion模型透過這種增加雜訊再逐步去除雜訊的過程，可以從原始圖像中獲取其特徵或結構的重要資訊；接著模型再利用這些資訊，來組合生成具有相似風格、主題和細節的新圖像。

二、認識Stable Diffusion

Stable Diffusion是由StabilityAI、Runway與慕尼黑大學團隊CompVis所研發，並公開原始碼在網路上。
- 可以安裝在自己的電腦(要有較高的硬體配置)
- 或安裝在Google Colab
Stable Diffusion的版本
- V1.4
- V1.5
- V2.0 (不見得越高越好，像很多人還喜歡用V1.5版)
- V2.1
- SDXL V0.9
- SDXL V1.0
網頁平台
- 由於Stable Diffusion是一款開源模型，因此有很多可生圖的網頁平台可用
- 下方另有常見網頁平台的介紹
參數說明
- 成生圖像的過程像在抽獎
- Sampling(採樣方法)&Sampling step(採樣步數)
  - 這兩個選項是指生成圖像過程中處理雜訊的設定，其中採樣方法會影響圖像的風格；採樣步數越多則通常越細緻(但時間會更長)
    - 好像說：DPM++2M Karras採樣方法算出來的圖形比較美
    - 採樣步數通常會設置在20~30
- reatore faces(臉部修正)
  - 臉部比較不容易出現扭曲、歪斜的狀況，但會增加運算負擔，建議當出現臉部失真後再勾選
- Hires,fix(高品質圖像)
  - 跟上面一樣，建議當算到不錯的圖片時，再固定seed，勾選此來重新算圖
- Tiling(拼接圖)
  - 可以讓生成的圖片無縫接軌
- Batch count(輸出張數) & batch size(輸出批次)
  - Batch count：生成的張數，建議設2或4
  - batch size：會多次算圖，每次都加入隨機雜訊的過程，所以會產生更高的隨機性，建議設1即可
- CFG(縮放因子)
  - CFG為Prompt的影響程度
  - CFG的值越高，所生成的圖像會越符合文字描述；值越小，模型則會加入自己的創意
- Seed(隨機種子)
  - AI繪圖軟體在生成圖像時，就算輸入相同的Prompt，每次生成的圖像都不會相同
  - 固定SEED則可以讓圖像的生成方式穩定下來，讓生成的圖像相同
  - 如果要算出來的人物長得一樣，勢必要訓練出一個專屬的Lora模型

模型風格介紹
- 因為Stable Diffusion是一款開源模型，最讚的一點是可以使用其他人所訓練的【微調模型】
  - 【微調模型】指的是在原有的模型上，進行架構更改或使用新資料集來訓練，讓AI可以學習新的人物、物件或藝術風格
- 可到Civitai網站 https://civitai.com/ 尋找喜歡的模型風格
- 常用的模型
  - Realistic Vision：擅長繪製超級擬真的虛擬人物照
  - ChilloutMix：擅長繪製亞洲臉孔女性
  - Deliberate：能夠生成多樣化的藝術風格 (可以先測試這個非常強大的模型-Deliberate)
  - DreamShaper：擅長繪製美版藝術圖像
  - ReV Animated：同樣擅長繪製美版藝術圖像，不過加入了更多光影與層次上的細節
  - MeinaMix：為日版動漫風格的佼佼者
  - OrangeMix：同樣擅長日版風格，但光線感較為柔和

最近很紅的兩大功能
- Lora
  - 微調原模型，讓模型記住新樣本的人物或風格
  - LoRA模型是一種輔助模型，可以幫助收束角色的特性和細節，讓生成圖像更符合預期。LoRA模型是根據特定的角色或風格訓練出來的，所以有很多種不同的LoRA模型可以下載。也是大家最常自己訓練來玩的，不管真人還是卡通人物都可以訓練成Lora模型。
  - Lora模型檔案通常較小，90~200MB就可打發掉，Lora模型通常放在Stable Diffusion資料夾的./models/lora/下。
- ControlNet
  - 幫助我們控制圖像的構圖(人物姿勢、建築格局)

三、常用的網頁平台介紹

- Civitai
  - https://civitai.com/
  - 因為 Stable Diffusion 是一款開源模型，最讚的一點是可以使用其他人所訓練的微調模型，每種模型的繪圖風格都不盡相同，Civitai大多數圖片都是使用 Stable Diffusion 產出，可以從裡面找到想要的照片風格。
  - 不能算圖，可上傳AI圖
  - 找到喜歡圖片，取得其prompt

Playground.ai
- https://playgroundai.com/
- 可算圖
- 免費帳號每天可算 1000張圖，可用在商業
- 教學影片
- https://youtu.be/9I1Hj-sj3sc 很值得一看
- https://youtu.be/dkUjHPQ4nHA 官方教學影片
- 圖片會有變形這是因為AI是在1:1的寛高比訓練的，特別是512x512

Prodia
- https://app.prodia.com/#/art-ai
- 結合類似 Stable Diffusion 繪圖功能
- 如果想產生比較細緻逼真的人像圖片，Prodia 就比較不適合，主要是模組不夠精細，沒辦法產生複雜比真的人物圖片
- 免註冊可算圖，免費的只有小圖(只能夠產生 512 X 512 像素 AI 圖片)
- 不支援SDXL
- 教學：
  - https://www.newmobilelife.com/2023/03/08/free-stable-diffusion-prodia?utm_source=fb_page&utm_medium=jetsoiphone&utm_campaign=post
  - https://mrmad.com.tw/prodia?fbclid=IwAR3B4mmWISBHi52hh-dQeXV7wHQtUw_DT3Nt2LA8aRIhQq9XLELYx74r4Oo
- 內容：
  - 最快方法直接點下方六種不同範例風格，包含有手繪、寫實、擬真人物、CG動漫風格和電繪等風格
- 模型說明：
  - SD 1.4 模型：素描、手繪、3D風格
  - Anything V3 模型：CG風格（日系）
  - Anything V4.5 模型：CG風格（歐美）
  - Analog V1 模型：真人樣貌
  - TheAlly’s Mix II 電繪畫像（柔美）：3D 電繪風格人物圖片
  - Elldreth’s Vivid 模型：電玩CG風格畫像（陰影），韓國電玩 CG 風格
  - Dreamlike Diffusion：真人樣貌
- 進階說明
  - CFG Scale 是一個創意指數，如果數值越低就會越自由發揮，數值越高就會按你的文字來執行。
  - 步數越多畫出來的照片月細緻
- 負向Prompt：在Prompt加上text, logo, wordmark, writing, heading, signature, two heads, two faces, cropped image, out of frame, deformed hands, twisted fingers, double image, malformed hands, multiple heads, extra limb, ugly, poorly drawn hands, missing limb, disfigured, cut off, ugly, grain, low res, deformed, blurry, bad anatomy, disfigured, poorly drawn face, mutation, mutated, floating limbs, disconnected limbs, disgusting, poorly drawn, mutilated, mangled, extra fingers, duplicate artifacts, missing arms, mutated hands, mutilated hands, cloned face, malformed,

Leonardo.Ai
- 網址：https://leonardo.ai/
- 免費帳號：每天150tokens (2024.09.07)
- 每算一次圖(基本會產生4張圖)，最少會用掉16tokens，也就是一天只能算10次圖(40張)

Tensor.art
- Tensor Art是大陸仿C站的結果，C站的大部分模型都已經搬磚搬到T站了，甚至不少大陸網友上傳自己訓練的模型只在T站，形成T站獨享的局勢；另外T站和偷客兔一樣，可以針對不同模型直接進行線上版的Stable Diffusion。
偷客兔
- https://tokto.ai/

Page updated

Google Sites

Report abuse