20250316 - Stable Diffusion 基礎概念與目前AI趨勢分享 @ 東吳大學

Stable Diffusion 基礎概念 & 目前 AI 趨勢分享 Basic concept of
Stable Diffusion & Latest AI Trending

關於 — 數據女巫 𝔻.𝕡𝕪𝕤 個人簡介競賽經歷聯絡我個人背景  財金
＆資工創作特色  絢麗、空靈、破碎感創作工具  日常以使用自己訓練的 Stable Diffusion 模型為主  Live Creative Prompting 時會用 Midjourney  2024 技嘉 GIGABYTE｜VS AI 街頭對戰冠軍  2024 華碩 ASUS 校園 AI 繪圖競賽亞軍 + 現場最佳人氣獎  2024 台灣 AI 生成大賽鳥巢盃十六強  2024 臺灣文化與永續發展：AI 視覺創作之明信片設計競賽佳作  2024 華碩 ASUS ProArt AI 時光機 – 狂想童話佳作  2024 台灣金星設計獎 Taiwan Top Star 特優獎  2024 台灣文化科技大會 TTXC VS AI 街頭對戰 [世界大賽] 亞軍  2024 臺北生成藝術節佳作  2025 Project Odyssey Open Format Honorable Mention  Email: [email protected]  Instagram: @data_pythoness  Facebook: 數據女巫 𝔻.𝕡𝕪𝕤  Website: techmagichouse.art 01

主流 AI 繪圖工具介紹 02 MidJourney 介紹 Bing Image Creator 介紹
Stable Diffusion 介紹我的 MJ & SD 作品 AI 繪圖還能做什麼？大綱 OUTLINE

Stable Diffusion 入門踏入 Stable Diffusion 的世界 SD 模型與他們的集散地畫出第一張圖！
安裝擴充功能 (Extensions) 如何寫出好的 prompt ? 寫不出 prompt 來怎麼辦？ 03 大綱 OUTLINE

04 Stable Diffusion 進階大綱 OUTLINE 使用工具決定主題把故事變成現實吧！大模型的好夥伴們
什麼是 LoRA? 安裝擴充功能 (Extensions) – 續 ControlNet 是什麼 ControlNet 怎麼安裝

今日課表時間課程/活動時長 10:00 - 12:00 上午課程 2 小時
12:00 - 13:00 中午休息 1 小時 13:00 - 14:50 下午第一堂 1 小時50分 14:50 - 15:00 中間休息 10 分鐘 15:00 - 17:00 下午第二堂 2 小時

主流 AI 繪圖工具介紹 05

主流 AI 繪圖工具 - MidJourney 06 吳淡如，《櫻花貓少女》，2023年2月12日  由位於美國加州舊金山的同名研究實驗室開發之人工智慧程式 
可根據文字生成圖像（text-to-image）  於 2022 年 7 月 12 日進入公開測試階段  使用者可透過 Discord 的機器人指令進行操作或 App 操作（New in 2023.10） Midjourney

我的 MJ 作品 07 < 停頓的秒針 > The Paused Second
Hand < 遺失的光影 > The Lost Light and Shadow

我的 MJ 作品 08 《天•愛灣 T•AI WAN》《天•愛灣 T•AI WAN》
是由臺灣文化做為發想的系列作，這系列的作品要素圍繞在傲視群雄的尖端科技以及作為東亞文化精粹的傳統廟宇上。此系列的命名靈感來自於 NVIDIA 執行長黃仁勳於 2024 年 6 月所提的「TAIWAN 字母就藏 AI，理當為世界打造 AI 基礎」的意見。 "T" 近於台語的「天」—系列名稱應運而生。我們希望使觀者能夠從作品的畫面上直觀地感受到臺灣—這座實力被世界低估的島嶼上的多元性。恰是這兩種看似矛盾的元素，卻能在這座小島上和諧的共存並相互輝映。 • 工具：Midjourney • 修正：Photoshop • 後處理：Stable Diffusion 賽博、蓮花與信仰之所在三分天注定七分靠打拼佛法無邊電路板 2024 台灣金星設計獎特優作品

主流 AI 繪圖工具 - Bing Image Creator 09  就是微軟的
bing  可根據文字生成圖像（text-to-image）  基於 OpenAI 的 DALL-E 模型的先進版本，且已經整合到新版的 Bing 和 Edge 瀏覽器中  完全免費

主流 AI 繪圖工具 - Stable Diffusion 10  一種基於潛在空間（latent space）的擴散模型
(Diffusion model)  可根據文字生成圖像（text-to-image）  最初由新創公司 StabilityAI、慕尼黑大學的 CompVis 研究團體與 Runway 合作開發  可再細分為 SD 1.5、SD 2.0、SDXL、Flux 等變體 “A photograph of an astronaut riding a horse” stability.ai

我的 SD 作品 11 淨土《ELYSIUM》

我的 SD 作品 12 幻想曲《REVERIE》

我的 SD 作品 13 賽博龐克《CYBERPUNK》

AI 繪圖還能做什麼？ 14 設計：自動生成去背 PNG 素材 LayerDiffusion 建築：草圖渲染、線稿上色電商：換裝換背景 OutfitAnyone
ControlNet

Stable Diffusion 入門 15

踏入 Stable Diffusion 的世界 Stable Diffusion 是「模型」，而調用這頭巨獸的最簡單方式就是使用圖形化的介面，因此在使用 Stable Diffusion
時，我們需要有 SD 的模型本人以及 WebUI，而圖形化介面有非常多的選擇。 16 Stable Diffusion WebUI ComfyUI

踏入 Stable Diffusion 的世界 SD 1.5  這是最常見的元老模型之一  SD
1.5 的賣點在於要求的算力很低，且效果相當堪用  相關資源超級多。最推薦的 AI 繪圖入門款。 17 https://techmagichouse.art/stable-diffusion-models- introduction-recommend/ Dreamshaper GhostMix

踏入 Stable Diffusion 的世界 SDXL 1.0  相較於 SD 1.5
的大躍進，無論是手或是軀體的正確性都改善很多。  相關分支包括 SDXL Hyper、SDXL Lightning、 SDXL Turbo。 18 https://techmagichouse.art/stable-diffusion-models- introduction-recommend/ Juggernaut XL Animagine XL

踏入 Stable Diffusion 的世界 Pony Diffusion  基於 SDXL 的分支，畫動漫
(跟獸人) 相當知名的系列模型，注意，他雖然是 SDXL 架構但是跟 SDXL 的 LoRA 等並不兼容，必須要用專用的 Pony LoRA。  最大特色是 prompt 裡面帶有 score_9、score_8 等字眼，這代表要求作品要有比較好的品質，其實就傳統的 best quality 跟 masterpiece 差不多 XD 19 https://techmagichouse.art/stable-diffusion-models- introduction-recommend/ Pony XL Perfect Pony XL

踏入 Stable Diffusion 的世界 Illustrious XL  基於 SDXL 的分支，由韓國公司
OnomaAI 開發，畫動漫相當知名的系列模型。 20 https://techmagichouse.art/stable-diffusion-models- introduction-recommend/ Illustrious XL NTR MIX

踏入 Stable Diffusion 的世界 Flux 由 Black Forest Lab 出品，最近大紅大紫的高品質模
型 (當然吃的 VRAM 也超多)， 其實 Flux 有分三種版本，並不是每一種都能商用。 21 https://techmagichouse.art/stable-diffusion-models- introduction-recommend/

踏入 Stable Diffusion 的世界 22 StabilityMatrix

踏入 Stable Diffusion 的世界 23 2. 選擇要裝的 package 3. SD
安裝完成！ 1. (建議) 使用 Portable Mode 安裝 https://techmagichouse.art/how-to-install- stabilitymatrix/

SD 模型與他們的集散地 Civitai 24 https://civitai.com/

SD 模型與他們的集散地下載動漫模型：MeinaMix 25

畫出第一張圖！ 26 正向 prompt：要的東西反向 prompt：不要的東西 Prompt -> masterpiece, best
quality, 1girl, looking at viewer, flowers, … Negative Prompt -> worst quality, low quality, normal quality, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry, artist name, … 沒辦法用的同學請使用線上服務 https://tensor.art/

一些可以安裝的擴充功能 (Extensions) 27 把界面弄成繁體中文自動修臉等等… https://techmagichouse.art/stable- diffusion-webui-recommended- extentions-list/

如何寫出好的 prompt ? 28 人物描述視角平視視角背景乾淨背景粉色短髮,
呆毛, 綠色眼睛角色特徵微笑, 得意的, 驕傲, 雙手叉腰正臉, 看著鏡頭, 全身表情＆動作黑色三角形對稱頭飾, 紅色蝴蝶結黑色及膝學生裙, 金色裝飾小學生制服, 白色膝上襪衣服一個女孩, 10 歲左右的小女孩大師作品, 最高畫質品質提示

如何寫出好的 prompt ? 29 人物描述 1個女孩, 10 歲左右的小女孩粉色短髮, 呆毛,
綠色眼睛微笑, 得意的, 驕傲, 雙手叉腰正臉, 看著鏡頭, 全身黑色三角形對稱頭飾, 紅色蝴蝶結, 黑色及膝學生裙, 金色裝飾, 小學生制服, 白色膝上襪可愛, 自信, 動漫風背景乾淨背景品質提示大師作品, 最高畫質 1 girl, about 10 years old, short pink hair, dull hair, green eyes, smiling, proud, proud, hands on hips, straight face, looking at the camera, whole body, black triangular symmetrical headdress, red bow, black knee-length student Skirt, gold decoration, elementary school uniform, white knee socks, cute, confident, anime style Clear white background Masterpiece, best quality

寫不出 prompt 來怎麼辦？ 30 動用咒語網站例如 https://tags.novelai.dev/ 反推提詞 SD /
MJ，甚至 ChatGPT 都能反推提詞多練習勤能補拙，還能順便練英文增加背景知識攝影知識的中英對照詞彙等

Stable Diffusion 進階 31

大模型的外掛好夥伴們文本反轉 (Textual Inversion)  原理：文本反轉主要針對文本嵌入（text embedding）層進行優化。它透過學習一個新的向量（或幾個向量），讓這個向量能夠代表一個特定的概念、風格或主題。使用者在 prompt
中只需輸入這個新定義的 token，模型就能生成包含該概念的圖像，而無需修改整個模型權重。  優點：輕量、只需少量參數就能引入全新概念；儲存空間小且易於管理。  缺點：僅影響與該文本 token 相關的部分，無法對模型整體生成過程做大範圍調整。 32 https://www.reddit.com/r/StableDiffusion/comment s/10cgxrx/wellresearched_comparison_of_training_ techniques

大模型的外掛好夥伴們超網路 (HyperNetwork)  原理：超網路的核心是利用一個輕量級的輔助網路來動態生成或調整主模型部分的權重。也就是說，超網路根據輸入條件產生一組更新或調節參數，這些參數會在主網路中起到“微調”效果，從而改變生成結果。  優點：能夠針對不同風格或需求對模型進行較全面的調整，不用直接修改主模型權重，提高了靈活性。
 缺點：結構上較複雜，訓練和整合上可能需要額外設計，且穩定性受限於輔助網路的設計品質。 27 https://www.reddit.com/r/StableDiffusion/comment s/10cgxrx/wellresearched_comparison_of_training_ techniques

大模型的外掛好夥伴們 LoRA (Low-Rank Adaptation)  原理：LoRA 透過在模型權重中插入可學習的低秩矩陣來進行微調，而不需要改變原始權重。這種低秩分解方法只需額外訓練少量參數，便能捕捉到新任務或新風格所需的變化，從而達到高效調整模型的目的，還有優化版叫做 LyCORIS。
 優點：參數量少、訓練成本低，能高效的微調大型模型；容易與原有模型整合，不大幅增加計算負擔。  缺點：由於只使用低秩矩陣來描述變化，對於非常複雜的調整可能存在表現上的限制。 28 https://www.reddit.com/r/StableDiffusion/comment s/10cgxrx/wellresearched_comparison_of_training_ techniques

大模型的外掛好夥伴們綜合比較  文本反轉 (Textual Inversion)：只調整文本 embeddings，用少量參數定義新概念，適合快速引入特定風格，但影響範圍有限。  超網路
(HyperNetwork)：利用輔助網路動態調整主模型權重，可達到較全面的風格轉換，但整合和穩定性上要求較高。  LoRA：通過低秩矩陣更新主模型部分權重，微調成本低且高效，但可能在捕捉複雜變化上有一定局限。  LyCORIS：在 LoRA 的基礎上進行改進，提供更穩定與細緻的調整效果，適用於對生成質量要求更高的場景。 29

什麼是 LoRA? 30 好像哪裡怪怪的？不太像…

什麼是 LoRA? Hu 等人（2022）提出了低秩適應（Low-Rank Adaptation, LoRA）如圖右，這是一種透過凍結 Transformer 的原始權重並在各層中加入可訓練的
低秩分解矩陣以達到減少訓練參數的技術。在圖右中，左邊的 Pretrain Weights 代表原始預訓練模型的權重，它是一個 d×d 維的矩陣，右邊的黃色區塊則是由兩個低秩矩陣組成，下面的A矩陣的維度是d×r，而上面的B矩陣則是 r×d。在微調之前，A 會被初始化成隨機的小數值，而 B 矩陣為一個數值全 0 的矩陣，在微調的過程中，模型會學習並慢慢更新 A 與 B 中的數值，使得兩矩陣的乘積逐漸逼近原始的模型權重。這種技術相較於傳統的全參數微調來說，可以極大幅的減少訓練參數至一萬倍以及大幅減少 GPU 的 VRAM 使用量至三倍。此外，在 GPT-2 與 GPT-3 的模型中，他們方法的效果甚至超越了全參數微調。 31 LoRA: Low-Rank Adaptation of Large Language Models

什麼是 LoRA? 32 1個女孩, 蘿莉, 10 歲左右的小女孩粉色短髮, 呆毛, 綠色眼睛
微笑, 得意的, 驕傲, 雙手叉腰正臉, 看著鏡頭, 全身黑色三角形對稱頭飾, 紅色蝴蝶結, 黑色及膝學生裙, 金色裝飾, 小學生制服, 白色膝上襪可愛, 自信, 動漫風 (anya_forger_spyxfamily:1.1), <lora:anya_forger_spyxfamily:0.8>, Seed: 4090511812

什麼是 LoRA? LoRA 模型：安妮亞 Anya 33

什麼是 LoRA? 34 Seed: 4090511812 best quality, masterpiece, highres, solo,
(anya_forger_spyxfamily:1.1), 1girl, child, hairpods, looking at viewer, meme, indoors, peeking out, anime_style, 5, <lora:anya_forger_spyxfamily:0.8>, 不好的 LoRA：過度擬合（overfitting）長的太像原始圖片的資料集，完全沒有泛化效果

一些可以安裝的擴充功能 (Extensions) – 續 35 ControlNet、自動修臉等等… https://techmagichouse.art/stable- diffusion-webui-recommended- extentions-list/

ControlNet 是什麼 36  ControlNet 能夠在保持原 Stable Diffusion 模型完整功能的同時，為圖像生成過程提供額外的「可控條
件」(conditioning)。  簡而言之，它可以讓你在生成圖像時，利用更多不同形式的輔助輸入（如骨架姿勢、線稿、深度圖、邊緣偵測結果、草圖等），來更精準地控制最終輸出的圖像外觀與結構。

ControlNet 是什麼 37 Depth ：深度圖 Canny：邊緣檢測 https://huggingface.co/lllyasviel/sd-controlnet-depth

ControlNet 是什麼 38 LineArt (Anime) ：線稿 IP-Adapter ：風格遷移 https://huggingface.co/lllyasviel/sd-controlnet-depth

ControlNet 是什麼 39 Scribble ：草圖 OpenPose ：骨架姿勢 https://huggingface.co/lllyasviel/sd-controlnet-depth

ControlNet 怎麼安裝 40 https://huggingface.co/lllyasviel/ControlNet-v1- 1/tree/main  Canny：邊緣檢測  Depth ：深度圖
 IP-Adapter ：風格遷移，類似於 MJ 的 sref 墊圖  LineArt / LineArt Anime ：線稿  OpenPose ：骨架姿勢  Scribble ：草圖 lllyasviel/ControlNet-v1-1

來做點故事吧！ 41

IMAGE Stable Diffusion, Midjourney, Bing VIDEO Runway, Kling (可靈), Vidu
42 MUSIC Suno FILM Adobe Premiere Pro / Capcut (剪映) Adobe After Effect

我理想中更美好的世界！ 43 線上抽籤：https://www.toolskk.com/ballot  全能 AI 女僕:  描繪一個「AI 女僕」如何在你的理想世界中幫助你，她的設計如何改善
生活？  她是否有情感、學習能力？  你會如何設計她的外觀與服裝？  全自動超雞婆減肥餐桌:  想吃炸雞時，它會直接彈出一塊生菜擋住你的嘴  嘗試偷喝奶茶？吸管自動收縮，變成 0 卡水流。  當你堅持要吃高熱量時，它會開始播放你的健身房監控畫面，提醒你「上次跑步是什麼時候了？」。  擅長幹話的未來 AI 書桌:  當你打開它，它會檢測你的工作狀態。  當你分心時，它會開始諷刺你：「喔～你現在是在環遊世界嗎？怎麼眼睛一直不在螢幕上？」  當你開始寫報告時，它會給你鼓勵：「你終於要開始動工了，我的 CPU 都心涼了…」。  會檢舉你熬夜的 AI 枕頭:  當你滑手機超過 2 小時，它會開始發出哀嚎：「主人，放下手機！再不睡覺，我要自爆了！」  它能自動偵測你的睡眠狀態，甚至在你不願入睡時，主動「抱住你的頭」，讓你逃不掉！  但問題來了……如果它偵測到你根本沒睡夠，會不會變身成戰鬥模式，把你鎖在床上？  會幫你拒絕邀約的社恐 AI 手機:  專為社恐人設計的 AI 手機，能自動幫你回覆訊息，避免你必須「親自拒絕朋友」。  當你收到聚會邀約時，它會自動生成「最合理的藉口」，像是：「不好意思，我今天要帶狗去學習第二外語」。  如果朋友開始懷疑，它還能提供「證據」，例如假裝傳來一張 AI 生成的「狗學習法語」照片！  但如果你真的需要社交，它也能變成你的「社交助理」，幫你準備話題、分析對方興趣，讓你不再乾場。

CONTACT ME  Email: [email protected]  Instagram: @data_pythoness  Facebook:
數據女巫 𝔻.𝕡𝕪𝕤  Website: techmagichouse.art 44

20250316 - Stable Diffusion 基礎概念與目前AI趨勢分享 @ 東吳大學

20250316 - Stable Diffusion 基礎概念與目前AI趨勢分享 @ 東吳大學

More Decks by 數據女巫 D.pys 🔮

Other Decks in Technology

Featured

Transcript