Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20250316 - Stable Diffusion 基礎概念與目前AI趨勢分享 @ 東吳大學

20250316 - Stable Diffusion 基礎概念與目前AI趨勢分享 @ 東吳大學

20250316 - Stable Diffusion 基礎概念與目前AI趨勢分享 @ 東吳大學

數據女巫 D.pys 🔮

March 16, 2025
Tweet

More Decks by 數據女巫 D.pys 🔮

Other Decks in Technology

Transcript

  1. 關於 — 數據女巫 𝔻.𝕡𝕪𝕤 個人簡介 競賽經歷 聯絡我 個人背景  財金

    & 資工 創作特色  絢麗、空靈、破碎感 創作工具  日常以使用自己訓練的 Stable Diffusion 模 型為主  Live Creative Prompting 時會用 Midjourney  2024 技嘉 GIGABYTE|VS AI 街頭對戰 冠軍  2024 華碩 ASUS 校園 AI 繪圖競賽 亞軍 + 現場最佳人氣獎  2024 台灣 AI 生成大賽鳥巢盃 十六強  2024 臺灣文化與永續發展:AI 視覺創作之明信片設計競賽 佳作  2024 華碩 ASUS ProArt AI 時光機 – 狂想童話 佳作  2024 台灣金星設計獎 Taiwan Top Star 特優獎  2024 台灣文化科技大會 TTXC VS AI 街頭對戰 [世界大賽] 亞 軍  2024 臺北生成藝術節 佳作  2025 Project Odyssey Open Format Honorable Mention  Email: dpys@techmagichouse.art  Instagram: @data_pythoness  Facebook: 數據女巫 𝔻.𝕡𝕪𝕤  Website: techmagichouse.art 01
  2. 主流 AI 繪圖工具介紹 02 MidJourney 介紹 Bing Image Creator 介紹

    Stable Diffusion 介紹 我的 MJ & SD 作品 AI 繪圖還能做什麼? 大綱 OUTLINE
  3. Stable Diffusion 入門 踏入 Stable Diffusion 的世界 SD 模型與他們的集散地 畫出第一張圖!

    安裝擴充功能 (Extensions) 如何寫出好的 prompt ? 寫不出 prompt 來怎麼辦? 03 大綱 OUTLINE
  4. 04 Stable Diffusion 進階 大綱 OUTLINE 使用工具 決定主題 把故事變成現實吧! 大模型的好夥伴們

    什麼是 LoRA? 安裝擴充功能 (Extensions) – 續 ControlNet 是什麼 ControlNet 怎麼安裝
  5. 今日課表 時間 課程/活動 時長 10:00 - 12:00 上午課程 2 小時

    12:00 - 13:00 中午休息 1 小時 13:00 - 14:50 下午第一堂 1 小時50分 14:50 - 15:00 中間休息 10 分鐘 15:00 - 17:00 下午第二堂 2 小時
  6. 主流 AI 繪圖工具 - MidJourney 06 吳淡如,《櫻花貓少女》,2023年2月12日  由位於美國加州舊金山的同名研究實驗室開發之人工智慧程式 

    可根據文字生成圖像(text-to-image)  於 2022 年 7 月 12 日進入公開測試階段  使用者可透過 Discord 的機器人指令進行操作或 App 操作 (New in 2023.10) Midjourney
  7. 我的 MJ 作品 07 < 停頓的秒針 > The Paused Second

    Hand < 遺失的光影 > The Lost Light and Shadow
  8. 我的 MJ 作品 08 《天•愛灣 T•AI WAN》 《天•愛灣 T•AI WAN》

    是由臺灣文化做為發想的系列作, 這系列的作品要素圍繞在傲視群雄的尖端科技以及作為東亞文化精粹的傳統廟宇上。 此系列的命名靈感來自於 NVIDIA 執行長黃仁勳於 2024 年 6 月所提的「TAIWAN 字母就藏 AI,理當為世界打造 AI 基礎」的意見。 "T" 近於台語的「天」—系列名稱應運而生。 我們希望使觀者能夠從作品的畫面上直觀地感受到臺灣—這座實力被世界低估的島嶼上的多元性。 恰是這兩種看似矛盾的元素,卻能在這座小島上和諧的共存並相互輝映。 • 工具:Midjourney • 修正:Photoshop • 後處理:Stable Diffusion 賽博、蓮花與信仰之所在 三分天注定七分靠打拼 佛法無邊電路板 2024 台灣金星設計獎 特優作品
  9. 主流 AI 繪圖工具 - Bing Image Creator 09  就是微軟的

    bing  可根據文字生成圖像(text-to-image)  基於 OpenAI 的 DALL-E 模型的先進版本,且已經 整合到新版的 Bing 和 Edge 瀏覽器中  完全免費
  10. 主流 AI 繪圖工具 - Stable Diffusion 10  一種基於潛在空間(latent space)的擴散模型

    (Diffusion model)  可根據文字生成圖像(text-to-image)  最初由新創公司 StabilityAI、慕尼黑大學的 CompVis 研究團體與 Runway 合作開發  可再細分為 SD 1.5、SD 2.0、SDXL、Flux 等變體 “A photograph of an astronaut riding a horse” stability.ai
  11. 踏入 Stable Diffusion 的世界 Stable Diffusion 是「模型」,而調用這頭巨獸的最簡單方式就是使用 圖形化的介面,因此在使用 Stable Diffusion

    時,我們需要有 SD 的模 型本人以及 WebUI,而圖形化介面有非常多的選擇。 16 Stable Diffusion WebUI ComfyUI
  12. 踏入 Stable Diffusion 的世界 SD 1.5  這是最常見的元老模型之一  SD

    1.5 的賣點在於要求的算力很低,且效果相當堪 用  相關資源超級多。最推薦的 AI 繪圖入門款。 17 https://techmagichouse.art/stable-diffusion-models- introduction-recommend/ Dreamshaper GhostMix
  13. 踏入 Stable Diffusion 的世界 SDXL 1.0  相較於 SD 1.5

    的大躍進,無論是手或是軀體的正確 性都改善很多。  相關分支包括 SDXL Hyper、SDXL Lightning、 SDXL Turbo。 18 https://techmagichouse.art/stable-diffusion-models- introduction-recommend/ Juggernaut XL Animagine XL
  14. 踏入 Stable Diffusion 的世界 Pony Diffusion  基於 SDXL 的分支,畫動漫

    (跟獸人) 相當知名的系列 模型,注意,他雖然是 SDXL 架構但是跟 SDXL 的 LoRA 等並不兼容,必須要用專用的 Pony LoRA。  最大特色是 prompt 裡面帶有 score_9、score_8 等 字眼,這代表要求作品要有比較好的品質,其實就傳 統的 best quality 跟 masterpiece 差不多 XD 19 https://techmagichouse.art/stable-diffusion-models- introduction-recommend/ Pony XL Perfect Pony XL
  15. 踏入 Stable Diffusion 的世界 Illustrious XL  基於 SDXL 的分支,由韓國公司

    OnomaAI 開發,畫 動漫相當知名的系列模型。 20 https://techmagichouse.art/stable-diffusion-models- introduction-recommend/ Illustrious XL NTR MIX
  16. 踏入 Stable Diffusion 的世界 Flux 由 Black Forest Lab 出品,最近大紅大紫的高品質模

    型 (當然吃的 VRAM 也超多), 其實 Flux 有分三種版本,並不是每一種都能商用。 21 https://techmagichouse.art/stable-diffusion-models- introduction-recommend/
  17. 踏入 Stable Diffusion 的世界 23 2. 選擇要裝的 package 3. SD

    安裝完成! 1. (建議) 使用 Portable Mode 安裝 https://techmagichouse.art/how-to-install- stabilitymatrix/
  18. 畫出第一張圖! 26 正向 prompt:要的東西 反向 prompt:不要的東西 Prompt -> masterpiece, best

    quality, 1girl, looking at viewer, flowers, … Negative Prompt -> worst quality, low quality, normal quality, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry, artist name, … 沒辦法用的同學請使用線上服務 https://tensor.art/
  19. 如何寫出好的 prompt ? 28 人物描述 視角 平視視角 背景 乾淨背景 粉色短髮,

    呆毛, 綠色眼睛 角色特徵 微笑, 得意的, 驕傲, 雙手叉腰 正臉, 看著鏡頭, 全身 表情 & 動作 黑色三角形對稱頭飾, 紅色蝴蝶結 黑色及膝學生裙, 金色裝飾 小學生制服, 白色膝上襪 衣服 一個女孩, 10 歲左右的小女孩 大師作品, 最高畫質 品質提示
  20. 如何寫出好的 prompt ? 29 人物描述 1個女孩, 10 歲左右的小女孩 粉色短髮, 呆毛,

    綠色眼睛 微笑, 得意的, 驕傲, 雙手叉腰 正臉, 看著鏡頭, 全身 黑色三角形對稱頭飾, 紅色蝴蝶結, 黑色及膝學生裙, 金色裝飾, 小學生制服, 白色膝上襪 可愛, 自信, 動漫風 背景 乾淨背景 品質提示 大師作品, 最高畫質 1 girl, about 10 years old, short pink hair, dull hair, green eyes, smiling, proud, proud, hands on hips, straight face, looking at the camera, whole body, black triangular symmetrical headdress, red bow, black knee-length student Skirt, gold decoration, elementary school uniform, white knee socks, cute, confident, anime style Clear white background Masterpiece, best quality
  21. 寫不出 prompt 來怎麼辦? 30 動用咒語網站 例如 https://tags.novelai.dev/ 反推提詞 SD /

    MJ,甚至 ChatGPT 都能反推 提詞 多練習 勤能補拙,還能順便練英文 增加背景知識 攝影知識的中英對照詞彙等
  22. 大模型的外掛好夥伴們 文本反轉 (Textual Inversion)  原理:文本反轉主要針對文本嵌入(text embedding)層進行優化。它透過學 習一個新的向量(或幾個向量),讓這個向量能夠代表一個特定的概念、風格 或主題。使用者在 prompt

    中只需輸入這個新定義的 token,模型就能生成包 含該概念的圖像,而無需修改整個模型權重。  優點:輕量、只需少量參數就能引入全新概念;儲存空間小且易於管理。  缺點:僅影響與該文本 token 相關的部分,無法對模型整體生成過程做大範圍 調整。 32 https://www.reddit.com/r/StableDiffusion/comment s/10cgxrx/wellresearched_comparison_of_training_ techniques
  23. 大模型的外掛好夥伴們 LoRA (Low-Rank Adaptation)  原理:LoRA 透過在模型權重中插入可學習的低秩矩陣來進行微調,而不需要 改變原始權重。這種低秩分解方法只需額外訓練少量參數,便能捕捉到新任務 或新風格所需的變化,從而達到高效調整模型的目的,還有優化版叫做 LyCORIS。

     優點:參數量少、訓練成本低,能高效的微調大型模型;容易與原有模型整 合,不大幅增加計算負擔。  缺點:由於只使用低秩矩陣來描述變化,對於非常複雜的調整可能存在表現上 的限制。 28 https://www.reddit.com/r/StableDiffusion/comment s/10cgxrx/wellresearched_comparison_of_training_ techniques
  24. 大模型的外掛好夥伴們 綜合比較  文本反轉 (Textual Inversion):只調整文本 embeddings,用少量參數定義新 概念,適合快速引入特定風格,但影響範圍有限。  超網路

    (HyperNetwork):利用輔助網路動態調整主模型權重,可達到較全面的 風格轉換,但整合和穩定性上要求較高。  LoRA:通過低秩矩陣更新主模型部分權重,微調成本低且高效,但可能在捕捉 複雜變化上有一定局限。  LyCORIS:在 LoRA 的基礎上進行改進,提供更穩定與細緻的調整效果,適用於 對生成質量要求更高的場景。 29
  25. 什麼是 LoRA? Hu 等人(2022)提出了低秩適應(Low-Rank Adaptation, LoRA) 如圖 右,這是一種透過凍結 Transformer 的原始權重並在各層中加入可訓練的

    低秩分解矩陣以達到減少訓練參數的技術。 在圖右中,左邊的 Pretrain Weights 代表原始預訓練模型的權重,它是一 個 d×d 維的矩陣,右邊的黃色區塊則是由兩個低秩矩陣組成,下面的A矩 陣的維度是d×r,而上面的B矩陣則是 r×d。在微調之前,A 會被初始化成 隨機的小數值,而 B 矩陣為一個數值全 0 的矩陣,在微調的過程中,模型會 學習並慢慢更新 A 與 B 中的數值,使得兩矩陣的乘積逐漸逼近原始的模型權 重。 這種技術相較於傳統的全參數微調來說,可以極大幅的減少訓練參數至一萬 倍以及大幅減少 GPU 的 VRAM 使用量至三倍。此外,在 GPT-2 與 GPT-3 的模型中,他們方法的效果甚至超越了全參數微調。 31 LoRA: Low-Rank Adaptation of Large Language Models
  26. 什麼是 LoRA? 32 1個女孩, 蘿莉, 10 歲左右的小女孩 粉色短髮, 呆毛, 綠色眼睛

    微笑, 得意的, 驕傲, 雙手叉腰 正臉, 看著鏡頭, 全身 黑色三角形對稱頭飾, 紅色蝴蝶結, 黑色及 膝學生裙, 金色裝飾, 小學生制服, 白色膝 上襪 可愛, 自信, 動漫風 (anya_forger_spyxfamily:1.1), <lora:anya_forger_spyxfamily:0.8>, Seed: 4090511812
  27. 什麼是 LoRA? 34 Seed: 4090511812 best quality, masterpiece, highres, solo,

    (anya_forger_spyxfamily:1.1), 1girl, child, hairpods, looking at viewer, meme, indoors, peeking out, anime_style, 5, <lora:anya_forger_spyxfamily:0.8>, 不好的 LoRA: 過度擬合 (overfitting) 長的太像原始圖片的 資料集,完全沒有泛 化效果
  28. ControlNet 是什麼 36  ControlNet 能夠在保持原 Stable Diffusion 模型完整 功能的同時,為圖像生成過程提供額外的「可控條

    件」(conditioning)。  簡而言之,它可以讓你在生成圖像時,利用更多不同 形式的輔助輸入(如骨架姿勢、線稿、深度圖、邊緣 偵測結果、草圖等),來更精準地控制最終輸出的圖 像外觀與結構。
  29. ControlNet 怎麼安裝 40 https://huggingface.co/lllyasviel/ControlNet-v1- 1/tree/main  Canny:邊緣檢測  Depth :深度圖

     IP-Adapter :風格遷移,類似於 MJ 的 sref 墊圖  LineArt / LineArt Anime :線稿  OpenPose :骨架姿勢  Scribble :草圖 lllyasviel/ControlNet-v1-1
  30. IMAGE Stable Diffusion, Midjourney, Bing VIDEO Runway, Kling (可靈), Vidu

    42 MUSIC Suno FILM Adobe Premiere Pro / Capcut (剪映) Adobe After Effect
  31. 我理想中更美好的世界! 43 線上抽籤:https://www.toolskk.com/ballot  全能 AI 女僕:  描繪一個「AI 女僕」如何在你的理想世界中幫助你,她的設計如何改善

    生活?  她是否有情感、學習能力?  你會如何設計她的外觀與服裝?  全自動超雞婆減肥餐桌:  想吃炸雞時,它會直接彈出一塊生菜擋住你的嘴  嘗試偷喝奶茶?吸管自動收縮,變成 0 卡水流。  當你堅持要吃高熱量時,它會開始播放你的健身房監控畫面,提醒你 「上次跑步是什麼時候了?」。  擅長幹話的未來 AI 書桌:  當你打開它,它會檢測你的工作狀態。  當你分心時,它會開始諷刺你:「喔~你現在是在環遊世界嗎?怎麼眼 睛一直不在螢幕上?」  當你開始寫報告時,它會給你鼓勵:「你終於要開始動工了,我的 CPU 都心涼了…」。  會檢舉你熬夜的 AI 枕頭:  當你滑手機超過 2 小時,它會開始發出哀嚎:「主人,放下手機!再 不睡覺,我要自爆了!」  它能自動偵測你的睡眠狀態,甚至在你不願入睡時,主動「抱住你的 頭」,讓你逃不掉!  但問題來了……如果它偵測到你根本沒睡夠,會不會變身成戰鬥模 式,把你鎖在床上?  會幫你拒絕邀約的社恐 AI 手機:  專為社恐人設計的 AI 手機,能自動幫你回覆訊息,避免你必須「親自 拒絕朋友」。  當你收到聚會邀約時,它會自動生成「最合理的藉口」,像是:「不 好意思,我今天要帶狗去學習第二外語」。  如果朋友開始懷疑,它還能提供「證據」,例如假裝傳來一張 AI 生成 的「狗學習法語」照片!  但如果你真的需要社交,它也能變成你的「社交助理」,幫你準備話 題、分析對方興趣,讓你不再乾場。
  32. CONTACT ME  Email: dpys@techmagichouse.art  Instagram: @data_pythoness  Facebook:

    數據女巫 𝔻.𝕡𝕪𝕤  Website: techmagichouse.art 44