Science Cafe 2022-11-26 - Automatic Illustration

機械任せで絵師になる方法～Stable Diffusion, NovelAI～サイエンスカフェ 2022-11-26 岩淵夕希物智 @butchi_y

自己紹介言語の創造に携わる博士(工学) 中学、大学で美術部に所属 2012年金沢大学大学院修了 2012年～ Webエンジニア 2017年映画『きみの声をとどけたい』(キミコエ) にハマる
2018年～2021年キミコエの聖地腰越（鎌倉市）に移住

描いてほしい絵がある

推しの需要と供給映画『きみの声をとどけたい』の朱音さんが好きでも需要（自分の）に対して供給が少ない！でも自分で描くには画力が足りない！画像引用: 『きみの声をとどけたい』 00:45:35

アコースティックギターを弾き語りしている水色シャツのラジオDJ (＝朱音さん) の絵画像引用: 『きみの声をとどけたい』 00:45:35 prompt: playing yellow
acoustic guitar, {{{sing with a guitar}}}, black eyes, large eyes, round eyes, dark blue hair, long hair, [chubby], {{{aqua dress shirt}}}, radio dj, {black headphones}, cafe, {{{38 years old}}}, mother 注: 構図情報（左の画像）は教えていない

Stable Diffusion

NovelAI (NovelAI Diffusion)

Stable Diffusion vs. NovelAI（実行環境） Stable Diffusion ローカルで環境構築（学習モデル（ 4～5GB）のダウンロード必要） Webのプログラミング環境で実行可能（
Google Colab）いずれにせよ基本的には無料 NovelAI Webサービス（Midjourney等と同様）プログラミング要素はほぼなし定額課金＋従量課金 (ポイント制)

機械生成のメリットとデメリット 😊 リテイクが自分の裁量でできる 😊 無理な注文にも対応してくれる 😊 Seedを固定してある程度微調整可能 😕 当たりが出たり出なかったり（ガチャ的） 😕
手などは上手く描けない（破綻した絵が多い） 😕 だんだん「AIっぽい絵」とマンネリ化に陥る

技術的な話

画像生成周辺技術 txt2img img2img upscale inpainting outpainting コア機能とサブ機能

txt2img (text to image) 一番使う機能（さっきのもこれ） prompt(呪文)に沿った画像を生成

img2img (image to image) txt2imgで生成した画像やラフ絵、3Dデッサン人形の構図などから画像を生成できる（基本的には呪文も必要）

img2img (image to image) 「喫茶店でコーヒーを飲んでいる女の子」 → 翻訳ソフトで英文に 3Dデッサン人形 → CLIP
STUDIO PAINTの機能で描画

img2img (image to image) prompt: A girl drinking coffee in
a coffee shop ⇒

img2img (image to image) フリー素材の構図を使わせてもらう ⇒ prompt: guitar, blue hair,
aqua jacket

upscale 低解像度の画像を高解像度化 txt2img等の出力は現状0.5K～1K程度 ⇒ 2K～4K画像に拡大できる「顔」を整形する機能も

inpainting 画像の一部にマスクをかけて復元

outpainting 画像生成AI「DALL·E 2」、絵画の枠外を描き足す新機能 Outpaintingを追加画像の「外側」を描き足す

理論的な話

テキストと画像のエンコード・デコード Hierarchical Text-Conditional Image Generation with CLIP Latents

Diffusion（拡散） High-Resolution Image Synthesis with Latent Diffusion Models

その他もろもろ

Null Portrait Girl Instagram @null_portrait

参考文献白井暁彦著『AIとコラボして神絵師になる　論文から読み解くStable Diffusion』

Science Cafe 2022-11-26 - Automatic Illustration

Science Cafe 2022-11-26 - Automatic Illustration

IWABUCHI Yu(u)ki butchi

More Decks by IWABUCHI Yu(u)ki butchi

Other Decks in Science

Featured

Transcript

機械任せで絵師になる方法～Stable Diffusion, NovelAI～サイエンスカフェ 2022-11-26 岩淵夕希物智 @butchi_y

自己紹介言語の創造に携わる博士(工学) 中学、大学で美術部に所属 2012年金沢大学大学院修了 2012年～ Webエンジニア 2017年映画『きみの声をとどけたい』(キミコエ) にハマる

描いてほしい絵がある

推しの需要と供給映画『きみの声をとどけたい』の朱音さんが好きでも需要（自分の）に対して供給が少ない！でも自分で描くには画力が足りない！画像引用: 『きみの声をとどけたい』 00:45:35

アコースティックギターを弾き語りしている水色シャツのラジオDJ (＝朱音さん) の絵画像引用: 『きみの声をとどけたい』 00:45:35 prompt: playing yellow

Stable Diffusion

NovelAI (NovelAI Diffusion)

Stable Diffusion vs. NovelAI（実行環境） Stable Diffusion ローカルで環境構築（学習モデル（ 4～5GB）のダウンロード必要） Webのプログラミング環境で実行可能（

機械生成のメリットとデメリット 😊 リテイクが自分の裁量でできる 😊 無理な注文にも対応してくれる 😊 Seedを固定してある程度微調整可能 😕 当たりが出たり出なかったり（ガチャ的） 😕

技術的な話

画像生成周辺技術 txt2img img2img upscale inpainting outpainting コア機能とサブ機能

txt2img (text to image) 一番使う機能（さっきのもこれ） prompt(呪文)に沿った画像を生成

img2img (image to image) txt2imgで生成した画像やラフ絵、3Dデッサン人形の構図などから画像を生成できる（基本的には呪文も必要）

img2img (image to image) 「喫茶店でコーヒーを飲んでいる女の子」 → 翻訳ソフトで英文に 3Dデッサン人形 → CLIP

img2img (image to image) prompt: A girl drinking coffee in

img2img (image to image) フリー素材の構図を使わせてもらう ⇒ prompt: guitar, blue hair,

upscale 低解像度の画像を高解像度化 txt2img等の出力は現状0.5K～1K程度 ⇒ 2K～4K画像に拡大できる「顔」を整形する機能も

inpainting 画像の一部にマスクをかけて復元

outpainting 画像生成AI「DALL·E 2」、絵画の枠外を描き足す新機能 Outpaintingを追加画像の「外側」を描き足す

理論的な話

テキストと画像のエンコード・デコード Hierarchical Text-Conditional Image Generation with CLIP Latents

Diffusion（拡散） High-Resolution Image Synthesis with Latent Diffusion Models

その他もろもろ

Null Portrait Girl Instagram @null_portrait

参考文献白井暁彦著『AIとコラボして神絵師になる　論文から読み解くStable Diffusion』

tips

tips

tips

tips

tips