機械任せで絵師になる方法 ~Stable Diffusion, NovelAI~ サイエンスカフェ 2022-11-26 岩淵夕希物智 @butchi_y

自己紹介 言語の創造に携わる博士(工学) 中学、大学で美術部に所属 2012年 金沢大学大学院修了 2012年~ Webエンジニア 2017年 映画『きみの声をとどけたい』(キミコエ) にハマる 2018年~2021年 キミコエの聖地 腰越(鎌倉市)に移住

推しの需要と供給 映画『きみの声をとどけたい』の朱音さんが好き でも需要(自分の)に対して供給が少ない! でも自分で描くには画力が足りない! 画像引用: 『きみの声をとどけたい』 00:45:35

アコースティックギターを弾き語りしている水色 シャツのラジオDJ (=朱音さん) の絵 画像引用: 『きみの声をとどけたい』 00:45:35 prompt: playing yellow acoustic guitar, {{{sing with a guitar}}}, black eyes, large eyes, round eyes, dark blue hair, long hair, [chubby], {{{aqua dress shirt}}}, radio dj, {black headphones}, cafe, {{{38 years old}}}, mother 注: 構図情報(左の画像)は教えていない

Stable Diffusion

NovelAI (NovelAI Diffusion)

Stable Diffusion vs. NovelAI(実行環境) Stable Diffusion ローカルで環境構築(学習モデル( 4~5GB)のダ ウンロード必要) Webのプログラミング環境で実行可能( Google Colab) いずれにせよ基本的には無料 NovelAI Webサービス(Midjourney等と同様) プログラミング要素はほぼなし 定額課金 + 従量課金 (ポイント制)

機械生成のメリットとデメリット 😊 リテイクが自分の裁量でできる 😊 無理な注文にも対応してくれる 😊 Seedを固定してある程度微調整可能 😕 当たりが出たり出なかったり(ガチャ的) 😕 手などは上手く描けない(破綻した絵が多い) 😕 だんだん「AIっぽい絵」とマンネリ化に陥る

画像生成 周辺技術 txt2img img2img upscale inpainting outpainting コア機能とサブ機能

txt2img (text to image) 一番使う機能(さっきのもこれ) prompt(呪文)に沿った画像を生成

img2img (image to image) txt2imgで生成した画像や ラフ絵、3Dデッサン人形の構図などから 画像を生成できる (基本的には呪文も必要)

img2img (image to image) 「喫茶店でコーヒーを飲んでいる女の子」 → 翻訳ソフトで英文に 3Dデッサン人形 → CLIP STUDIO PAINTの機能で描画

img2img (image to image) prompt: A girl drinking coffee in a coffee shop ⇒

img2img (image to image) フリー素材の構図を使わせてもらう ⇒ prompt: guitar, blue hair, aqua jacket

upscale 低解像度の画像を高解像度化 txt2img等の出力は現状0.5K~1K程度 ⇒ 2K~4K画像に拡大できる 「顔」を整形する機能も

inpainting 画像の一部にマスクをかけて復元

outpainting 画像生成AI「DALL·E 2」、絵画の枠外を描き足す新機能 Outpaintingを追加 画像の「外側」を描き足す

テキストと画像のエンコード・デコード Hierarchical Text-Conditional Image Generation with CLIP Latents

Diffusion(拡散) High-Resolution Image Synthesis with Latent Diffusion Models

Null Portrait Girl Instagram @null_portrait

参考文献 白井 暁彦 著 『AIとコラボして神絵師になる 論文から読み解くStable Diffusion』

No content

