Slide 1

Slide 1 text

鳥越 貴智 #meetup_ds 2023/03/03 AI画像生成の紹介スライドを AI画像とAIチャットで作ってみた Midjourney V4: hacker, colorful landscape art in monitor, cyber room

Slide 2

Slide 2 text

2021年の思い出 を振り返るところから… Midjourney V4: slide page, “back to year 2021”  ※ 本スライドの緑文字は筆者による生成用プロンプト

Slide 3

Slide 3 text

This Anime Does Not Exist(StyleGAN2の派生)               https://thisanimedoesnotexist.ai/index_jp.html

Slide 4

Slide 4 text

This Anime Does Not Exist 公開生成データのお気に入りイラスト seed=51922 psi=1.5 seed=58918 psi=1.5 seed=55018 psi=1.5 seed=54098 psi=1.5

Slide 5

Slide 5 text

This Anime Does Not Existで生成してみた 前ページのseed値を用いた style mixing https://github.com/piyo7/gan-playground/blob/main/tadne/style_mixing_tadne.ipynb

Slide 6

Slide 6 text

This Anime Does Not Existで生成してみた https://github.com/piyo7/gan-playground/blob/main/tadne/morichama.ipynb 「森カリオペ」 に似た潜在パラメータ を探索 「赤井はあと」 に似た潜在パラメータ を探索 ← 潜在空間で補間することでモーフィング →

Slide 7

Slide 7 text

This Anime Does Not Existの感想 ● 生成画像を大量に眺めていると、美的感覚が壊れてくる ○ 謎文字が格好良く見えてくる ○ キメラ的に生えている手足髪が味に感じてくる ○ 人間による真っ当なイラストが物足りなくなってくる ● AI画像発掘という趣味が生まれるかもと当時は思っていた ○ マニアの間では、モデルごとの当たりseed値が共有される世界観 seed=45139 psi=2.0

Slide 8

Slide 8 text

2022年 なんか革命が始まった Midjourney V4: revolution, explosion, vanishing point, "year 2022"

Slide 9

Slide 9 text

DALL·E 2で生成してみた OpenAI社(ChatGPTもココ)のサービス。 4月に発表されて、7月にβ版が始まった。Diffusionモデルが世に知れ渡ることに。 3D render of a cat riding in a Toyota car illuminated by moonlight in outer space high quality photo of a cat on a unicycle A watercolor drawing of a pretty white cat dancing in a night of shooting stars A Disney style of white cat eating takoyaki

Slide 10

Slide 10 text

Midjourneyで生成してみた Midjourney社(Leap Motionと同じ創設者)のサービス。7月にβ版が始まった。 GUIがDiscord(チャット)のため、他人の生成過程がリアルタイムで見れる。 V3: Shrine maiden in post apocalyptic scene V3: Baroque dragon statue V3: Burning titan, character concept, hyper detailed, ray tracing, 4k V3: Cute girl with a white dress, sunflower field, sunny day, japan, Impressionism

Slide 11

Slide 11 text

Stable Diffusionで生成してみた 8月にHugging FaceにCompVis/stable-diffusion-v1-4が公開され、 これを基盤モデルとした派生が大量に生まれた。AI画像生成の民主化の始まり。 a cute girl with fairy wings fights a dragon with sacred sword, full body, pencil drawing, pixiv fanbox, high quality wall paper still life photography of anime figure on snowfield background, big hair ribbon, beautiful face, blond hair, blue eyes, white sailor suit, shorts, high quality, 4k concept art of a princess riding on crystalized red dragon in World War II, blue hair, beatiful face, pixiv fanbox, 4K concept art of a crystalized princess on red dragon, blue hair, beatiful face, glitch effect, pixiv fanbox, 4K

Slide 12

Slide 12 text

プロンプト(呪文)から画像を無限に生成できる! しかし融通が効かないことも多い……

Slide 13

Slide 13 text

プロンプト失敗例 鉛筆画を指定したら 鉛筆まで出てきてしまった…… 不自然ではないが意図はしてない。 niji・journey: Photo frame on desk, black and white, pencil drawing

Slide 14

Slide 14 text

プロンプト失敗例 大量のアルファベットは描けているが それで一つのアルファベットを 作れとは言ってない…… 昔ほどではないが、 抽象度の高いフラクタル性は時々起こる。 Midjourney V4: Falling cascading alphabets from the sky

Slide 15

Slide 15 text

プロンプト失敗例 左下の絵がカッコいいので量産したい ものの、再現できなかった…… 何の「display」なのか言葉を知ってい れば絞り込めそうなのだが。 Midjourney V4: Stacked displays

Slide 16

Slide 16 text

プロンプト失敗例 写真の構図を決める時に 両手の親指と薬指で長方形を作る 指フレームをしてもらいたかった…… テキストによるポーズ指定は難しい。 niji・journey: A girl taking photo frame gesture

Slide 17

Slide 17 text

2023年 エコシステムが急速に発展 Midjourney V4: Railway to big bang in galaxy, vanishing point, "year 2023"

Slide 18

Slide 18 text

2023年2月のAI画像生成フロー例 基盤 モデル 派生 モデル LoRA モデル ControlNet モデル 追加 データセット 階層別 マージ モデル 特定用語データセット (絵柄・キャラ・シチュ……) 派生 モデル 追加 データセット 固有タスクデータセット (着色、姿勢制御……) 1. 左のモデル群を用意 2. 画像生成の指示 ○ プロンプト ○ ネガティブプロンプト ○ ControlNet用画像 3. 気に入るまで生成ガチャ 4. 微妙なポイントをInpaintingで修正 5. アップスケールして完成

Slide 19

Slide 19 text

階層別マージについてBingに訊いてみた Stable Diffusionの階層別マージとは、複数のモデルの重みをU-Netの深さに応じて比率を変えて組み合わせることです [1]。階層ごとに異なるモデルを使うことで、画像生成の品質や多様性を向上させることができます[2][1]。 階層別マージについて、階層ごとの影響を箇条書きで書くと以下のようになります。 ● 浅い階層(U-Netの下部)に使うモデルは、画像の解像度や細部表現に大きく影響します[2][1]。高解像度や細部 表現に優れたモデルを使うと、生成画像の品質が向上します[1]。 ● 深い階層(U-Netの上部)に使うモデルは、テキストエンコーダーやスタイル表現に大きく影響します[2] 。テキ ストエンコーダーやスタイル表現に優れたモデルを使うと、生成画像の多様性や一貫性が向上します[2] 。 ● 中間的な階層に使うモデルは、画像の形状や色彩などに影響します[2]。形状や色彩に特徴的なモデルを使うと、生 成画像の個性や雰囲気が変わります[2]。 1. https://note.com/septendec/n/n0285c82aa9b2 2. https://note.com/mayu_hiraizumi/n/n252161114cde まずStable Diffusionの階層別マージについて端的に説明してください。 それから階層ごとの影響を箇条書きで書いてください。

Slide 20

Slide 20 text

LoRA についてBingに訊いてみた LoRAはLow-rank Adaptationの略称で、Text-to-Imageモデルに新たな被写 体を学習させる手法です[1]。Stable Diffusionと組み合わせると、以下のこ とができます。 ● 数枚の被写体画像と対応するテキストを元にファインチューニングを 行うことで、実写風のイラストを生成する[2][3]。 ● ふだん使っているモデルを少しだけアレンジすることで、自分好みな イラストにカスタマイズする[3]。 ● コスプレやメイクなどのテーマに沿ったイラストを生成する[4]。 1. https://note.com/npaka/n/ndb287a48b682 2. https://wikiwiki.jp/sd_toshiaki/LoRA 3. https://original-game.com/how-to-use-lora-stable-diffusion/ 4. https://yuuyuublog.org/koreandolllikeness/ https://arxiv.org/abs/2106.09685 AI画像生成に使われるLoRAは何の略称か書いて。次にStable Diffusionと組み合わせ方について、端的に箇条書きで書いて。

Slide 21

Slide 21 text

ControlNet についてBingに訊いてみた Stable DiffusionにControlNetを組み合わせることで出来るよ うになることは以下の通りです。 ● テキストプロンプトだけでなく、ポーズや構図を指定し て画像を生成できる[1][2][3] ● 写真からポーズを推定して、そのポーズで画像を生成で きる[4][5] ● ポーズや構図の指定は、棒人間アバターを使って直感的 に行える[5][2] 1. https://note.com/4kaidateno/n/n6d235e7e9fb4 2. https://ossan-gamer.net/post-86955/ 3. https://gigazine.net/news/20230216-stable-diffusion-controlnet/ 4. https://bing.com/search?q=Stable+Diffusion+ControlNet+%E3%81% A7%E3%81%8D%E3%82%8B%E3%81%93%E3%81%A8 5. https://vigne-cla.com/4-13/ https://github.com/lllyasviel/ControlNet Stable DiffusionにControlNetを組み合わせること で出来るようになることを箇条書きで教えて。

Slide 22

Slide 22 text

2023年2月の感想 ● AI画像生成界隈は、まさに日進月歩の状態。ここ十年くらい変わり映えのな かったネットが混沌として活気づいてる。 ● AI画像生成の制御方法が多様化している。複雑怪奇なプロンプトに全ての意 図を込めていた時代は去り、生成フローの組み方で個性が出るように。 ● 権利関係の社会的合意は時間かかりそう。法的には「Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権」がお勧め。 ● Bing (GPT-4) もヤバい。資料作りはもうこいつに全部やってほしい。

Slide 23

Slide 23 text

より詳しく知りたい人向け DiffusionによるText2Imageの系譜と生成画像が動き出すまで (200ページ超えの歴史的なまとめ)