Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI画像生成の紹介スライドをAI画像とAIチャットで作ってみた

 AI画像生成の紹介スライドをAI画像とAIチャットで作ってみた

Takatomo Torigoe

March 03, 2023
Tweet

More Decks by Takatomo Torigoe

Other Decks in Technology

Transcript

  1. This Anime Does Not Existの感想 • 生成画像を大量に眺めていると、美的感覚が壊れてくる ◦ 謎文字が格好良く見えてくる ◦

    キメラ的に生えている手足髪が味に感じてくる ◦ 人間による真っ当なイラストが物足りなくなってくる • AI画像発掘という趣味が生まれるかもと当時は思っていた ◦ マニアの間では、モデルごとの当たりseed値が共有される世界観 seed=45139 psi=2.0
  2. DALL·E 2で生成してみた OpenAI社(ChatGPTもココ)のサービス。 4月に発表されて、7月にβ版が始まった。Diffusionモデルが世に知れ渡ることに。 3D render of a cat riding

    in a Toyota car illuminated by moonlight in outer space high quality photo of a cat on a unicycle A watercolor drawing of a pretty white cat dancing in a night of shooting stars A Disney style of white cat eating takoyaki
  3. Midjourneyで生成してみた Midjourney社(Leap Motionと同じ創設者)のサービス。7月にβ版が始まった。 GUIがDiscord(チャット)のため、他人の生成過程がリアルタイムで見れる。 V3: Shrine maiden in post apocalyptic

    scene V3: Baroque dragon statue V3: Burning titan, character concept, hyper detailed, ray tracing, 4k V3: Cute girl with a white dress, sunflower field, sunny day, japan, Impressionism
  4. Stable Diffusionで生成してみた 8月にHugging FaceにCompVis/stable-diffusion-v1-4が公開され、 これを基盤モデルとした派生が大量に生まれた。AI画像生成の民主化の始まり。 a cute girl with fairy

    wings fights a dragon with sacred sword, full body, pencil drawing, pixiv fanbox, high quality wall paper still life photography of anime figure on snowfield background, big hair ribbon, beautiful face, blond hair, blue eyes, white sailor suit, shorts, high quality, 4k concept art of a princess riding on crystalized red dragon in World War II, blue hair, beatiful face, pixiv fanbox, 4K concept art of a crystalized princess on red dragon, blue hair, beatiful face, glitch effect, pixiv fanbox, 4K
  5. 2023年2月のAI画像生成フロー例 基盤 モデル 派生 モデル LoRA モデル ControlNet モデル 追加

    データセット 階層別 マージ モデル 特定用語データセット (絵柄・キャラ・シチュ……) 派生 モデル 追加 データセット 固有タスクデータセット (着色、姿勢制御……) 1. 左のモデル群を用意 2. 画像生成の指示 ◦ プロンプト ◦ ネガティブプロンプト ◦ ControlNet用画像 3. 気に入るまで生成ガチャ 4. 微妙なポイントをInpaintingで修正 5. アップスケールして完成
  6. 階層別マージについてBingに訊いてみた Stable Diffusionの階層別マージとは、複数のモデルの重みをU-Netの深さに応じて比率を変えて組み合わせることです [1]。階層ごとに異なるモデルを使うことで、画像生成の品質や多様性を向上させることができます[2][1]。 階層別マージについて、階層ごとの影響を箇条書きで書くと以下のようになります。 • 浅い階層(U-Netの下部)に使うモデルは、画像の解像度や細部表現に大きく影響します[2][1]。高解像度や細部 表現に優れたモデルを使うと、生成画像の品質が向上します[1]。 • 深い階層(U-Netの上部)に使うモデルは、テキストエンコーダーやスタイル表現に大きく影響します[2]

    。テキ ストエンコーダーやスタイル表現に優れたモデルを使うと、生成画像の多様性や一貫性が向上します[2] 。 • 中間的な階層に使うモデルは、画像の形状や色彩などに影響します[2]。形状や色彩に特徴的なモデルを使うと、生 成画像の個性や雰囲気が変わります[2]。 1. https://note.com/septendec/n/n0285c82aa9b2 2. https://note.com/mayu_hiraizumi/n/n252161114cde まずStable Diffusionの階層別マージについて端的に説明してください。 それから階層ごとの影響を箇条書きで書いてください。
  7. LoRA についてBingに訊いてみた LoRAはLow-rank Adaptationの略称で、Text-to-Imageモデルに新たな被写 体を学習させる手法です[1]。Stable Diffusionと組み合わせると、以下のこ とができます。 • 数枚の被写体画像と対応するテキストを元にファインチューニングを 行うことで、実写風のイラストを生成する[2][3]。

    • ふだん使っているモデルを少しだけアレンジすることで、自分好みな イラストにカスタマイズする[3]。 • コスプレやメイクなどのテーマに沿ったイラストを生成する[4]。 1. https://note.com/npaka/n/ndb287a48b682 2. https://wikiwiki.jp/sd_toshiaki/LoRA 3. https://original-game.com/how-to-use-lora-stable-diffusion/ 4. https://yuuyuublog.org/koreandolllikeness/ https://arxiv.org/abs/2106.09685 AI画像生成に使われるLoRAは何の略称か書いて。次にStable Diffusionと組み合わせ方について、端的に箇条書きで書いて。
  8. ControlNet についてBingに訊いてみた Stable DiffusionにControlNetを組み合わせることで出来るよ うになることは以下の通りです。 • テキストプロンプトだけでなく、ポーズや構図を指定し て画像を生成できる[1][2][3] • 写真からポーズを推定して、そのポーズで画像を生成で

    きる[4][5] • ポーズや構図の指定は、棒人間アバターを使って直感的 に行える[5][2] 1. https://note.com/4kaidateno/n/n6d235e7e9fb4 2. https://ossan-gamer.net/post-86955/ 3. https://gigazine.net/news/20230216-stable-diffusion-controlnet/ 4. https://bing.com/search?q=Stable+Diffusion+ControlNet+%E3%81% A7%E3%81%8D%E3%82%8B%E3%81%93%E3%81%A8 5. https://vigne-cla.com/4-13/ https://github.com/lllyasviel/ControlNet Stable DiffusionにControlNetを組み合わせること で出来るようになることを箇条書きで教えて。