自分の学習データで画像生成AIを使ってみる話

Slide 1

Slide 1 text

自分の学習データで画像生成AIを使ってみる話 2024/06/08 伊勢IT交流会

Slide 2

Slide 2 text

もやし工房石黒光茂 @koike_moyashi mitsushige.ishiguro もやし工房

Slide 3

Slide 3 text

画像生成色々ある ChatGPT(DALL-E) Bing Image Creator Midjourney Adobe Firefly その他色々

Slide 4

Slide 4 text

テキストを入れると画像を作ってくれるやつが多い

Slide 5

Slide 5 text

今回は手元データを学習させ、そこから画像生成をする話

Slide 6

Slide 6 text

きっかけ → 昨年グラフィックボード（ゲーム用ではない）を買った → 使い道がない

Slide 7

Slide 7 text

ローカルPCでの画像生成と言えば... Stable Diffusion “イオン”の本屋さんでも１、２冊は本が置いてあるくらいメジャー！オープンソース。無料、商用利用も可能。 Pythonベースで、Windows、Linux、MacOSで動く。

Slide 8

Slide 8 text

ローカルPCでの画像生成と言えば... 生成学習ノイズを徐々に加えてノイズにするノイズを徐々に除去していく（これでなぜ指示した画像が生成されるのか…）拡散モデル（Diffusion Model）仕組み的なやつ https://arxiv.org/abs/2006.11239より引用

Slide 9

Slide 9 text

ローカルPCでの画像生成と言えば... 生成学習ノイズを徐々に加えてノイズにするノイズを徐々に除去していく（これでなぜ指示した画像が生成されるのか…）拡散モデル（Diffusion Model）仕組み的なやつ https://arxiv.org/abs/2006.11 239 なんだか良く分からないけどすごい！

Slide 10

Slide 10 text

ローカルPCでの画像生成と言えば... • カスタマイズの自由度が高いプラグイン/拡張機能や、ダウンロードできるモデルデータと呼ばれる生成元データが大量にあり、自由に入れられる • 高いクオリティの画像を生成可能 • WebAPIとしても使える（システム間連携など） • ”センシティブ”な画像も生成可能特徴

Slide 11

Slide 11 text

ローカルPCでの画像生成と言えば... • ユーザコミュニティが活発なオープンソース ← 楽しい! 特徴

Slide 12

Slide 12 text

ローカルPCでの画像生成と言えば... • ユーザコミュニティが活発なオープンソース ← 楽しい! • 自由度が高い→設定できる項目が多いので、初見だと意味がわからない。 • UIは変えられるがWebUIが一般的特徴

Slide 13

Slide 13 text

Stable Diffusionで使えるモデルデータ例 https://civitai.com/models 顔やキャラクターだけでなく、画風、モノ、ネタ系などいろいろある。ユーザコミュニティ大事。

Slide 14

Slide 14 text

動かし方 • ストレージはちょっと大きいほうが良い • 1モデルデータで3～5GBとか • ビデオメモリは大きければ大きいほど楽 • OSにそのまま Python(venv) • Windows: WSL 2 + docker （今回はこれ） • Google Colab (Pro) 、専用サービスなど動かし方

Slide 15

Slide 15 text

どんな事ができるか？ • テキストから画像を作成 text2img • 画像から画像を作成 img2img 元の画像をベースに新たに描くポーズ指定一部だけ◯◯ • 追加学習データを使う • 拡張機能を使って、その他色々

Slide 16

Slide 16 text

画像から画像を作成（元の画像をベースに新たに描く）

Slide 17

Slide 17 text

画像から画像を作成（ポーズ指定）プロンプトだけでは指定が難しいポーズを指定できる。写真のポーズをイラストに反映したりとかにも使える。

Slide 18

Slide 18 text

追加学習データを使うこれが本題手元のデータを使って、オリジナルのキャラクターを出したり、特定の顔の写真を生成できる

Slide 19

Slide 19 text

学習データ作成は大きく分けて２種類 • データの大元のモデルデータと言うのを作る →すごく時間がかかる＆VRAMも沢山必要＆学習させる枚数も多い。大変（らしい） • モデルデータを利用して追加学習データを作る →今回はこれ。追加学習の方法は何種類かある。現在ちょうど良いバランス（情報も多い）なのが、 LoRA（Low-Rank Adaptation）と言う手法。

Slide 20

Slide 20 text

追加学習（LoRA）顔やイラストそのものだけでは無く、色々なことを学習できる。色合い、画風、光具合、などなど • イラストならイラストのモデル、人間なら人間のモデルデータを元に作る（元学習データに挟み込む） • 高いクオリティの元モデル + 独自の（顔、キャラクター、色合い、画風、などなど） → 高いクオリティの独自の（顔、キャラクター、色合い、画風、などなど）が作れる

Slide 21

Slide 21 text

先日のニュース引用：https://www.yomiuri.co.jp/national/20240601-OYT1T50224/

Slide 22

Slide 22 text

追加学習の大きな流れ（同じような顔、キャラクターを作る場合） 1.元データ（画像）を用意（場合よっては面倒） 2.いい感じに加工（面倒くさい） 3.１枚１枚にキャプションを付ける（自動） 4.キャプションの編集（面倒くさい） 5.学習させる（やや時間かかる） 6.学習結果を使う

Slide 23

Slide 23 text

元データ（画像）を用意→いい感じに加工（面倒くさい） • 今回は顔とキャラクター。20枚程度 • 高解像度のモデルデータSDXLを使う場合は1024px。キャラクターはSD1.5 512px。 • 場合によっては結構面倒（顔だけにする、小さい画像を大きくするなど）

Slide 24

Slide 24 text

元データ（画像）を用意 • 三重のおやつと言えば • マスヤの方に、キャラクターのラフ案みたいなのを AIに書かせることができないか？と言う話を聞いていた。 • 学習用データを提供していただいた ※ このスライドを公開する事も許可をいただいています

Slide 25

Slide 25 text

元データ（画像）を用意→いい感じに加工（面倒くさい） • 今回は顔とキャラクター。20枚程度 • 高解像度のモデルデータSDXLを使う場合は1024,1024px。キャラクターは512px • 場合によっては結構面倒（顔だけにする、小さい画像を大きくするなど）

Slide 26

Slide 26 text

１枚１枚にキャプションを付ける • １枚１枚にキャプションと呼ばれる説明書きをつける • 手で書いても良いけど面倒なのでAIにやらせて、後で直す • 画像の内容を短文で説明してくれる。すごい。 • cartoon style, • a happy smiling yellow triangle character with red cheeks, • making peace signs with both hands, • vector art 「画像について、Stable Diffusion のプロンプト風に説明してください。出力は英語のテキストのみにしてください。」

Slide 27

Slide 27 text

キャプションの編集（面倒くさい）ここから、 • このキャラクターを表している「イラスト調、黄色の三角、足が赤い、手が白色」などを削除して、独自の呼出キーワードを加える • AIが独自の呼出キーワードを「イラスト調、黄色の三角、足が赤い、手が白色」と認識してくれる • かなり面倒

Slide 28

Slide 28 text

キャプションの編集（面倒くさい） • 黄色い三角のキャラクター • 赤い靴を履いている • 目は大きい • 赤い口 • 手に白い手袋をしている • 日本スタイルのカトゥーン • 腕を上げている • スマイル • 片方の足をこちらに向けている • ONISEN （呼出キーワード） • 腕を上げている • スマイル • 片方の足をこちらに向けている • 手はピースをしている • ほっぺが赤い自動キャプション変更後青の部分がこのキャラクターの特徴（他の画像にも含まれている要素）なので学習させるために削除右側の赤は足したところ

Slide 29

Slide 29 text

学習させる（時間かかる） • キャラクターは15分程度 • 高解像度の顔は２時間程度 • グラフィックボードの性能によって早さは変わる • 何やかや難しいパラメータが沢山ある • GPUメモリをあふれさせると、PCのメモリを使う→すごく遅くなる • 設定箇所が多く、調整が難しくて未だによくわからない

Slide 30

Slide 30 text

学習結果をテスト先程の「呼出キーワード」とともに、描きたいことや、描いてほしくないことを書いて生成

Slide 31

Slide 31 text

繰り返す１回では上手く行かないので、上記を色々変えながら繰り返す青の部分を学習しすぎた？学習データを少なくしすぎた？コツがわからない。ネットを見てるといい感じに作ってるので、私の実力不足かと… 顔データは比較的簡単にできたけど、キャラクターは難しかった。元データ

Slide 32

Slide 32 text

その他の方法 LoRAを作成せず、元画像からいい感じに似せるキャラクターリファレンス機能記事を見てるとこれだけで、いい感じにやってる人もいたが…

Slide 33

Slide 33 text

雑感 • AIに学習させる行為そのものは楽しいが、試行錯誤はあまり自動化できず、かなり時間かかる。経験？ • ネットの記事を見てると簡単そうだけど、そこまで上手く行かなかった。聞いたこと無い用語が多く、内容が想像できない。経験・知識不足。 • この技術をお金に変える方法は分からない

Slide 34

Slide 34 text

雑感プロ（イラスト、漫画、商業写真）が補助的に使う。 Kindleで出す。これ以外もあるはず… 引用 https://www.yomiuri.co.jp/national/20240601-OYT1T50225/

Slide 35

Slide 35 text

雑感 • 自分の顔のモデルデータは実験には使いづらい気軽にいつもしてない服装とかが楽しめるが、使い道は思いつかない • 進歩が早く（経験不足もあり）できてくるデータに気まぐれ感があるので、クライアントワークでは怖くてできない • 数ヶ月後にはもっと簡単に良い感じのものができてそう

Slide 36

Slide 36 text

参考 Stable Diffusion本体 Stable Diffusion WebUI https://github.com/AUTOMATIC1111/stable-diffusion-webui Stable Diffusion WebUI Docker https://github.com/AbdBarho/stable-diffusion-webui-docker Stable Diffusion WebUI Forge https://github.com/lllyasviel/stable-diffusion-webui-forge LoRA作成 Kohya's GUI https://github.com/bmaltais/kohya_ss キャラクター（結局うまく行ってない）元モデル： runwayml/stable-diffusion-v1-5 繰り返し:10 Epoch:25 枚数:20 Optimizer: Adafactor 写真元モデル： stabilityai/stable-diffusion-xl-base-1.0 繰り返し:10 Epoch:25 枚数:20 Optimizer: Adafactor