Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIを活用した画像生成を学ぶ

 生成AIを活用した画像生成を学ぶ

エンジニアを対象とした生成AIセミナーの資料です。

主に次のことが学べます。
・DALL-E3を使った画像生成
・Visionを使った画像の理解
・サンプルコードを実行してコードを理解する
・クオリティの高い画像を生成する

naoki.sakamoto

March 16, 2024
Tweet

Other Decks in Programming

Transcript

  1.  コード(詳しくはcolabへ) 素材 画像生成 response = create_completion(messages=[ {"role": "system", "content": "ユーザーから

    提供された画像を完全に再現するプロンプトを作成 してください。"}, { "role": "user", "content": [ {"type": "text", "text": "この画像のプロ ンプトを作成してください。"}, { "type": "image_url", "image_url": url, }, ], } ]) prompt: 画像には、景色の背景の前に座っている女性 の肖像画が描かれています。女性は前方に向かって微 笑みをたたえ、穏やかな表情で、視線は直接こちらを 見ています。彼女は中世ヨーロッパ風の衣装を身にま とい、右手の上に左手をゆったりと重ねています。こ の絵画は非常に細かい技法で描かれており、特に肌の 質感や光と陰の表現が緻密です。背景の風景画は遠近 法が用いられており、岩や川、遠くには山々と空が表 現されています。全体的に色調は深みのある暖色系と 冷色系がバランスよく混在していて、落ち着いた雰囲 気を醸し出しています。 # プロンプトを実行して画像を生成する response = images_generate(prompt=prompt)
  2. タイプ: 肖像画 色: 暖色系の茶色、金色、およびクールな青緑色。被写体の 肌は柔らかなベージュ、ピンク色のトーンを帯びています。 背景は青みがかった緑色で、細部にはより暗い緑色や茶色が 使用されています。 〜〜〜省略〜〜〜  コード(詳しくはcolabへ) 素材

    特徴量を抽出 目的は、提供された画像をもとに、内容を詳細に記 述し、より高い再現度でプロンプトを生成すること です。画像の各要素を細かく分析し、記述を豊かに してプロンプトを改善します。 # ユーザーから提供された画像 提供された画像を精密に分析し、再現するためのプ ロンプトを作成します。 # プロンプトの構造 - タイプ: 描かれているオブジェクトの種類やカテゴ リー(例:人物、動物、自然、建築物、肖像画、風 景画)。 - 人物: 画像に描かれている人物の性別、年齢、体 格、特徴、服装、表情を詳細に記述します。 〜〜〜省略〜〜〜
  3. Generate an image of a youthful, gender-neutral puppy character in

    animated style which exudes adorability. This puppy has large, sparkling eyes, long droopy ears, and a small round body. The puppy has light brown fur with white accents on its face and belly, a pink tongue, and black features for its nose, eyes, and parts of its mouth. Positioned at the center of the image against a potentially white or transparent background, the puppy embodies happiness and charm. The style is simple, 〜〜〜省略〜〜〜  コード(詳しくはcolabへ) 画像生成 組み合わせ #指示 Let's combine these prompt! #指示詳細 [ アイデア1とアイデア2の特徴量 ] #目的 全てのプロンプトを混ぜて最適な画像を出力すること です。 〜〜〜省略〜〜〜
  4. # 命令 プロンプトとチェックリストに基づい て、適切な修正が行われた画像を生成 することが目標です。 # 素材画像のプロンプト {素材画像のプロンプト} # 画像生成に向けたチェックリストの

    具体的な改善項目 - 調整する特徴: 目の大きさとスタイ ル - [目をよりリアルな比率とスタイ ルに変更し、キュートさを抑えた自然 な表情に修正] - 調整する特徴: 色の使い方 - [明るく 派手な色から、落ち着いた自然色に変 更し、日本の伝統的な色合いに合わせ る] - 調整する特徴: スタイルと姿勢 - [カートゥーンスタイルから実際の犬 種を基にしたリアルな体形と姿勢に修 正し、自然な動物の外見を持たせる]  コード(詳しくはcolabへ) # 命令 提供された画像に対してチェック リストを適用し、チェックリスト の基準を満たしていない要素があ れば、具体的な修正指示を出力し てください。修正指示は、以下の 出力形式に従って、チェックリス トに照らし合わせた結果を基に明 確に示してください。 〜〜〜省略〜〜〜 ## 日本人の60代男性が好む動物 不適切: 現代的で子ども向けの、過剰に キュートな動物の描写(例: アニメ風やカー トゥーンスタイルの動物、大きな目や派手な 色使い) 適切な表現: 威厳と落ち着きを持ち、伝統的 な日本の美学に則った動物の描写(例: 鷹や 鶴、鯉、日本犬のような落ち着いた色合いで 表現された、リアルかつ自然な姿勢の動物) 素材 画像生成 評価関数 <チェックリスト> ## 日本人の60代男性が好む動物 不適切: 現代的で子ども向けの、 過剰にキュートな動物の描写(例: …) 適切な表現: 威厳と落ち着きを持 ち、伝統的な日本の美学に則った 動物の描写(例: …)
  5. フィードバック  ループ思考で継続的改善 素材/テーマを選択 特徴量を抽出 画像生成 評価関数 画像生成 ループ ループ ループ

    意図通りの画像が出るまでループを回す 素材/テーマを チューニング チェックリストを チューニング
  6.  まとめ • 意図通りの画像が出るまでループを回す • クオリティの高い画像が出るかはガチャ要素があるの で、いろんなアイデアの組み合わせを試すこと • 意図するものに近い出力が出たら、それをベースに チューニングしていく •

    ループ思考は画像生成以外の生成AIシステム全般で使 える • プロンプトやライブラリはGPTやClaudeに聞けば良い ので、ループ構造を作ることに思考力を使う • ループが回転する程、創出する価値が増大するような 構造を作ること