Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Claude CodeからNano Bananaによる 画像生成チャレンジ!

Claude CodeからNano Bananaによる 画像生成チャレンジ!

NextFreelance様主催、Next AI Synergy #10にてLTをさせていただいた時の発表資料となります。
私の作っている登山アシスタントAI「碧衣」に使われている技術の話になります。

本機能の考案開始時にNano Bananaを使用していたためNano Bananaですが、仕組み的にはGPT-Image-2でも転用可能です。

該当のイベントページはこちら: https://nextfreelance.connpass.com/event/388083/
発表で使用しているGithubリポジトリはこちら: https://github.com/yoichi-kaneko/lineai_aoi_profiles

https://nextfreelance.connpass.com/event/388083/

More Decks by 金子陽一(Yoichi Kaneko)

Other Decks in Technology

Transcript

  1. 「碧衣」の基本設計 6 設計思想 アクティビティ駆動フレーム ワーク ユーザーの日常の活動(アクティビ ティ)を起点として、 AIが自律的に思 考・行動するフレームワークで設計さ れています。

    命名:金子 動作フロー 1 情報の収集 サードパーティーサービスからアクティビティ情報を横断的に収集 2 AIによる解釈 人格(ペルソナ)を持った AIが、収集した内容を深く解釈 3 メッセージの還元 解釈に基づいた最適なメッセージをユーザへフィードバック
  2. 次にやりたいこと 7  画像生成の自動化 Nano Bananaにアクセスして、登山やア クティビティに関連する画像を自動的に 生成。  完全自動運用

    1日1回のスケジュール実行により、人 の手を介さずに完全自動で画像を生成 ・更新。  AIによる最適化 その日のアクティビティ情報を Claude Codeが解析し、最適なプロンプトを自律 的に生成。
  3. 9  Gemini REST API Google AI Studioにて公開中。画像生成に関する詳細なド キュメントも完備されている。 

    疎通の確認 標準的なREST APIリクエストが可能な環境であれば、技術 的な疎通自体に問題はない。  コスト面での留意点(従量課金) APIは従量課金制。目安として、 1k画像1枚あたり約15円程度のコストが発生する。 Nano BananaをAPIでリクエストできるか
  4. Line Messaging APIに画像送信できるか 10  画像受付フォーマット API側には画像を受け付けるための専用フォーマットが定義さ れている。  URLベースの取得フロー

    ファイルを直接送るのではなく、公開 URLを送り、LINE側がそ こから画像を取得する。  2種類のURL送信 メイン画像とプレビュー画像の URLを個別に送信する必要が ある仕様。  実装上の工夫 上記の仕様をクリアするため、システム構成における事前の 工夫が不可欠である。
  5. 画像送信の実現手段 11  ストレージサービスの選定 Cloudinaryを選定。今回の利用範囲では無料で利用可能で あり、導入コストを抑えられる。  公開URLの活用 アップロードした画像を取得できる公開 URLが存在し、外部

    サービスからの参照が容易。  動的なリサイズ機能 URLのGETクエリのみで、必要に応じたサイズ調整済み画像 を取得可能。  LINE仕様との親和性 リサイズと公開URLの特性が、LINEの画像送信仕様と非常 に相性が良い。
  6. システム構成イメージ 12 以下の仕組みで実現は可能そう Claude Code Gemini (Nano Banana🍌) LINE Cloudinary

    1. 画像生成 2. 画像保存 3. メッセージ送信 (画像URLベース ) 4. 画像の取得
  7. 仮説とコンセプト 17  風景やアクティビティの取 得 Claudeに風景画像を読み込んでも らい、それをベースにテキストプロン プトを考案する。 他のアクティビティ情報も入力値に する。

     キャラクターの固定 ベース画像を使い「このキャラが◦◦ している」と指定することで、描写の ブレを防ぐ。  ガイドラインの活用 構成を明確にするガイドラインファイ ルを用意し、アウトプットの安定性を 高める。 …これらがあればいけるのでは?
  8. 19 MCP -> skillsへの移行  API利用の最適化 元から1サービスごとに呼び出す外 部APIは限られているため、MCPで パッケージ化されているメリットが少 ない。

     リソース消費の抑制 MCPはコンテキストもメモリ消費も 大きい。画像生成時のコンテキスト ウィンドウを節約したい。  システムの簡略化 MCPサーバーから必要な機能を skillsに移行し、全体の構造をシン プルにする。 ※ このあたりの話は次回のテーマにでも ...
  9. 22 構築プロセス Gemini & Claudeと対話しながら構築 学習ソース AI画像生成ノウハウを「付け焼き刃」で学習 重要なポイント 1. 風景再現の割り切り

    主要要素さえ押さえていれば、厳密な風景の再現 には拘らない 2. 「天気」と「光源」への拘り キャラクターが「登山の天気予報」を主体とする ため、ここには詳細な説明を付与 ガイドラインファイルの作成
  10. まとめ・所感 29 再現性と品質向上 • 風景の質感がかなり綺麗に再現できている • 雰囲気がかなり近いところまで寄せてくる • 途中でGPT-Image-2に切り替えたら明らかに品質上がった LLMの特性と課題

    LLMの性質上「もっとも妥当そうな選択肢」を選びたがるので、あまり「冒険」はしてくれない 💡 改善の方向性 ここは冒険をしてくれるよう意識的なチューニングが必要そう