Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision Banana: Image Generators are Generalist ...

Vision Banana: Image Generators are Generalist Vision Learners

DeNA/GO/GOドライブで実施しているコンピュータビジョン輪講での発表資料です

Avatar for Kazuyuki Miyazawa

Kazuyuki Miyazawa

May 11, 2026

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Transcript

  1. 2 概要 Paper: https://arxiv.org/abs/2604.20329 Project Page: https://vision-banana.github.io/ • 視覚認識タスクの出力をRGB空間で定義し、画像生成モデル (Nano

    Banana Pro) を指示チューニング • 画像生成能力を維持しつつ複数の2D/3Dタスクで専用モデル以上の性能を達成 • 画像生成モデルが汎用的なビジョン学習器として機能することを実証
  2. 3 関連研究 Paper: https://arxiv.org/abs/2509.20328 Project Page: https://video-zero-shot.github.io/ • 動画生成だけを学習したモデル (Veo

    3) が画像とテキストプロンプトから「ゼ ロショット」で多岐にわたる60以上の視覚タスク(認識、モデリング、操作、 推論)を解決できることを実証 • フレームを逐次的に生成しながら時空間方向に推論するchain-of-frames(LLM のchain-of-thoughtに対応)能力が確認された • 動画生成モデルが統一的、汎用的な視覚基盤モデルとなり得ることを示唆
  3. 4 関連研究 Paper: https://arxiv.org/abs/2512.15110 Project Page: https://lowlevelbanana.github.io/ • 14種類の低レベル視覚タスクでNano Banana

    Proのゼロショット性能を評価 • 主観的な視覚品質では従来の専用モデルを上回る性能を示したが、ピクセルレ ベルの厳密な一致を測る評価指標(PSNRなど)ではスコアが低迷 • 物理的な忠実度が不可欠なタスクには不向きである一方、知覚的な美しさを重 視する用途では強力な汎用性がある
  4. 5 Nano Banana Proの視覚認識タスクでの指示チューニング • Nano Banana Proを2Dタスク(セグメンテーション)と3Dタスク(デプス、 法線推定)で指示チューニング ◦

    セグメンテーションはセマンティックセグメンテーション、インスタンスセグメ ンテーション、参照表現セグメンテーション*の3種類 • 2Dタスクについてはウェブから収集した画像に他モデルで推論した結果を真 値として付与し、3Dタスクについては3Dエンジンで真値あり画像を生成 • Nano Banana Proが持つ画像生成能力を失わないよう、オリジナルの学習 データにわずかな割合で視覚タスクデータを混合したデータセットで指示 チューニングを実施 * Referring Expression Segmentation
  5. 6 セマンティックセグメンテーションの指示データ Generate a semantic segmentation visualization image, using this

    color mapping: {"cat": "red", "lock": "pink", "exit sign": "light purple", "background": "yellow"} 入力 出力 クラスごとに指定した色に塗り分けるように指示
  6. 7 セマンティックセグメンテーションの指示データ Generate a semantic segmentation visualization of the input.

    The menu is #80C000. The dessert is #800000. The patterns on the wall is #40FFC 入力 出力 クラスごとに指定した色に塗り分けるように指示
  7. 8 インスタンスセグメンテーションの指示データ Generate an instance segmentation visualization of this image.

    Each piece of garlic is colored differently. 入力 出力 物体の数が未知であり固定的な色の指定ができな いため、クラスを1つに限定しインスタンスごとに 異なる色で塗り分けるよう指示
  8. 9 インスタンスセグメンテーションの指示データ This image is a segmentation task derived from

    the input. The "crescent"-shaped croissant instances are each represented by a unique, solid color. Background is RGB(88, 50, 82). 入力 出力 物体の数が未知であり固定的な色の指定ができな いため、クラスを1つに限定しインスタンスごとに 異なる色で塗り分けるよう指示
  9. 10 参照表現セグメンテーションの指示データ 入力 出力 A segmentation map image. The area

    that corresponds to the man in pink t shirt is rendered solid white; the other man is rendered in green. 対象をクラス名ではなく自然言語で表現し、指定 した色で塗り分けるよう指示
  10. 11 参照表現セグメンテーションの指示データ 入力 出力 This image shows segmentation masks from

    the given image. The background is black color. The chef's names in both Chinese and English are rendered as cyan color. 対象をクラス名ではなく自然言語で表現し、指定 した色で塗り分けるよう指示
  11. 13 メトリックデプス推定の指示データ Predict the metric depth of this scene as

    an image. Visualized in the rainbow (black-red-yellow-green-cyan-blue-viol et-white) color palette. 入力 出力
  12. 14 メトリックデプスのRGB値への変換 • メトリックデプスの可視化には[0, ∞)の非 有界なデプスを[0, 1]3の有界なRGB値に変 換する必要がある • べき乗変換

    (power transform) によってデ プスを歪めて[0, 1)に圧縮し、小さな(カメ ラから近い)デプスほど細かな変動を捉え られるようにする • 圧縮したデプスをRGBキューブのエッジに 対応させることでRGB値に変換 • 全単射であるためRGB値から厳密にデプス に戻すことが可能 デプス小 デプス大
  13. 19 画像生成におけるNano Banana Proとの比較 • 画像生成ベンチマークにおいて Vision Bananaはオリジナルの Nano Banana

    Proと同等の性能 • 人間による主観評価でもwin rateは約50%であり、指示 チューニング後でも画像生成の 品質は維持できている Text-to-image generation Image edit Vision Banana Nano Banana Pro
  14. 20 まとめ(著者らの主張) • 画像生成モデルは「汎用ビジョン学習器」である ◦ 生成型の事前学習がLLMにおける自然言語理解に起こしたパラダイムシフトが視 覚理解にも起きつつある ◦ 画像生成モデルは、学習の過程で強力な視覚理解能力を獲得している •

    「ユニバーサルインタフェース」としての画像生成 ◦ テキスト生成が多様な言語タスク(翻訳、要約、プログラミングなど)統合する インターフェースになったように、画像生成がすべてのビジョンタスクを統合す るユニバーサルインターフェースになり得る ◦ セグメンテーションや深度などの出力を「RGB画像」に統一することで、自然言 語のプロンプトだけでシームレスにモデルへ指示を出すことが可能になる • 今後の課題 ◦ より多くのタスクや多視点、動画への拡張 ◦ 専用モデルに対する計算オーバーヘッドの大きさの解決
  15. 21 所感 • Nano Bananaに少量のデータを与えて指示チューニングするという話かと 思ったがそうではなく、元の画像生成用データセットにわずかに指示チュー ニング用のデータを加えて学習するという話だった ◦ 実際にどの程度のデータが使われたか不明だが、規模によっては継続事前学習と 言えるかもしれない

    ◦ 汎用的な画像生成能力を犠牲にするなら指示チューニングだけでもいいのか? • 計算コストが大きすぎて専用モデルの代替にはならなそうだが、もしチュー ニングが低コストでできるならその知識を専用モデルに蒸留するような使い 方はあるかもしれない • 画像生成モデル全体のどこが視覚理解能力の獲得に重要なのかがわかれば、 そこだけを取り出してより効率的に他タスクに活用できるのではないか
  16. 22 おまけ Vision Banana Nano Banana 2 Generate a semantic

    segmentation visualization image, using thあis color mapping: {"cat": "red", "lock": "pink", "exit sign": "light purple", "background": "yellow"} • 2D系ではGeminiから呼び出せるNano Banana 2(多分)でもほぼ同じ結果が得られた • 細部の解像感が異なるがこれはNano Banana Proの方が処理解像度が高いから?
  17. 23 おまけ Vision Banana Nano Banana 2 This image is

    a segmentation task derived from the input. The "crescent"-shaped croissant instances are each represented by a unique, solid color. Background is RGB(88, 50, 82). • 2D系ではGeminiから呼び出せるNano Banana 2(多分)でもほぼ同じ結果が得られた • 細部の解像感が異なるがこれはNano Banana Proの方が処理解像度が高いから?
  18. 24 おまけ Vision Banana Nano Banana 2 Predict the metric

    depth of this scene as an image. Visualized in the rainbow (black-red-yellow-green-cya n-blue-violet-white) color palette. • メトリックデプスや法線推定では色の一貫性が重要なため指示チューニング必須か
  19. 25 おまけ Vision Banana Nano Banana 2 Generate a surface

    normal map of the input image. • メトリックデプスや法線推定では色の一貫性が重要なため指示チューニング必須か