Vision Banana: Image Generators are Generalist Vision Learners

AI Community 2026.05.01 宮澤一之 GOドライブ株式会社 Vision Banana Image Generators
are Generalist Vision Learners CV輪講

2 概要 Paper: https://arxiv.org/abs/2604.20329 Project Page: https://vision-banana.github.io/ • 視覚認識タスクの出力をRGB空間で定義し、画像生成モデル (Nano
Banana Pro) を指示チューニング • 画像生成能力を維持しつつ複数の2D/3Dタスクで専用モデル以上の性能を達成 • 画像生成モデルが汎用的なビジョン学習器として機能することを実証

3 関連研究 Paper: https://arxiv.org/abs/2509.20328 Project Page: https://video-zero-shot.github.io/ • 動画生成だけを学習したモデル (Veo
3) が画像とテキストプロンプトから「ゼロショット」で多岐にわたる60以上の視覚タスク（認識、モデリング、操作、推論）を解決できることを実証 • フレームを逐次的に生成しながら時空間方向に推論するchain-of-frames（LLM のchain-of-thoughtに対応）能力が確認された • 動画生成モデルが統一的、汎用的な視覚基盤モデルとなり得ることを示唆

4 関連研究 Paper: https://arxiv.org/abs/2512.15110 Project Page: https://lowlevelbanana.github.io/ • 14種類の低レベル視覚タスクでNano Banana
Proのゼロショット性能を評価 • 主観的な視覚品質では従来の専用モデルを上回る性能を示したが、ピクセルレベルの厳密な一致を測る評価指標（PSNRなど）ではスコアが低迷 • 物理的な忠実度が不可欠なタスクには不向きである一方、知覚的な美しさを重視する用途では強力な汎用性がある

5 Nano Banana Proの視覚認識タスクでの指示チューニング • Nano Banana Proを2Dタスク（セグメンテーション）と3Dタスク（デプス、法線推定）で指示チューニング ◦
セグメンテーションはセマンティックセグメンテーション、インスタンスセグメンテーション、参照表現セグメンテーション*の3種類 • 2Dタスクについてはウェブから収集した画像に他モデルで推論した結果を真値として付与し、3Dタスクについては3Dエンジンで真値あり画像を生成 • Nano Banana Proが持つ画像生成能力を失わないよう、オリジナルの学習データにわずかな割合で視覚タスクデータを混合したデータセットで指示チューニングを実施 * Referring Expression Segmentation

6 セマンティックセグメンテーションの指示データ Generate a semantic segmentation visualization image, using this
color mapping: {"cat": "red", "lock": "pink", "exit sign": "light purple", "background": "yellow"} 入力出力クラスごとに指定した色に塗り分けるように指示

7 セマンティックセグメンテーションの指示データ Generate a semantic segmentation visualization of the input.
The menu is #80C000. The dessert is #800000. The patterns on the wall is #40FFC 入力出力クラスごとに指定した色に塗り分けるように指示

8 インスタンスセグメンテーションの指示データ Generate an instance segmentation visualization of this image.
Each piece of garlic is colored diﬀerently. 入力出力物体の数が未知であり固定的な色の指定ができないため、クラスを1つに限定しインスタンスごとに異なる色で塗り分けるよう指示

9 インスタンスセグメンテーションの指示データ This image is a segmentation task derived from
the input. The "crescent"-shaped croissant instances are each represented by a unique, solid color. Background is RGB(88, 50, 82). 入力出力物体の数が未知であり固定的な色の指定ができないため、クラスを1つに限定しインスタンスごとに異なる色で塗り分けるよう指示

10 参照表現セグメンテーションの指示データ入力出力 A segmentation map image. The area
that corresponds to the man in pink t shirt is rendered solid white; the other man is rendered in green. 対象をクラス名ではなく自然言語で表現し、指定した色で塗り分けるよう指示

11 参照表現セグメンテーションの指示データ入力出力 This image shows segmentation masks from
the given image. The background is black color. The chef's names in both Chinese and English are rendered as cyan color. 対象をクラス名ではなく自然言語で表現し、指定した色で塗り分けるよう指示

12 2Dタスクにおける性能比較セマンティックSeg インスタンスSeg 参照表現Seg

13 メトリックデプス推定の指示データ Predict the metric depth of this scene as
an image. Visualized in the rainbow (black-red-yellow-green-cyan-blue-viol et-white) color palette. 入力出力

14 メトリックデプスのRGB値への変換 • メトリックデプスの可視化には[0, ∞)の非有界なデプスを[0, 1]3の有界なRGB値に変換する必要がある • べき乗変換
(power transform) によってデプスを歪めて[0, 1)に圧縮し、小さな（カメラから近い）デプスほど細かな変動を捉えられるようにする • 圧縮したデプスをRGBキューブのエッジに対応させることでRGB値に変換 • 全単射であるためRGB値から厳密にデプスに戻すことが可能デプス小デプス大

15 メトリックデプス推定における性能比較

16 推定デプスのGoogle Mapによる（簡易的な）評価著者が撮影した写真著者が撮影した位置参照点の位置評価用の参照点距離: 13.71m 推定したデプス
距離: 12.87m Google Map

17 法線推定の指示データ Generate a surface normal map of the input
image. 入力出力

18 法線推定における性能比較

19 画像生成におけるNano Banana Proとの比較 • 画像生成ベンチマークにおいて Vision Bananaはオリジナルの Nano Banana
Proと同等の性能 • 人間による主観評価でもwin rateは約50%であり、指示チューニング後でも画像生成の品質は維持できている Text-to-image generation Image edit Vision Banana Nano Banana Pro

20 まとめ（著者らの主張） • 画像生成モデルは「汎用ビジョン学習器」である ◦ 生成型の事前学習がLLMにおける自然言語理解に起こしたパラダイムシフトが視覚理解にも起きつつある ◦ 画像生成モデルは、学習の過程で強力な視覚理解能力を獲得している •
「ユニバーサルインタフェース」としての画像生成 ◦ テキスト生成が多様な言語タスク（翻訳、要約、プログラミングなど）統合するインターフェースになったように、画像生成がすべてのビジョンタスクを統合するユニバーサルインターフェースになり得る ◦ セグメンテーションや深度などの出力を「RGB画像」に統一することで、自然言語のプロンプトだけでシームレスにモデルへ指示を出すことが可能になる • 今後の課題 ◦ より多くのタスクや多視点、動画への拡張 ◦ 専用モデルに対する計算オーバーヘッドの大きさの解決

21 所感 • Nano Bananaに少量のデータを与えて指示チューニングするという話かと思ったがそうではなく、元の画像生成用データセットにわずかに指示チューニング用のデータを加えて学習するという話だった ◦ 実際にどの程度のデータが使われたか不明だが、規模によっては継続事前学習と言えるかもしれない
◦ 汎用的な画像生成能力を犠牲にするなら指示チューニングだけでもいいのか？ • 計算コストが大きすぎて専用モデルの代替にはならなそうだが、もしチューニングが低コストでできるならその知識を専用モデルに蒸留するような使い方はあるかもしれない • 画像生成モデル全体のどこが視覚理解能力の獲得に重要なのかがわかれば、そこだけを取り出してより効率的に他タスクに活用できるのではないか

22 おまけ Vision Banana Nano Banana 2 Generate a semantic
segmentation visualization image, using thあis color mapping: {"cat": "red", "lock": "pink", "exit sign": "light purple", "background": "yellow"} • 2D系ではGeminiから呼び出せるNano Banana 2（多分）でもほぼ同じ結果が得られた • 細部の解像感が異なるがこれはNano Banana Proの方が処理解像度が高いから？

23 おまけ Vision Banana Nano Banana 2 This image is
a segmentation task derived from the input. The "crescent"-shaped croissant instances are each represented by a unique, solid color. Background is RGB(88, 50, 82). • 2D系ではGeminiから呼び出せるNano Banana 2（多分）でもほぼ同じ結果が得られた • 細部の解像感が異なるがこれはNano Banana Proの方が処理解像度が高いから？

24 おまけ Vision Banana Nano Banana 2 Predict the metric
depth of this scene as an image. Visualized in the rainbow (black-red-yellow-green-cya n-blue-violet-white) color palette. • メトリックデプスや法線推定では色の一貫性が重要なため指示チューニング必須か

25 おまけ Vision Banana Nano Banana 2 Generate a surface
normal map of the input image. • メトリックデプスや法線推定では色の一貫性が重要なため指示チューニング必須か

Vision Banana: Image Generators are Generalist ...

Vision Banana: Image Generators are Generalist Vision Learners

Kazuyuki Miyazawa

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Featured

Transcript

AI Community 2026.05.01 宮澤一之 GOドライブ株式会社 Vision Banana Image Generators

2 概要 Paper: https://arxiv.org/abs/2604.20329 Project Page: https://vision-banana.github.io/ • 視覚認識タスクの出力をRGB空間で定義し、画像生成モデル (Nano

3 関連研究 Paper: https://arxiv.org/abs/2509.20328 Project Page: https://video-zero-shot.github.io/ • 動画生成だけを学習したモデル (Veo

4 関連研究 Paper: https://arxiv.org/abs/2512.15110 Project Page: https://lowlevelbanana.github.io/ • 14種類の低レベル視覚タスクでNano Banana

5 Nano Banana Proの視覚認識タスクでの指示チューニング • Nano Banana Proを2Dタスク（セグメンテーション）と3Dタスク（デプス、法線推定）で指示チューニング ◦

6 セマンティックセグメンテーションの指示データ Generate a semantic segmentation visualization image, using this

7 セマンティックセグメンテーションの指示データ Generate a semantic segmentation visualization of the input.

8 インスタンスセグメンテーションの指示データ Generate an instance segmentation visualization of this image.

9 インスタンスセグメンテーションの指示データ This image is a segmentation task derived from

10 参照表現セグメンテーションの指示データ入力出力 A segmentation map image. The area

11 参照表現セグメンテーションの指示データ入力出力 This image shows segmentation masks from

12 2Dタスクにおける性能比較セマンティックSeg インスタンスSeg 参照表現Seg

13 メトリックデプス推定の指示データ Predict the metric depth of this scene as

14 メトリックデプスのRGB値への変換 • メトリックデプスの可視化には[0, ∞)の非有界なデプスを[0, 1]3の有界なRGB値に変換する必要がある • べき乗変換

15 メトリックデプス推定における性能比較

16 推定デプスのGoogle Mapによる（簡易的な）評価著者が撮影した写真著者が撮影した位置参照点の位置評価用の参照点距離: 13.71m 推定したデプス

17 法線推定の指示データ Generate a surface normal map of the input

18 法線推定における性能比較

19 画像生成におけるNano Banana Proとの比較 • 画像生成ベンチマークにおいて Vision Bananaはオリジナルの Nano Banana

22 おまけ Vision Banana Nano Banana 2 Generate a semantic

23 おまけ Vision Banana Nano Banana 2 This image is

24 おまけ Vision Banana Nano Banana 2 Predict the metric

25 おまけ Vision Banana Nano Banana 2 Generate a surface