Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
解説: VisProg (CVPR2023 best paper)
Search
Naoto Inoue
July 23, 2023
Research
0
980
解説: VisProg (CVPR2023 best paper)
Naoto Inoue
July 23, 2023
Tweet
Share
More Decks by Naoto Inoue
See All by Naoto Inoue
Graphic design generation by multimodal models
naoto0804
6
1.2k
解説: Metadata Normalization
naoto0804
2
740
Other Decks in Research
See All in Research
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
310
2025-11-21-DA-10th-satellite
yegusa
0
110
An Open and Reproducible Deep Research Agent for Long-Form Question Answering
ikuyamada
0
280
音声感情認識技術の進展と展望
nagase
0
470
財務諸表監査のための逐次検定
masakat0
1
250
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
1.2k
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
3
390
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
580
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
640
POI: Proof of Identity
katsyoshi
0
140
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
19
9.6k
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
140
Featured
See All Featured
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
140
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.9k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
55
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.1k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
170
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
79
Ruling the World: When Life Gets Gamed
codingconduct
0
150
The browser strikes back
jonoalderson
0
400
Tell your own story through comics
letsgokoyo
1
810
First, design no harm
axbom
PRO
2
1.1k
Fireside Chat
paigeccino
41
3.8k
Transcript
Visual Programming: Compositional visual reasoning without training CVPR2023読み会 (前編) 2023/07/23
井上 直人
2 名前: 井上 直人 (Naoto Inoue) 経歴: 博士@東大 (山﨑研) →
研究員 @ CyberAgent AI Lab 研究: グラフィックデザイン自動生成 (特にバナー) [講演][プレスリリース] [PR] 自己紹介 制御性の高いレイアウト生成 (CVPR2023) 編集工程を模したモデル (CVPR2023, highlight) インターン募集中です twitter: naoto_inoue_
3 紹介する論文 Visual Programming: Compositional visual reasoning without training •
著者: Tanmay Gupta and Ani Kembhavi • project page / code / blog • Best paper (もう一本がUniAD)
4 1. 入力: 自然言語文 (質問・指示など) 大まかな流れ
5 1. 入力: 自然言語文 (質問・指示など) 2. プログラムに変換 (by LLM) 大まかな流れ
6 1. 入力: 自然言語文 (質問・指示など) 2. プログラムに変換 (by LLM) 3.
プログラムに画像を入力して実行し出力をえる 大まかな流れ
7
8
9
10
11 • 入力文を頑張ってパーサーとhand-crafted rulesでプログラムに変換 • 解釈性の高いモジュール単位の演算の重ね合わせで解く 関連研究: Neural Module Networks
(NMN) [Andreas+, CVPR’16]
12 • 質問→プログラム をNNで直接出力 • (質問, プログラム)でなく既存VQAデータ (画像, 質問, 回答)を使う
• 生成したプログラムの実行結果の良し悪しを報酬として強化学習 関連研究: Inferring and Executing Programs for Visual Reasoning [Johnson+, ICCV'17]
13 • 入出力が複数あっても良い • 処理が簡単でも (e.g., crop) 複雑でも良い (e.g., 物体検出NN)
• ブラックボックスで,勾配が帰らなくて良い 利点 (i) 関数の自由度の高さ VisProgでの関数セット
14 既存LLMのin-context learningで動く • “Training-free” 利点 (ii) 学習不要
15 実験
16 デモ
17 デモ
18 In-context exampleは多いほど良いが,問題によってはサチる • (仮説) 少ないモジュールしか使わないタスクでは例示も少なくて良い? 実験結果
19 汎用性に全振りしているので,特定のタスクにおいて強いかはケースバイケース • 勝敗は既存手法のモデルサイズや学習データセットサイズ次第 実験結果 実験結果 (reasoning on image pairs)
20 エラー分析
21 • NN沢山使うと重くない? → yes, ただ逐次実行なので各ステップに必要なものだけ GPU に載せればOOMは回避できる(気がする) • テキストをどうやって実行するの?
→ 既存の字句解析器で分解, カスタムで作った interpreterで実行 • コード壊れてる可能性は? → 当然ある Q&A
22 実装大変じゃない? Q&A
23 • 結局タスク数が増えるとin-context examplesの必要数増えて辛いのでは ◦ VQAはモジュール扱い,結果の信頼性がある限りはある程度汎用なモジュールが良い ◦ 結局各モジュールの改善は必須 • エラー訂正,
もしくは実行結果を見てのfeedbackは可能か 議論
24 text-to-code (CODEX) + 詳細なdocstring (に実行例も含まれる)で関数情報 • 実装本体の情報は与えない (文字数の関係 +
docが正確ならいらないはず) 補足: ViperGPT
25 これも関数定義をpromptとして与えてLLMに使ってもらう試み 補足: Function Calling (OpenAI)
26 Ideas are cheap, execution is everything (≃ 素人発想玄人実行?) Revisiting
old ideas の典型例? • LLMが強くて思想にモデルが追いついてきた感じ • ここ5年くらいは,大規模データで V&L学習 → fine-tune が非常に多かった • Symbolic learningは Jiayuan Mao が地道に掘ってたけど有名とまでは言えない 雰囲気 アカデミアっぽい発想? • 企業だとlong-tailというよりはやっぱボリュームゾーンのタスクを教師あり学習で詰める のがやっぱり王道 所感
27 Scholars & Big Models: How Can Academics Adapt? •
Workshop in CVPR’23, スライドが全公開されている • 大規模モデル時代にどう戦うか?をテーマに大物がトーク ◦ 個人的なおすすめ: Jon Barron / Derek Hoiem 余談
28 2022/11: VisProg 公開 2023/3: ViperGPT 公開 & AKさんに取り上げられる 余談:
Social Media Ban 撤回問題
29 主張 • 有名・大きなところほど同僚やインフルエンサーが宣伝するので結局無意味では 反論 • 宣伝を禁じるだけでarXivへのアップロード自体は禁じられていない • 査読を歪ませないのは大事 (参考:
Michael Black先生の趣旨説明) ただ,実際自分もViperGPT知っててVisProg知らなかったので難しいところ 余談: Social Media Ban 撤回問題
30 • 学習 (勾配降下) 不要で多種多様なタスクを解く • LLMのin-context learning能力をフル活用して,neuro-symbolic approachの アップデート
• ロングテール性・解釈性・拡張性などのメリット まとめ