Upgrade to Pro — share decks privately, control downloads, hide ads and more …

解説: VisProg (CVPR2023 best paper)

解説: VisProg (CVPR2023 best paper)

Naoto Inoue

July 23, 2023
Tweet

More Decks by Naoto Inoue

Other Decks in Research

Transcript

  1. 2 名前: 井上 直人 (Naoto Inoue) 経歴: 博士@東大 (山﨑研) →

    研究員 @ CyberAgent AI Lab 研究: グラフィックデザイン自動生成 (特にバナー) [講演][プレスリリース] [PR] 自己紹介 制御性の高いレイアウト生成 (CVPR2023) 編集工程を模したモデル (CVPR2023, highlight) インターン募集中です twitter: naoto_inoue_
  2. 3 紹介する論文 Visual Programming: Compositional visual reasoning without training •

    著者: Tanmay Gupta and Ani Kembhavi • project page / code / blog • Best paper (もう一本がUniAD)
  3. 6 1. 入力: 自然言語文 (質問・指示など) 2. プログラムに変換 (by LLM) 3.

    プログラムに画像を入力して実行し出力をえる 大まかな流れ
  4. 7

  5. 8

  6. 9

  7. 10

  8. 12 • 質問→プログラム をNNで直接出力 • (質問, プログラム)でなく既存VQAデータ (画像, 質問, 回答)を使う

    • 生成したプログラムの実行結果の良し悪しを報酬として強化学習 関連研究: Inferring and Executing Programs for Visual Reasoning [Johnson+, ICCV'17]
  9. 13 • 入出力が複数あっても良い • 処理が簡単でも (e.g., crop) 複雑でも良い (e.g., 物体検出NN)

    • ブラックボックスで,勾配が帰らなくて良い 利点 (i) 関数の自由度の高さ VisProgでの関数セット
  10. 26 Ideas are cheap, execution is everything (≃ 素人発想玄人実行?) Revisiting

    old ideas の典型例? • LLMが強くて思想にモデルが追いついてきた感じ • ここ5年くらいは,大規模データで V&L学習 → fine-tune が非常に多かった • Symbolic learningは Jiayuan Mao が地道に掘ってたけど有名とまでは言えない 雰囲気 アカデミアっぽい発想? • 企業だとlong-tailというよりはやっぱボリュームゾーンのタスクを教師あり学習で詰める のがやっぱり王道 所感
  11. 27 Scholars & Big Models: How Can Academics Adapt? •

    Workshop in CVPR’23, スライドが全公開されている • 大規模モデル時代にどう戦うか?をテーマに大物がトーク ◦ 個人的なおすすめ: Jon Barron / Derek Hoiem 余談