SSII2024 [OS2] GPT-4Vで画像認識は終わるのか（オープニング）

Slide 1

Slide 1 text

GPT-4Vで画像認識は終わるのか 2024.6.13 八木拓真（産業技術総合研究所）

Slide 2

Slide 2 text

背景 NLP2023開催（23年3月）直前にChatGPTが登場、会期中に緊急パネルが開催 2 https://www.anlp.jp/nlp2023/pdf/NLP2023_0314_special_panel.pdf

Slide 3

Slide 3 text

3 タスクの要求回答形式の要求主題・商品内容の認識パネルの枚数の認識画像の見た目・物体の認識宣言的知識の参照画像から得られた情報を参照しての推論 GPT-4 Technical Report [OpenAI, ‘23] GPT-4Vは従来の画像認識タスクが扱ってきた「見えるものを見る」を超えた推論ができている

Slide 4

Slide 4 text

画像認識からマルチモーダル理解へ MMMU [Yue+, CVPR’24]：専門知を要求する総合質問応答ベンチマーク 4 https://arxiv.org/abs/2311.16502

Slide 5

Slide 5 text

テーマ：GPT-4Vで画像認識は終わるのか大規模言語モデル（LLM）をはじめとした基盤モデルの波が画像認識分野にも波及し、マルチモーダル基盤モデルの時代を迎えつつあるマルチモーダル基盤モデルは高い性能と柔軟さを兼ね備え、今までの個別タスクによるベンチマーキングを覆すインパクトを与えつつある 5 1990年代画像処理計測・抽出の時代 2000年代統計的パターン認識特徴量設計の時代 2010年代深層学習アーキテクチャ設計の時代第1回SSII（1995） ↓ 2020年代基盤モデル →次のトレンドは？第30回SSII（2024） ↓ GPT-4Vによって画像認識は終わるのか？どう変わるのか？

Slide 6

Slide 6 text

講演者紹介大規模言語モデルとVision & Languageのこれから • 栗田修平さん（国立情報学研究所）画像、その先へ～モーション解析への誘い～ • 藤原研人さん（LINEヤフー株式会社-大阪大学VHL）大規模言語モデルと基盤モデルの射程 • 大谷まゆさん（サイバーエージェント） 6