SSII2024 [OS2] GPT-4Vで画像認識は終わるのか（オープニング）

GPT-4Vで画像認識は終わるのか 2024.6.13 八木拓真（産業技術総合研究所）

背景 NLP2023開催（23年3月）直前にChatGPTが登場、会期中に緊急パネルが開催 2 https://www.anlp.jp/nlp2023/pdf/NLP2023_0314_special_panel.pdf

3 タスクの要求回答形式の要求主題・商品内容の認識パネルの枚数の認識画像の見た目・物体の認識宣言的知識の参照画像から得られた情報を参照しての推論 GPT-4 Technical
Report [OpenAI, ‘23] GPT-4Vは従来の画像認識タスクが扱ってきた「見えるものを見る」を超えた推論ができている

画像認識からマルチモーダル理解へ MMMU [Yue+, CVPR’24]：専門知を要求する総合質問応答ベンチマーク 4 https://arxiv.org/abs/2311.16502

テーマ：GPT-4Vで画像認識は終わるのか大規模言語モデル（LLM）をはじめとした基盤モデルの波が画像認識分野にも波及し、マルチモーダル基盤モデルの時代を迎えつつあるマルチモーダル基盤モデルは高い性能と柔軟さを兼ね備え、今までの個別タスクによるベンチマーキングを覆すインパクトを与えつつある 5 1990年代画像処理計測・抽出の時代 2000年代
統計的パターン認識特徴量設計の時代 2010年代深層学習アーキテクチャ設計の時代第1回SSII（1995） ↓ 2020年代基盤モデル →次のトレンドは？第30回SSII（2024） ↓ GPT-4Vによって画像認識は終わるのか？どう変わるのか？

講演者紹介大規模言語モデルとVision & Languageのこれから • 栗田修平さん（国立情報学研究所）画像、その先へ～モーション解析への誘い～ •
藤原研人さん（LINEヤフー株式会社-大阪大学VHL）大規模言語モデルと基盤モデルの射程 • 大谷まゆさん（サイバーエージェント） 6

SSII2024 [OS2] GPT-4Vで画像認識は終わるのか（オープニング）

SSII2024 [OS2] GPT-4Vで画像認識は終わるのか（オープニング）

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Other Decks in Research

Featured

Transcript

GPT-4Vで画像認識は終わるのか 2024.6.13 八木拓真（産業技術総合研究所）

背景 NLP2023開催（23年3月）直前にChatGPTが登場、会期中に緊急パネルが開催 2 https://www.anlp.jp/nlp2023/pdf/NLP2023_0314_special_panel.pdf

3 タスクの要求回答形式の要求主題・商品内容の認識パネルの枚数の認識画像の見た目・物体の認識宣言的知識の参照画像から得られた情報を参照しての推論 GPT-4 Technical

画像認識からマルチモーダル理解へ MMMU [Yue+, CVPR’24]：専門知を要求する総合質問応答ベンチマーク 4 https://arxiv.org/abs/2311.16502

講演者紹介大規模言語モデルとVision & Languageのこれから • 栗田修平さん（国立情報学研究所）画像、その先へ～モーション解析への誘い～ •

SSII2024 [OS2] GPT-4Vで画像認識は終わるのか（オープニング）

SSII2024 [OS2] GPT-4Vで画像認識は終わるのか（オープニング）

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Other Decks in Research

Featured

Transcript

GPT-4Vで画像認識は終わるのか 2024.6.13 八木 拓真（産業技術総合研究所）

背景 NLP2023開催（23年3月）直前にChatGPTが登場、会期中に緊急パネルが開催 2 https://www.anlp.jp/nlp2023/pdf/NLP2023_0314_special_panel.pdf

3 タスクの要求 回答形式の要求 主題・商品内容の認識 パネルの枚数の認識 画像の見た目・物体の認識 宣言的知識の参照 画像から得られた情報を参照しての推論 GPT-4 Technical

画像認識からマルチモーダル理解へ MMMU [Yue+, CVPR’24]：専門知を要求する総合質問応答ベンチマーク 4 https://arxiv.org/abs/2311.16502

講演者紹介 大規模言語モデルとVision & Languageのこれから • 栗田 修平さん（国立情報学研究所） 画像、その先へ ～モーション解析への誘い～ •

GPT-4Vで画像認識は終わるのか 2024.6.13 八木拓真（産業技術総合研究所）

3 タスクの要求回答形式の要求主題・商品内容の認識パネルの枚数の認識画像の見た目・物体の認識宣言的知識の参照画像から得られた情報を参照しての推論 GPT-4 Technical

講演者紹介大規模言語モデルとVision & Languageのこれから • 栗田修平さん（国立情報学研究所）画像、その先へ～モーション解析への誘い～ •