Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
画像センシングシンポジウム
PRO
June 12, 2024
Research
1.2k
1
Share
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
画像センシングシンポジウム
PRO
June 12, 2024
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜
ssii
PRO
0
440
SSII2026 [SS2] CADにおけるAI分野の動向と製造業 への実適⽤
ssii
PRO
1
650
SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~
ssii
PRO
0
340
SSII2026 [PT1] アクセラレーテッド・コンピューティングが切り拓く知能の最前線 ~生成AIからエージェンティックAI、そしてフィジカルAIへの進化~
ssii
PRO
0
410
SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開 〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜
ssii
PRO
0
390
SSII2026 [OS1] 計算機インフラどうしてる?
ssii
PRO
0
240
SSII2026 [OS1-1] 機械学習のための計算基盤の開発
ssii
PRO
0
250
SSII2026 [OS1-2] 学術クラウド基盤mdx IIの 設計と運用
ssii
PRO
0
220
SSII2026 [OS1-3] 実験室自動化を目指した 計算機との試行錯誤
ssii
PRO
0
200
Other Decks in Research
See All in Research
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
290
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
490
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
240
SOTAのさらに先へ:厳しい推論制約下での高性能モデルのPost-Training
analokmaus
0
1.2k
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
190
LLMアプリケーションの透明性について
fufufukakaka
0
230
計算情報学研究室(数理情報学第7研究室)2026
tomohirokoana
0
510
Using our influence and power for patient safety
helenbevan
0
360
R&Dチームを起ち上げる
shibuiwilliam
1
260
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
510
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1.1k
コーディングエージェントとABNを再考
hf149
2
700
Featured
See All Featured
The browser strikes back
jonoalderson
0
1.1k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
340
Visualization
eitanlees
152
17k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.3k
ラッコキーワード サービス紹介資料
rakko
1
3.5M
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
830
Six Lessons from altMBA
skipperchong
29
4.3k
Being A Developer After 40
akosma
91
590k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.6k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
Transcript
GPT-4Vで画像認識は終わるのか 2024.6.13 八木 拓真(産業技術総合研究所)
背景 NLP2023開催(23年3月)直前にChatGPTが登場、会期中に緊急パネルが開催 2 https://www.anlp.jp/nlp2023/pdf/NLP2023_0314_special_panel.pdf
3 タスクの要求 回答形式の要求 主題・商品内容の認識 パネルの枚数の認識 画像の見た目・物体の認識 宣言的知識の参照 画像から得られた情報を参照しての推論 GPT-4 Technical
Report [OpenAI, ‘23] GPT-4Vは従来の画像認識タスクが 扱ってきた「見えるものを見る」を 超えた推論ができている
画像認識からマルチモーダル理解へ MMMU [Yue+, CVPR’24]:専門知を要求する総合質問応答ベンチマーク 4 https://arxiv.org/abs/2311.16502
テーマ:GPT-4Vで画像認識は終わるのか 大規模言語モデル(LLM)をはじめとした基盤モデルの波が画像認識分野にも 波及し、マルチモーダル基盤モデルの時代を迎えつつある マルチモーダル基盤モデルは高い性能と柔軟さを兼ね備え、 今までの個別タスクによるベンチマーキングを覆すインパクトを与えつつある 5 1990年代 画像処理 計測・抽出の時代 2000年代
統計的パターン認識 特徴量設計の時代 2010年代 深層学習 アーキテクチャ設計の時代 第1回SSII(1995) ↓ 2020年代 基盤モデル →次のトレンドは? 第30回SSII(2024) ↓ GPT-4Vによって画像認識は終わるのか?どう変わるのか?
講演者紹介 大規模言語モデルとVision & Languageのこれから • 栗田 修平さん(国立情報学研究所) 画像、その先へ ~モーション解析への誘い~ •
藤原 研人さん(LINEヤフー株式会社-大阪大学VHL) 大規模言語モデルと基盤モデルの射程 • 大谷 まゆさん(サイバーエージェント) 6