Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
画像センシングシンポジウム
PRO
June 12, 2024
Research
1.2k
1
Share
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
画像センシングシンポジウム
PRO
June 12, 2024
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜
ssii
PRO
0
430
SSII2026 [SS2] CADにおけるAI分野の動向と製造業 への実適⽤
ssii
PRO
1
620
SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~
ssii
PRO
0
340
SSII2026 [PT1] アクセラレーテッド・コンピューティングが切り拓く知能の最前線 ~生成AIからエージェンティックAI、そしてフィジカルAIへの進化~
ssii
PRO
0
400
SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開 〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜
ssii
PRO
0
370
SSII2026 [OS1] 計算機インフラどうしてる?
ssii
PRO
0
240
SSII2026 [OS1-1] 機械学習のための計算基盤の開発
ssii
PRO
0
250
SSII2026 [OS1-2] 学術クラウド基盤mdx IIの 設計と運用
ssii
PRO
0
220
SSII2026 [OS1-3] 実験室自動化を目指した 計算機との試行錯誤
ssii
PRO
0
190
Other Decks in Research
See All in Research
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
6
1.7k
2026年1月の生成AI領域の重要リリース&トピック解説
kajikent
0
1k
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
500
LLM の Attention 機構まとめ — 数式・計算量・メモリ
puwaer
7
2k
さくらインターネット研究所テックトーク2026春、研究開発Gr.25年度成果26年度方針
kikuzo
0
140
2026年度 生成AI を活用した論文執筆ガイド/ワークショップ / 2026 Academic Year Guide to Writing Papers Using Generative AI - Workshop
ks91
PRO
0
170
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
620
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
490
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2.2k
計算情報学研究室(数理情報学第7研究室)2026
tomohirokoana
0
510
重要だけど測れていないもの:高齢者ケアの見えない課題
theoriatec2024
0
320
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
220
Featured
See All Featured
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
200
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
200
ラッコキーワード サービス紹介資料
rakko
1
3.5M
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
400
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
We Have a Design System, Now What?
morganepeng
55
8.2k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
350
Transcript
GPT-4Vで画像認識は終わるのか 2024.6.13 八木 拓真(産業技術総合研究所)
背景 NLP2023開催(23年3月)直前にChatGPTが登場、会期中に緊急パネルが開催 2 https://www.anlp.jp/nlp2023/pdf/NLP2023_0314_special_panel.pdf
3 タスクの要求 回答形式の要求 主題・商品内容の認識 パネルの枚数の認識 画像の見た目・物体の認識 宣言的知識の参照 画像から得られた情報を参照しての推論 GPT-4 Technical
Report [OpenAI, ‘23] GPT-4Vは従来の画像認識タスクが 扱ってきた「見えるものを見る」を 超えた推論ができている
画像認識からマルチモーダル理解へ MMMU [Yue+, CVPR’24]:専門知を要求する総合質問応答ベンチマーク 4 https://arxiv.org/abs/2311.16502
テーマ:GPT-4Vで画像認識は終わるのか 大規模言語モデル(LLM)をはじめとした基盤モデルの波が画像認識分野にも 波及し、マルチモーダル基盤モデルの時代を迎えつつある マルチモーダル基盤モデルは高い性能と柔軟さを兼ね備え、 今までの個別タスクによるベンチマーキングを覆すインパクトを与えつつある 5 1990年代 画像処理 計測・抽出の時代 2000年代
統計的パターン認識 特徴量設計の時代 2010年代 深層学習 アーキテクチャ設計の時代 第1回SSII(1995) ↓ 2020年代 基盤モデル →次のトレンドは? 第30回SSII(2024) ↓ GPT-4Vによって画像認識は終わるのか?どう変わるのか?
講演者紹介 大規模言語モデルとVision & Languageのこれから • 栗田 修平さん(国立情報学研究所) 画像、その先へ ~モーション解析への誘い~ •
藤原 研人さん(LINEヤフー株式会社-大阪大学VHL) 大規模言語モデルと基盤モデルの射程 • 大谷 まゆさん(サイバーエージェント) 6