Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
Search
画像センシングシンポジウム
PRO
June 12, 2024
Research
1
1k
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
画像センシングシンポジウム
PRO
June 12, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2025 [OS3] どの論文でもダメなんだけど! 〜実応用とその課題〜
ssii
PRO
2
1k
SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から
ssii
PRO
6
2.2k
SSII2025 [OS3-02] 広告における画像生成技術の実応用の現状
ssii
PRO
5
1.2k
SSII2025 [OS3-03] 有機ミニトマト農場におけるロボット開発と基礎研究
ssii
PRO
0
910
SSII2025 [OS2-01] 自動運転の性能と共に進化するセンシングデバイス
ssii
PRO
2
1.7k
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.1k
SSII2025 [OS2] 新たなセンシングの潮流
ssii
PRO
1
530
SSII2025 [OS2-02] イベントカメラの研究紹介と可視光通信への応用
ssii
PRO
1
830
SSII2025 [OS2-03] マルチ/ハイパースペクトル領域における高度な画像撮影および処理技術
ssii
PRO
2
770
Other Decks in Research
See All in Research
時系列データに対する解釈可能な 決定木クラスタリング
mickey_kubo
2
670
(NULLCON Goa 2025)Windows Keylogger Detection: Targeting Past and Present Keylogging Techniques
asuna_jp
1
520
20250502_ABEJA_論文読み会_スライド
flatton
0
170
NLP2025 WS Shared Task 文法誤り訂正部門 ehiMetrick
sugiyamaseiji
0
190
Transparency to sustain open science infrastructure - Printemps Couperin
mlarrieu
1
170
VAGeo: View-specific Attention for Cross-View Object Geo-Localization
satai
3
370
プロシェアリング白書2025_PROSHARING_REPORT_2025
circulation
1
780
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
400
ノンパラメトリック分布表現を用いた位置尤度場周辺化によるRTK-GNSSの整数アンビギュイティ推定
aoki_nosse
0
320
SI-D案内資料_京都文教大学
ryojitakeuchi1116
0
1.6k
データサイエンティストの採用に関するアンケート
datascientistsociety
PRO
0
960
実行環境に中立なWebAssemblyライブマイグレーション機構/techtalk-2025spring
chikuwait
0
220
Featured
See All Featured
Facilitating Awesome Meetings
lara
54
6.4k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
43
2.4k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
4
200
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
It's Worth the Effort
3n
184
28k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.8k
The World Runs on Bad Software
bkeepers
PRO
68
11k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.6k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
124
52k
Adopting Sorbet at Scale
ufuk
77
9.4k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.8k
Transcript
GPT-4Vで画像認識は終わるのか 2024.6.13 八木 拓真(産業技術総合研究所)
背景 NLP2023開催(23年3月)直前にChatGPTが登場、会期中に緊急パネルが開催 2 https://www.anlp.jp/nlp2023/pdf/NLP2023_0314_special_panel.pdf
3 タスクの要求 回答形式の要求 主題・商品内容の認識 パネルの枚数の認識 画像の見た目・物体の認識 宣言的知識の参照 画像から得られた情報を参照しての推論 GPT-4 Technical
Report [OpenAI, ‘23] GPT-4Vは従来の画像認識タスクが 扱ってきた「見えるものを見る」を 超えた推論ができている
画像認識からマルチモーダル理解へ MMMU [Yue+, CVPR’24]:専門知を要求する総合質問応答ベンチマーク 4 https://arxiv.org/abs/2311.16502
テーマ:GPT-4Vで画像認識は終わるのか 大規模言語モデル(LLM)をはじめとした基盤モデルの波が画像認識分野にも 波及し、マルチモーダル基盤モデルの時代を迎えつつある マルチモーダル基盤モデルは高い性能と柔軟さを兼ね備え、 今までの個別タスクによるベンチマーキングを覆すインパクトを与えつつある 5 1990年代 画像処理 計測・抽出の時代 2000年代
統計的パターン認識 特徴量設計の時代 2010年代 深層学習 アーキテクチャ設計の時代 第1回SSII(1995) ↓ 2020年代 基盤モデル →次のトレンドは? 第30回SSII(2024) ↓ GPT-4Vによって画像認識は終わるのか?どう変わるのか?
講演者紹介 大規模言語モデルとVision & Languageのこれから • 栗田 修平さん(国立情報学研究所) 画像、その先へ ~モーション解析への誘い~ •
藤原 研人さん(LINEヤフー株式会社-大阪大学VHL) 大規模言語モデルと基盤モデルの射程 • 大谷 まゆさん(サイバーエージェント) 6