Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
Search
画像センシングシンポジウム
PRO
June 12, 2024
Research
1
790
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
画像センシングシンポジウム
PRO
June 12, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2025 [OS3] どの論文でもダメなんだけど! 〜実応用とその課題〜
ssii
PRO
2
1.6k
SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から
ssii
PRO
6
3.1k
SSII2025 [OS3-02] 広告における画像生成技術の実応用の現状
ssii
PRO
6
1.4k
SSII2025 [OS3-03] 有機ミニトマト農場におけるロボット開発と基礎研究
ssii
PRO
0
1.1k
SSII2025 [OS2-01] 自動運転の性能と共に進化するセンシングデバイス
ssii
PRO
2
2k
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
3
1.3k
SSII2025 [OS2] 新たなセンシングの潮流
ssii
PRO
1
670
SSII2025 [OS2-02] イベントカメラの研究紹介と可視光通信への応用
ssii
PRO
1
1.3k
SSII2025 [OS2-03] マルチ/ハイパースペクトル領域における高度な画像撮影および処理技術
ssii
PRO
2
1.3k
Other Decks in Research
See All in Research
[Devfest Incheon 2025] 모두를 위한 친절한 언어모델(LLM) 학습 가이드
beomi
2
1.4k
AWSの耐久性のあるRedis互換KVSのMemoryDBについての論文を読んでみた
bootjp
1
380
Can AI Generated Ambrotype Chain the Aura of Alternative Process? In SIGGRAPH Asia 2024 Art Papers
toremolo72
0
110
SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
satai
3
290
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
410
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
65
35k
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
bootjp
6
1.3k
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
15
18k
論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025
s_mizuki_nlp
0
360
snlp2025_prevent_llm_spikes
takase
0
420
若手研究者が国際会議(例えばIROS)でワークショップを企画するメリットと成功法!
tanichu
0
130
Open Gateway 5GC利用への期待と不安
stellarcraft
2
170
Featured
See All Featured
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.6k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.1k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
0
1.1k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
98
We Are The Robots
honzajavorek
0
130
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
420
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.1k
Tell your own story through comics
letsgokoyo
0
770
Speed Design
sergeychernyshev
33
1.5k
The SEO identity crisis: Don't let AI make you average
varn
0
42
Highjacked: Video Game Concept Design
rkendrick25
PRO
0
260
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
0
980
Transcript
SSII2024 大規模言語モデルと基盤モデルの射程 2024.6.13 大谷 まゆ(サイバーエージェント)
2 GPT-4Vで画像認識は終わるのか SSII2024 サイバーエージェント AI Lab 大谷まゆ • コンピュータビジョン研究のための評価方法に興味 •
デザイン制作支援、画像生成 • 経歴 ◦ 2018 – 現職 ◦ 2014 – 2018 修士・博士課程@NAIST
3 GPT-4Vで画像認識は終わるのか SSII2024 コンピュータビジョンの一般的な研究スタイル 手法開発 性能比較 論文が出版されたり プロダクトに採用されたり
4 GPT-4Vで画像認識は終わるのか SSII2024 評価方法はちゃんと役割を果たしている? 性能比較
5 GPT-4Vで画像認識は終わるのか SSII2024 映像要約のベンチマーク調査(CVPR’18) 要約の品質に関係なく評価値が決まるこ とを確認 ベンチマーク調査 ランダム化した要約 参照要約
6 GPT-4Vで画像認識は終わるのか SSII2024 シーン検索のベンチマーク調査 (BMVC’20) データセットに潜む偏りが評価結果に及ぼす 影響を調査 ベンチマーク調査 学習&推論時に映像を使わず SOTAに迫る
スコアが出ることを確認
7 GPT-4Vで画像認識は終わるのか SSII2024 現状技術の限界(の感覚)と評価結果のギャップ ベンチマークの違和感はどこに生じるか データの限界 手法の限界 ドメインシフト、データ量、クラス偏り...etc. 使える教師信号、扱える特徴...etc. 性能の概算:
扱えそうな問題はベンチマークの△△ %ぐらい? 成功率◯◯%
8 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 『コンピュータを使
う猫』
9 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強
力な特徴空間を獲得 言語モデルが多様な問題に有効 • 要約 • 翻訳 • 推論を伴う質問応答 • 雑談 • プログラミング • etc. 『a photo of siberian husky』 CLIPのzero-shot classifier https://openai.com/index/clip/
10 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強
力な特徴空間を獲得 『a photo of siberian husky』 CLIPのzero-shot classifier GPT4 Technical Report 強力な特徴空間の上での様々な操作がで きる可能性 特徴空間が獲得できれば多様な CV課題 が視覚言語モデルの射程に入る?
11 GPT-4Vで画像認識は終わるのか SSII2024 CVに残された課題は? データを集めにくい領域は扱えない→集めれば解決? 様々なモダリティへの対応→同様のアプローチが有効? ImageBind: One Embedding Space
To Bind Them All (CVPR’23)
12 GPT-4Vで画像認識は終わるのか SSII2024 • 多くの画像認識課題がGPT-4V的アプローチの射程圏に入る • 従来のCV問題の本質が「工学的な手法の探索」から「実用的リソース配分」に なる • 多くの課題がCVを卒業し、政治、思想、芸術の領域へ接続してゆく
GPT-4Vで画像認識は終わるのか?