Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
Search
画像センシングシンポジウム
PRO
June 12, 2024
Research
0
510
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
画像センシングシンポジウム
PRO
June 12, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2024 [OS1] 自動運転における 重要技術とトレンド紹介
ssii
PRO
0
720
SSII2024 [PD] SSIIアナザーストーリーズ
ssii
PRO
0
210
SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
ssii
PRO
3
2.1k
SSII2024 [OS1] 現場の課題を解決する ロボットラーニング
ssii
PRO
0
610
SSII2024 [OS1] 画像認識におけるモデル・データの共進化
ssii
PRO
0
520
SSII2024 [OS1] 研究紹介100連発(オープンニング)
ssii
PRO
0
520
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.2k
SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから
ssii
PRO
5
1.5k
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
ssii
PRO
0
810
Other Decks in Research
See All in Research
第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps Book Chapter 11
upura
0
330
熊本から日本の都市交通政策を立て直す~「車1割削減、渋滞半減、公共交通2倍」の実現へ~@公共交通マーケティング研究会リスタートセミナー
trafficbrain
0
120
最近のVisual Odometryと Depth Estimation
sgk
1
260
ミニ四駆AI用制御装置の事例紹介
aks3g
0
160
[2024.08.30] Gemma-Ko, 오픈 언어모델에 한국어 입히기 @ 머신러닝부트캠프2024
beomi
0
650
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
100
MetricSifter:クラウドアプリケーションにおける故障箇所特定の効率化のための多変量時系列データの特徴量削減 / FIT 2024
yuukit
2
110
129 2 th
0325
0
170
SNLP2024:Planning Like Human: A Dual-process Framework for Dialogue Planning
yukizenimoto
1
310
Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences
sgk
1
300
秘伝:脆弱性診断をうまく活用してセキュリティを確保するには
okdt
PRO
3
730
クラウドソーシングによる学習データ作成と品質管理(セキュリティキャンプ2024全国大会D2講義資料)
takumi1001
0
250
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
38
7k
Building Your Own Lightsaber
phodgson
102
6k
Embracing the Ebb and Flow
colly
84
4.4k
Navigating Team Friction
lara
183
14k
It's Worth the Effort
3n
183
27k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Fontdeck: Realign not Redesign
paulrobertlloyd
81
5.2k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
664
120k
Happy Clients
brianwarren
97
6.7k
The Art of Programming - Codeland 2020
erikaheidi
51
13k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Reflections from 52 weeks, 52 projects
jeffersonlam
346
20k
Transcript
SSII2024 大規模言語モデルと基盤モデルの射程 2024.6.13 大谷 まゆ(サイバーエージェント)
2 GPT-4Vで画像認識は終わるのか SSII2024 サイバーエージェント AI Lab 大谷まゆ • コンピュータビジョン研究のための評価方法に興味 •
デザイン制作支援、画像生成 • 経歴 ◦ 2018 – 現職 ◦ 2014 – 2018 修士・博士課程@NAIST
3 GPT-4Vで画像認識は終わるのか SSII2024 コンピュータビジョンの一般的な研究スタイル 手法開発 性能比較 論文が出版されたり プロダクトに採用されたり
4 GPT-4Vで画像認識は終わるのか SSII2024 評価方法はちゃんと役割を果たしている? 性能比較
5 GPT-4Vで画像認識は終わるのか SSII2024 映像要約のベンチマーク調査(CVPR’18) 要約の品質に関係なく評価値が決まるこ とを確認 ベンチマーク調査 ランダム化した要約 参照要約
6 GPT-4Vで画像認識は終わるのか SSII2024 シーン検索のベンチマーク調査 (BMVC’20) データセットに潜む偏りが評価結果に及ぼす 影響を調査 ベンチマーク調査 学習&推論時に映像を使わず SOTAに迫る
スコアが出ることを確認
7 GPT-4Vで画像認識は終わるのか SSII2024 現状技術の限界(の感覚)と評価結果のギャップ ベンチマークの違和感はどこに生じるか データの限界 手法の限界 ドメインシフト、データ量、クラス偏り...etc. 使える教師信号、扱える特徴...etc. 性能の概算:
扱えそうな問題はベンチマークの△△ %ぐらい? 成功率◯◯%
8 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 『コンピュータを使
う猫』
9 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強
力な特徴空間を獲得 言語モデルが多様な問題に有効 • 要約 • 翻訳 • 推論を伴う質問応答 • 雑談 • プログラミング • etc. 『a photo of siberian husky』 CLIPのzero-shot classifier https://openai.com/index/clip/
10 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強
力な特徴空間を獲得 『a photo of siberian husky』 CLIPのzero-shot classifier GPT4 Technical Report 強力な特徴空間の上での様々な操作がで きる可能性 特徴空間が獲得できれば多様な CV課題 が視覚言語モデルの射程に入る?
11 GPT-4Vで画像認識は終わるのか SSII2024 CVに残された課題は? データを集めにくい領域は扱えない→集めれば解決? 様々なモダリティへの対応→同様のアプローチが有効? ImageBind: One Embedding Space
To Bind Them All (CVPR’23)
12 GPT-4Vで画像認識は終わるのか SSII2024 • 多くの画像認識課題がGPT-4V的アプローチの射程圏に入る • 従来のCV問題の本質が「工学的な手法の探索」から「実用的リソース配分」に なる • 多くの課題がCVを卒業し、政治、思想、芸術の領域へ接続してゆく
GPT-4Vで画像認識は終わるのか?