Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
Search
画像センシングシンポジウム
PRO
June 12, 2024
Research
0
500
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
画像センシングシンポジウム
PRO
June 12, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2024 [OS1] 自動運転における 重要技術とトレンド紹介
ssii
PRO
0
700
SSII2024 [PD] SSIIアナザーストーリーズ
ssii
PRO
0
200
SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
ssii
PRO
3
2k
SSII2024 [OS1] 現場の課題を解決する ロボットラーニング
ssii
PRO
0
580
SSII2024 [OS1] 画像認識におけるモデル・データの共進化
ssii
PRO
0
510
SSII2024 [OS1] 研究紹介100連発(オープンニング)
ssii
PRO
0
500
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.2k
SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから
ssii
PRO
5
1.4k
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
ssii
PRO
0
800
Other Decks in Research
See All in Research
The Fellowship of Trust in AI
tomzimmermann
0
110
Weekly AI Agents News! 8月号 プロダクト/ニュースのアーカイブ
masatoto
1
170
ICLR2024: Reading "Training Unbiased Diffusion Models From Biased Dataset"
hotekagi
0
100
テキストマイニングことはじめー基本的な考え方からメディアディスコース研究への応用まで
langstat
1
110
初めての研究発表を成功させよう! スライド作成の基本
ayaco0
11
4.6k
「確率的なオウム」にできること、またそれがなぜできるのかについて
eumesy
PRO
7
3k
第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps Book Chapter 11
upura
0
320
Weekly AI Agents News! 6月号 論文のアーカイブ
masatoto
1
180
"多様な推薦"はユーザーの目にどう映るか
kuri8ive
3
400
[CV勉強会@関東 CVPR2024] Visual Layout Composer: Image-Vector Dual Diffusion Model for Design Layout Generation / kantocv 61th CVPR 2024
shunk031
1
390
Weekly AI Agents News!
masatoto
22
21k
Generative Predictive Model for Autonomous Driving 第61回 コンピュータビジョン勉強会@関東 (後編)
kentosasaki
0
180
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
325
23k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
43
6.6k
Statistics for Hackers
jakevdp
796
220k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
Learning to Love Humans: Emotional Interface Design
aarron
272
40k
Rails Girls Zürich Keynote
gr2m
93
13k
Building Your Own Lightsaber
phodgson
102
6k
RailsConf 2023
tenderlove
28
870
Embracing the Ebb and Flow
colly
84
4.4k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
41
9.2k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
ReactJS: Keep Simple. Everything can be a component!
pedronauck
664
120k
Transcript
SSII2024 大規模言語モデルと基盤モデルの射程 2024.6.13 大谷 まゆ(サイバーエージェント)
2 GPT-4Vで画像認識は終わるのか SSII2024 サイバーエージェント AI Lab 大谷まゆ • コンピュータビジョン研究のための評価方法に興味 •
デザイン制作支援、画像生成 • 経歴 ◦ 2018 – 現職 ◦ 2014 – 2018 修士・博士課程@NAIST
3 GPT-4Vで画像認識は終わるのか SSII2024 コンピュータビジョンの一般的な研究スタイル 手法開発 性能比較 論文が出版されたり プロダクトに採用されたり
4 GPT-4Vで画像認識は終わるのか SSII2024 評価方法はちゃんと役割を果たしている? 性能比較
5 GPT-4Vで画像認識は終わるのか SSII2024 映像要約のベンチマーク調査(CVPR’18) 要約の品質に関係なく評価値が決まるこ とを確認 ベンチマーク調査 ランダム化した要約 参照要約
6 GPT-4Vで画像認識は終わるのか SSII2024 シーン検索のベンチマーク調査 (BMVC’20) データセットに潜む偏りが評価結果に及ぼす 影響を調査 ベンチマーク調査 学習&推論時に映像を使わず SOTAに迫る
スコアが出ることを確認
7 GPT-4Vで画像認識は終わるのか SSII2024 現状技術の限界(の感覚)と評価結果のギャップ ベンチマークの違和感はどこに生じるか データの限界 手法の限界 ドメインシフト、データ量、クラス偏り...etc. 使える教師信号、扱える特徴...etc. 性能の概算:
扱えそうな問題はベンチマークの△△ %ぐらい? 成功率◯◯%
8 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 『コンピュータを使
う猫』
9 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強
力な特徴空間を獲得 言語モデルが多様な問題に有効 • 要約 • 翻訳 • 推論を伴う質問応答 • 雑談 • プログラミング • etc. 『a photo of siberian husky』 CLIPのzero-shot classifier https://openai.com/index/clip/
10 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強
力な特徴空間を獲得 『a photo of siberian husky』 CLIPのzero-shot classifier GPT4 Technical Report 強力な特徴空間の上での様々な操作がで きる可能性 特徴空間が獲得できれば多様な CV課題 が視覚言語モデルの射程に入る?
11 GPT-4Vで画像認識は終わるのか SSII2024 CVに残された課題は? データを集めにくい領域は扱えない→集めれば解決? 様々なモダリティへの対応→同様のアプローチが有効? ImageBind: One Embedding Space
To Bind Them All (CVPR’23)
12 GPT-4Vで画像認識は終わるのか SSII2024 • 多くの画像認識課題がGPT-4V的アプローチの射程圏に入る • 従来のCV問題の本質が「工学的な手法の探索」から「実用的リソース配分」に なる • 多くの課題がCVを卒業し、政治、思想、芸術の領域へ接続してゆく
GPT-4Vで画像認識は終わるのか?