Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
画像センシングシンポジウム
PRO
June 12, 2024
Research
830
1
Share
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
画像センシングシンポジウム
PRO
June 12, 2024
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜
ssii
PRO
0
430
SSII2026 [SS2] CADにおけるAI分野の動向と製造業 への実適⽤
ssii
PRO
1
620
SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~
ssii
PRO
0
340
SSII2026 [PT1] アクセラレーテッド・コンピューティングが切り拓く知能の最前線 ~生成AIからエージェンティックAI、そしてフィジカルAIへの進化~
ssii
PRO
0
400
SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開 〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜
ssii
PRO
0
370
SSII2026 [OS1] 計算機インフラどうしてる?
ssii
PRO
0
240
SSII2026 [OS1-1] 機械学習のための計算基盤の開発
ssii
PRO
0
250
SSII2026 [OS1-2] 学術クラウド基盤mdx IIの 設計と運用
ssii
PRO
0
220
SSII2026 [OS1-3] 実験室自動化を目指した 計算機との試行錯誤
ssii
PRO
0
190
Other Decks in Research
See All in Research
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
290
「なんとなく」の顧客理解から脱却する ──顧客の解像度を武器にするインサイトマネジメント
tajima_kaho
10
7.6k
NLP colloquium: AI Safety Survey
kanekomasahiro
0
530
SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索
e869120_sub
6
3.4k
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2.2k
SAKURAONE:An Open Ethernet-based AI HPC System And Its Observed Workload Dynamicsin a Single-Tenant LLM Development Environment
yuukit
1
290
The mathematics of transformers
gpeyre
0
300
進学校の生徒にはア行の苗字が多いのか
ozekinote
0
420
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
340
LiDAR点群の地表面分類手法の比較・検証
vegapunkhiroshi79
0
110
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
280
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1.1k
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
42
3.1k
Design in an AI World
tapps
1
220
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
A Tale of Four Properties
chriscoyier
163
24k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
350
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
130
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
Agile that works and the tools we love
rasmusluckow
331
21k
Designing for humans not robots
tammielis
254
26k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
280
Joys of Absence: A Defence of Solitary Play
codingconduct
1
390
The Limits of Empathy - UXLibs8
cassininazir
1
350
Transcript
SSII2024 大規模言語モデルと基盤モデルの射程 2024.6.13 大谷 まゆ(サイバーエージェント)
2 GPT-4Vで画像認識は終わるのか SSII2024 サイバーエージェント AI Lab 大谷まゆ • コンピュータビジョン研究のための評価方法に興味 •
デザイン制作支援、画像生成 • 経歴 ◦ 2018 – 現職 ◦ 2014 – 2018 修士・博士課程@NAIST
3 GPT-4Vで画像認識は終わるのか SSII2024 コンピュータビジョンの一般的な研究スタイル 手法開発 性能比較 論文が出版されたり プロダクトに採用されたり
4 GPT-4Vで画像認識は終わるのか SSII2024 評価方法はちゃんと役割を果たしている? 性能比較
5 GPT-4Vで画像認識は終わるのか SSII2024 映像要約のベンチマーク調査(CVPR’18) 要約の品質に関係なく評価値が決まるこ とを確認 ベンチマーク調査 ランダム化した要約 参照要約
6 GPT-4Vで画像認識は終わるのか SSII2024 シーン検索のベンチマーク調査 (BMVC’20) データセットに潜む偏りが評価結果に及ぼす 影響を調査 ベンチマーク調査 学習&推論時に映像を使わず SOTAに迫る
スコアが出ることを確認
7 GPT-4Vで画像認識は終わるのか SSII2024 現状技術の限界(の感覚)と評価結果のギャップ ベンチマークの違和感はどこに生じるか データの限界 手法の限界 ドメインシフト、データ量、クラス偏り...etc. 使える教師信号、扱える特徴...etc. 性能の概算:
扱えそうな問題はベンチマークの△△ %ぐらい? 成功率◯◯%
8 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 『コンピュータを使
う猫』
9 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強
力な特徴空間を獲得 言語モデルが多様な問題に有効 • 要約 • 翻訳 • 推論を伴う質問応答 • 雑談 • プログラミング • etc. 『a photo of siberian husky』 CLIPのzero-shot classifier https://openai.com/index/clip/
10 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強
力な特徴空間を獲得 『a photo of siberian husky』 CLIPのzero-shot classifier GPT4 Technical Report 強力な特徴空間の上での様々な操作がで きる可能性 特徴空間が獲得できれば多様な CV課題 が視覚言語モデルの射程に入る?
11 GPT-4Vで画像認識は終わるのか SSII2024 CVに残された課題は? データを集めにくい領域は扱えない→集めれば解決? 様々なモダリティへの対応→同様のアプローチが有効? ImageBind: One Embedding Space
To Bind Them All (CVPR’23)
12 GPT-4Vで画像認識は終わるのか SSII2024 • 多くの画像認識課題がGPT-4V的アプローチの射程圏に入る • 従来のCV問題の本質が「工学的な手法の探索」から「実用的リソース配分」に なる • 多くの課題がCVを卒業し、政治、思想、芸術の領域へ接続してゆく
GPT-4Vで画像認識は終わるのか?