サマリー︓マルチモーダルLLMの出⼒について
動画像理解・分類・要約 セグメンテーション・検出 動画像⽣成・編集
GPT-4V
Florence-2
LLaVA-plus
GPT-4Vのツール利⽤
• 研究界隈は単⼀のLLMでCVタスクを完結させたい動きもある。
画像︓u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model
3
Slide 4
Slide 4 text
サマリー︓マルチモーダルLLMの⼊⼒について
Azure GPT-4V
Foundational Models Defining a New Era in Vision: A Survey and Outlook
LLMの⼊⼒が多様になってきました
4
応⽤①︓GUIナビゲーション
GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
スクショに対して次のユーザーの⾏動を聞く 精度 50/55 = 90.9%
11
Slide 12
Slide 12 text
購⼊までのフローをタスク完
了できるか A. 難しい
GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
メトリック︓エピソード中何ステップ正解したかの割合
9ステップ中6ステップが正しい挙動なら66.7%
最初から何⼿順まで進めたかではない
ドメイン知識が必要
12
Slide 13
Slide 13 text
応⽤②︓複数画像から推論
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
時間遷移
異なる視点 異なる画⾯
13
Slide 14
Slide 14 text
応⽤③︓画像上で注⽬箇所を指⽰
画像の中で注⽬箇所を⽰すことで精度を向上できる。
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
14
OCRの限界
EXPLORING OCR CAPABILITIES OF GPT-4V(ISION) : A QUANTITATIVE AND IN-DEPTH EVALUATION
• イメージサイズが⼩さいと精度は低い
• 通常のOCRに⽐べ、精度は低い
• ⾔語でも精度に差がある
18
Slide 19
Slide 19 text
表やグラフの限界
• 複雑な表(c)を⽂字起こししたり、htmlに変換するのも苦⼿
• グラフの読み取りも難しい
• フローチャートも⽇本語だと難しい
EXPLORING OCR CAPABILITIES OF GPT-4V(ISION) : A QUANTITATIVE AND IN-DEPTH EVALUATION
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
19
Slide 20
Slide 20 text
座標⽣成の限界
• 物体の位置を左右上下奥⾏きで把握はできる。(左)
• 位置座標を⽣成するのは難しい。(右)
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
20
画像の座標問題の解決策︓モデルの学習①
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
• 座標やピクセル値を⽣成するように学習する。 Florence-2はAzure AIが取り組んでいる。
24
Slide 25
Slide 25 text
どんなタスクがさらに解けるようになるのか
• 領域やピクセルレベルで回答が得られる。
25
Slide 26
Slide 26 text
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
26
Slide 27
Slide 27 text
画像の座標問題の解決策︓モデルの学習②
NExT-Chat: An LMM for Chat, Detection and Segmentation
エンべディングからbox, mask⽤のデコーダーを⽤意する。
異なる位置フォーマット(例︓バウンディングボックスやマスク)を会話に利⽤する。
27
Slide 28
Slide 28 text
どんなことができるようになるのか
28
Slide 29
Slide 29 text
画像の座標問題の解決策︓モデルの学習③
• 外部モジュールをデコーダーに⽤意する。
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model
29
Slide 30
Slide 30 text
どんなことができるようになるのか
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model
30
Video-LLMの利⽤ユースケース
• Video Search
• YouTube
• Specialized archival sites
• Enterprise video search tools
• Video Classification
• Contextual Advertising
• Automated Video Editing
• Sports Analysis
• Content Moderation
• Surveillance and Security
• Video Clustering
• video topic modeling
• automatic video categorization
• video content recommendation
https://app.twelvelabs.io/blog/a-tour-of-video-understanding-use-cases
• Video Description and Summarization
• media and entertainment
• e-commerce
• education and training
• marketing and advertising
• social media platforms and content sharing websites
• Video Question Answering
• Customer Support
• Educational Content
• Interactive Media
50
Slide 51
Slide 51 text
⽬次
• Video-LLMの利⽤ユースケース
• Video-LLMのタスク
• Video QA
• Video Summarization
• Video Search
• より最先端なタスク
51
Slide 52
Slide 52 text
Video-LLMのタスク
• Video QA
• アプリケーション︓対話型アシスタント
• Video Summarization
• アプリケーション︓過去の録画内容の管理
• Video Search
• アプリケーション︓シーン検索、オブジェクト検索など
https://socraticmodels.github.io/
52