Slide 1

Slide 1 text

動画像マルチモーダルLLMの現状 2023年12⽉1⽇ ISID Xイノベーション本部 AIトランスフォーメンションセンター 太⽥ 真⼈

Slide 2

Slide 2 text

おことわり • GPT-4Vの発表を受けて、現状のGPT-4Vの性能と応⽤例を論⽂調査しました。 • この資料は、部署メンバーのキャッチアップと事業部と⼀緒にビジネスの種を⾒つける ために作られました。 • 資料は作りこんでいませんので、詳しい内容は⼝頭で補⾜します。 • GPT-4Vは、動画像とテキストを⼊⼒にテキストを出⼒するモデルとします。 • 3Dに関しては調査対象外としています。 2

Slide 3

Slide 3 text

サマリー︓マルチモーダルLLMの出⼒について 動画像理解・分類・要約 セグメンテーション・検出 動画像⽣成・編集 GPT-4V Florence-2 LLaVA-plus GPT-4Vのツール利⽤ • 研究界隈は単⼀のLLMでCVタスクを完結させたい動きもある。 画像︓u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model 3

Slide 4

Slide 4 text

サマリー︓マルチモーダルLLMの⼊⼒について Azure GPT-4V Foundational Models Defining a New Era in Vision: A Survey and Outlook LLMの⼊⼒が多様になってきました 4

Slide 5

Slide 5 text

LLMの画像応⽤ まとめ Vision-LLMの研究動向では以下の傾向が⾒られた。 ・GPT-4Vを使った⾃動運転やOCRや医療などタスク特化な精度調査の研究 ・既存のCVタスクをマルチモダールLLMに組み込む研究 ・道具活⽤やコード⽣成から道具を新たに作る研究 ・GPT-4Vの課題に対して、データセットを作って特化型モデルを作る研究 5

Slide 6

Slide 6 text

LLMの動画応⽤ まとめ Video-LLMの研究動向では以下の傾向が⾒られた。 ・ビデオ理解(Video Understanding)の包括的な調査報告が出始めた ・タスク特化の調査報告はまだ少ない ・⾔語を介在した動画理解や検索のエラー分析をしていく必要がある 動画のGPT-4Vの活⽤や事例が増えていく︖ 6

Slide 7

Slide 7 text

LLM 画像への応⽤ 7

Slide 8

Slide 8 text

⽬次 • GPT-4Vでできること • GPT-4Vの応⽤例 • GPT-4Vの限界 • GPT-4Vの課題解決策 • GPT-4Vにできない画像の⽣成と編集 8

Slide 9

Slide 9 text

GPT-4Vでできること See 画像内のコンテキストを読み取る Think コンテキストに基づき思考できる Action テキスト出⼒に限る 9

Slide 10

Slide 10 text

GPT4-Vの応⽤⽅法 興味を持ったタスクの紹介 • GUIナビゲーション • 複数画像から推論 • 画像上で注⽬箇所を指⽰ • エンジニアリングAI系 • チャートの理解 10

Slide 11

Slide 11 text

応⽤①︓GUIナビゲーション GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation スクショに対して次のユーザーの⾏動を聞く 精度 50/55 = 90.9% 11

Slide 12

Slide 12 text

購⼊までのフローをタスク完 了できるか A. 難しい GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation メトリック︓エピソード中何ステップ正解したかの割合 9ステップ中6ステップが正しい挙動なら66.7% 最初から何⼿順まで進めたかではない ドメイン知識が必要 12

Slide 13

Slide 13 text

応⽤②︓複数画像から推論 On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving 時間遷移 異なる視点 異なる画⾯ 13

Slide 14

Slide 14 text

応⽤③︓画像上で注⽬箇所を指⽰ 画像の中で注⽬箇所を⽰すことで精度を向上できる。 The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 14

Slide 15

Slide 15 text

応⽤④︓エンジニアリングAI系 Evaluating Vision-Language Models for Engineering Design 15 有効的なケース ・デザイン・スケッチ分析 ・コンセプト・デザイン段階の⽀援 それ以外のタスクは精度不⾜ より特化型の解法が必要 精度不⾜ 精度不⾜ 有効ケース 精度不⾜

Slide 16

Slide 16 text

応⽤⑤︓チャートの理解 現状のGPT-4Vでは精度が低い 図表が読み取れると レポート作成の武器になる MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning 16

Slide 17

Slide 17 text

現状のGPT-4V の限界 • OCR • 中国語や韓国語、⽇本語は難しい • 表やグラフ • 空セルが多い、傾きがある、回転している、密に配置されていると苦⼿ • 座標⽣成 • 物体位置検出、セマンティックセグメンテーションは難しい • 画像の編集 • そもそもできない 17

Slide 18

Slide 18 text

OCRの限界 EXPLORING OCR CAPABILITIES OF GPT-4V(ISION) : A QUANTITATIVE AND IN-DEPTH EVALUATION • イメージサイズが⼩さいと精度は低い • 通常のOCRに⽐べ、精度は低い • ⾔語でも精度に差がある 18

Slide 19

Slide 19 text

表やグラフの限界 • 複雑な表(c)を⽂字起こししたり、htmlに変換するのも苦⼿ • グラフの読み取りも難しい • フローチャートも⽇本語だと難しい EXPLORING OCR CAPABILITIES OF GPT-4V(ISION) : A QUANTITATIVE AND IN-DEPTH EVALUATION The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 19

Slide 20

Slide 20 text

座標⽣成の限界 • 物体の位置を左右上下奥⾏きで把握はできる。(左) • 位置座標を⽣成するのは難しい。(右) The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 20

Slide 21

Slide 21 text

現状のGPT-4V の限界の解決策 OCR、表やグラフ、座標⽣成、画像の編集に対して • 外部ツールを活⽤する • 特化型モデルを作る 21

Slide 22

Slide 22 text

表やグラフ理解の解決策 • モデルの学習 • ファインチューニングでどこまでできるか • データセットは公開されている 22

Slide 23

Slide 23 text

画像の座標問題の解決策 • モデルの学習 • モデルの⼊⼒や出⼒に、座標情報の埋め込みベクトルを⽤意する。 • ⼿法名︓Florence-2、NExT-Chat、u-LLaVA • ツールを使う • ReAct アルゴリズムなどで、道具として外部ツールを呼び出す。 • ⼿法名︓MM-ReAct、UnifiedVisionGPT 、LLaVA-plus 23

Slide 24

Slide 24 text

画像の座標問題の解決策︓モデルの学習① Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks • 座標やピクセル値を⽣成するように学習する。 Florence-2はAzure AIが取り組んでいる。 24

Slide 25

Slide 25 text

どんなタスクがさらに解けるようになるのか • 領域やピクセルレベルで回答が得られる。 25

Slide 26

Slide 26 text

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks 26

Slide 27

Slide 27 text

画像の座標問題の解決策︓モデルの学習② NExT-Chat: An LMM for Chat, Detection and Segmentation エンべディングからbox, mask⽤のデコーダーを⽤意する。 異なる位置フォーマット(例︓バウンディングボックスやマスク)を会話に利⽤する。 27

Slide 28

Slide 28 text

どんなことができるようになるのか 28

Slide 29

Slide 29 text

画像の座標問題の解決策︓モデルの学習③ • 外部モジュールをデコーダーに⽤意する。 u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model 29

Slide 30

Slide 30 text

どんなことができるようになるのか u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model 30

Slide 31

Slide 31 text

画像の座標問題の解決策 • モデルの学習 • モデルの⼊⼒や出⼒に、座標情報の埋め込みベクトルを⽤意する。 • Florence-2、NExT-Chat、u-LLaVA • ツールを使う • ReAct アルゴリズムなどで、道具として外部ツールを呼び出す。 • MM-ReAct、 UnifiedVisionGPT 、LLaVA-plus 31

Slide 32

Slide 32 text

画像の座標問題の解決策︓ツールを使う① • MM-ReAct(Azure AI) • GPT-4VにAction Requestを考えてもらう。 • どのツールを使うのか、ワードを⽣成させる。 MM-REACT : Prompting ChatGPT for Multimodal Reasoning and Action 32

Slide 33

Slide 33 text

どのようなことができるのか 33

Slide 34

Slide 34 text

MM-REACT : Prompting ChatGPT for Multimodal Reasoning and Action 34

Slide 35

Slide 35 text

画像の座標問題の解決策︓ツールを使う② UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized Multimodal Framework UnifiedVisionGPT 様々なCVタスクを解くことに特化している 35

Slide 36

Slide 36 text

どのようなことができるのか 異常検知 複数のカエル検知 ⻩⾊の花検知 異なる動物のみ検出 UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized Multimodal Framework 36

Slide 37

Slide 37 text

• LLaVA-Plus • 使うツールは様々 画像の座標問題の解決策︓ツールを使う③ LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents 37

Slide 38

Slide 38 text

どのようなことができるのか LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents 38

Slide 39

Slide 39 text

具体的な結果 LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents 画像の編集 Semantic Seg 画像の編集 物体検知 39

Slide 40

Slide 40 text

現状のGPT-4V の限界の解決策 • OCR • 表やグラフ • 座標⽣成 • 画像の編集 40

Slide 41

Slide 41 text

別モデルやツールを使った画像の編集⽅法 画像の編集についてどういった⽅法でプロンプト指⽰をおこなうのか説明します。 テキスト指⽰ • 指⽰⽂で編集箇所を指摘 • 複数ターンで徐々に改善 画像から指⽰ • Few Shot の画像 • ペンなどで画像を編集 41

Slide 42

Slide 42 text

画像編集①︓指⽰⽂で画像の編集 GENOME: GENERATIVE NEURO-SYMBOLIC VISUAL REASONING BY GROWING AND REUSING MODULES 42

Slide 43

Slide 43 text

画像編集②︓複数ターンによる画像編集 https://idea2img.github.io/ 複数ラウンドに渡って⾃⼰改善し画像を編集 43

Slide 44

Slide 44 text

画像編集③︓画像のFewshotで画像編集 Unifying Image Processing as Visual Prompting Question Answering 44

Slide 45

Slide 45 text

画像編集④︓インタラクティブな画像編集 LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing ペンで変更箇所を指摘する。 45

Slide 46

Slide 46 text

LLMの画像応⽤ まとめ Vision-LLMの研究動向では以下の傾向が⾒られた。 ・GPT-4Vのタスク特化型で精度調査の研究 ・既存のCVタスクをマルチモダールLLMに組み込む研究 ・道具を活⽤する解決策やコード⽣成から道具を新たに作る研究 ・GPT-4Vができないことをデータセットを作って特化型モデルを作る研究 46

Slide 47

Slide 47 text

LLM 動画への応⽤ 47

Slide 48

Slide 48 text

⽬次 • Video-LLMの利⽤ユースケース • Video-LLMのタスク • Video QA • Video Summarization • Video Search • より最先端なタスク 48

Slide 49

Slide 49 text

Azure から動画の検索、プロンプト、VQAが提供開始 https://techcommunity.microsoft.com/t5/ai-azure-ai-services-blog/video-retrieval-gpt-4- turbo-with-vision-integrates-with-azure-to/ba-p/3982753 2023年11⽉ 動画をインプットにChatGPTと対話可能になり、動画の検索もAPI提供開始 どんなタスクが考えられるのか︖ 動画プロンプト 動画シーン検索 49

Slide 50

Slide 50 text

Video-LLMの利⽤ユースケース • Video Search • YouTube • Specialized archival sites • Enterprise video search tools • Video Classification • Contextual Advertising • Automated Video Editing • Sports Analysis • Content Moderation • Surveillance and Security • Video Clustering • video topic modeling • automatic video categorization • video content recommendation https://app.twelvelabs.io/blog/a-tour-of-video-understanding-use-cases • Video Description and Summarization • media and entertainment • e-commerce • education and training • marketing and advertising • social media platforms and content sharing websites • Video Question Answering • Customer Support • Educational Content • Interactive Media 50

Slide 51

Slide 51 text

⽬次 • Video-LLMの利⽤ユースケース • Video-LLMのタスク • Video QA • Video Summarization • Video Search • より最先端なタスク 51

Slide 52

Slide 52 text

Video-LLMのタスク • Video QA • アプリケーション︓対話型アシスタント • Video Summarization • アプリケーション︓過去の録画内容の管理 • Video Search • アプリケーション︓シーン検索、オブジェクト検索など https://socraticmodels.github.io/ 52

Slide 53

Slide 53 text

アプリケーション①︓対話型アシスタント • 料理の⽀援 • 点検作業の⽀援 • 申請の⽀援 https://socraticmodels.github.io/ 53

Slide 54

Slide 54 text

アプリケーション②︓過去の録画内容の管理 ⾃宅のカメラから1⽇を振り返るタスク - 要約やQAを活⽤ 場所が変われば応⽤は様々 ・医療介護、作業現場、オフィス、街 質問例 • Recall Reasoning • 今⽇運転したっけ︖ • Contextual Reasoning • なぜリビングルームに⾏ったんだっけ︖ • Temporal Reasoning • いつ最後に⼿を洗ったけ︖ • Subjective Reasoning • 今⽇はいい⽇だった︖ https://socraticmodels.github.io/ 54

Slide 55

Slide 55 text

関連︓ビデオ要約 https://socraticmodels.github.io/ 55

Slide 56

Slide 56 text

関連︓VQA 動画の概要について質問 そもそもVideo QAではどんな質問をするのか紹介します。 ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System 56

Slide 57

Slide 57 text

関連︓VQA 動画内の⼈物の動きについて質問 ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System 57

Slide 58

Slide 58 text

関連︓VQA 動画の⾳声情報について質問 ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System 58

Slide 59

Slide 59 text

関連︓VQA • MM-VIDはAzure AIか ら発表されています。 MM-VID : Advancing Video Understanding with GPT-4V(ision) 59

Slide 60

Slide 60 text

アプリケーション③︓ビデオ検索 Deep Learning for Video-Text Retrieval: a Review テキストで質問しビデオ検索 動画で質問しテキスト検索 60

Slide 61

Slide 61 text

ビデオから何を検索しますか https://docs.twelvelabs.io/docs • 別製品のAPI仕様から動向を探る • 検索対象を視覚的か動画中テキストか⾳声か 61

Slide 62

Slide 62 text

ビデオ検索 で何をインデックスにしますか https://docs.twelvelabs.io/docs 62

Slide 63

Slide 63 text

より最先端な応⽤ • Video Grounding • Audio Transcript • Image and Video input • Video Generator 63

Slide 64

Slide 64 text

応⽤①︓Video Grounding PG-Video-LLaVA: Pixel Grounding Large Video-Language Models • 質問⽂に対して、オブジェクトの座標またはピクセルレベルで出⼒する 64

Slide 65

Slide 65 text

応⽤②︓ With Audio Transcript PG-Video-LLaVA: Pixel Grounding Large Video-Language Models より詳細に より詳細に • 動画の⾳声情報が回答に良い影響を及ぼす 65

Slide 66

Slide 66 text

応⽤③︓ Image and Video input • 画像と動画の組でQA • 同⼀⼈物や特定のモノを探すなどで活⽤できそう︖ Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 66

Slide 67

Slide 67 text

応⽤④︓ Video Generator • Text2video • Image2video Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets 67

Slide 68

Slide 68 text

LLMの動画応⽤ まとめ Video-LLMの研究動向では以下の傾向が⾒られた。 ・ビデオ理解(Video Understanding)の包括的な調査報告が出始めた ・タスク特化の調査報告はまだ少ない ・⾔語を介在した動画理解や検索のエラー分析をしていく必要がある 動画のGPT-4Vの活⽤や事例が増えていくか 68