Upgrade to Pro — share decks privately, control downloads, hide ads and more …

マルチモーダルLLMの応用動向の論文調査

masatoto
November 30, 2023

 マルチモーダルLLMの応用動向の論文調査

社内のテックトークで紹介しました。
論文内で議論しているマルチモーダルLLMの活用方法や課題などを紹介しています。
詳しいアルゴリズムの話はしていません。

masatoto

November 30, 2023
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. サマリー︓マルチモーダルLLMの⼊⼒について Azure GPT-4V Foundational Models Defining a New Era in

    Vision: A Survey and Outlook LLMの⼊⼒が多様になってきました 4
  2. 応⽤①︓GUIナビゲーション GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone

    GUI Navigation スクショに対して次のユーザーの⾏動を聞く 精度 50/55 = 90.9% 11
  3. 購⼊までのフローをタスク完 了できるか A. 難しい GPT-4V in Wonderland: Large Multimodal Models

    for Zero-Shot Smartphone GUI Navigation メトリック︓エピソード中何ステップ正解したかの割合 9ステップ中6ステップが正しい挙動なら66.7% 最初から何⼿順まで進めたかではない ドメイン知識が必要 12
  4. 応⽤②︓複数画像から推論 On the Road with GPT-4V(ision): Early Explorations of Visual-Language

    Model on Autonomous Driving 時間遷移 異なる視点 異なる画⾯ 13
  5. 応⽤④︓エンジニアリングAI系 Evaluating Vision-Language Models for Engineering Design 15 有効的なケース ・デザイン・スケッチ分析

    ・コンセプト・デザイン段階の⽀援 それ以外のタスクは精度不⾜ より特化型の解法が必要 精度不⾜ 精度不⾜ 有効ケース 精度不⾜
  6. 現状のGPT-4V の限界 • OCR • 中国語や韓国語、⽇本語は難しい • 表やグラフ • 空セルが多い、傾きがある、回転している、密に配置されていると苦⼿

    • 座標⽣成 • 物体位置検出、セマンティックセグメンテーションは難しい • 画像の編集 • そもそもできない 17
  7. OCRの限界 EXPLORING OCR CAPABILITIES OF GPT-4V(ISION) : A QUANTITATIVE AND

    IN-DEPTH EVALUATION • イメージサイズが⼩さいと精度は低い • 通常のOCRに⽐べ、精度は低い • ⾔語でも精度に差がある 18
  8. 画像の座標問題の解決策︓モデルの学習① Florence-2: Advancing a Unified Representation for a Variety of

    Vision Tasks • 座標やピクセル値を⽣成するように学習する。 Florence-2はAzure AIが取り組んでいる。 24
  9. 画像の座標問題の解決策︓モデルの学習② NExT-Chat: An LMM for Chat, Detection and Segmentation エンべディングからbox,

    mask⽤のデコーダーを⽤意する。 異なる位置フォーマット(例︓バウンディングボックスやマスク)を会話に利⽤する。 27
  10. 具体的な結果 LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

    画像の編集 Semantic Seg 画像の編集 物体検知 39
  11. ⽬次 • Video-LLMの利⽤ユースケース • Video-LLMのタスク • Video QA • Video

    Summarization • Video Search • より最先端なタスク 48
  12. Video-LLMの利⽤ユースケース • Video Search • YouTube • Specialized archival sites

    • Enterprise video search tools • Video Classification • Contextual Advertising • Automated Video Editing • Sports Analysis • Content Moderation • Surveillance and Security • Video Clustering • video topic modeling • automatic video categorization • video content recommendation https://app.twelvelabs.io/blog/a-tour-of-video-understanding-use-cases • Video Description and Summarization • media and entertainment • e-commerce • education and training • marketing and advertising • social media platforms and content sharing websites • Video Question Answering • Customer Support • Educational Content • Interactive Media 50
  13. ⽬次 • Video-LLMの利⽤ユースケース • Video-LLMのタスク • Video QA • Video

    Summarization • Video Search • より最先端なタスク 51
  14. Video-LLMのタスク • Video QA • アプリケーション︓対話型アシスタント • Video Summarization •

    アプリケーション︓過去の録画内容の管理 • Video Search • アプリケーション︓シーン検索、オブジェクト検索など https://socraticmodels.github.io/ 52
  15. アプリケーション②︓過去の録画内容の管理 ⾃宅のカメラから1⽇を振り返るタスク - 要約やQAを活⽤ 場所が変われば応⽤は様々 ・医療介護、作業現場、オフィス、街 質問例 • Recall Reasoning

    • 今⽇運転したっけ︖ • Contextual Reasoning • なぜリビングルームに⾏ったんだっけ︖ • Temporal Reasoning • いつ最後に⼿を洗ったけ︖ • Subjective Reasoning • 今⽇はいい⽇だった︖ https://socraticmodels.github.io/ 54
  16. 応⽤②︓ With Audio Transcript PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

    より詳細に より詳細に • 動画の⾳声情報が回答に良い影響を及ぼす 65
  17. 応⽤④︓ Video Generator • Text2video • Image2video Stable Video Diffusion:

    Scaling Latent Video Diffusion Models to Large Datasets 67