Upgrade to Pro — share decks privately, control downloads, hide ads and more …

マルチモーダルLLMの応用動向の論文調査

masatoto
November 30, 2023

 マルチモーダルLLMの応用動向の論文調査

社内のテックトークで紹介しました。
論文内で議論しているマルチモーダルLLMの活用方法や課題などを紹介しています。
詳しいアルゴリズムの話はしていません。

masatoto

November 30, 2023
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 動画像マルチモーダルLLMの現状
    2023年12⽉1⽇
    ISID Xイノベーション本部 AIトランスフォーメンションセンター
    太⽥ 真⼈

    View full-size slide

  2. おことわり
    • GPT-4Vの発表を受けて、現状のGPT-4Vの性能と応⽤例を論⽂調査しました。
    • この資料は、部署メンバーのキャッチアップと事業部と⼀緒にビジネスの種を⾒つける
    ために作られました。
    • 資料は作りこんでいませんので、詳しい内容は⼝頭で補⾜します。
    • GPT-4Vは、動画像とテキストを⼊⼒にテキストを出⼒するモデルとします。
    • 3Dに関しては調査対象外としています。
    2

    View full-size slide

  3. サマリー︓マルチモーダルLLMの出⼒について
    動画像理解・分類・要約 セグメンテーション・検出 動画像⽣成・編集
    GPT-4V
    Florence-2
    LLaVA-plus
    GPT-4Vのツール利⽤
    • 研究界隈は単⼀のLLMでCVタスクを完結させたい動きもある。
    画像︓u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model
    3

    View full-size slide

  4. サマリー︓マルチモーダルLLMの⼊⼒について
    Azure GPT-4V
    Foundational Models Defining a New Era in Vision: A Survey and Outlook
    LLMの⼊⼒が多様になってきました
    4

    View full-size slide

  5. LLMの画像応⽤ まとめ
    Vision-LLMの研究動向では以下の傾向が⾒られた。
    ・GPT-4Vを使った⾃動運転やOCRや医療などタスク特化な精度調査の研究
    ・既存のCVタスクをマルチモダールLLMに組み込む研究
    ・道具活⽤やコード⽣成から道具を新たに作る研究
    ・GPT-4Vの課題に対して、データセットを作って特化型モデルを作る研究
    5

    View full-size slide

  6. LLMの動画応⽤ まとめ
    Video-LLMの研究動向では以下の傾向が⾒られた。
    ・ビデオ理解(Video Understanding)の包括的な調査報告が出始めた
    ・タスク特化の調査報告はまだ少ない
    ・⾔語を介在した動画理解や検索のエラー分析をしていく必要がある
    動画のGPT-4Vの活⽤や事例が増えていく︖
    6

    View full-size slide

  7. LLM 画像への応⽤
    7

    View full-size slide

  8. ⽬次
    • GPT-4Vでできること
    • GPT-4Vの応⽤例
    • GPT-4Vの限界
    • GPT-4Vの課題解決策
    • GPT-4Vにできない画像の⽣成と編集
    8

    View full-size slide

  9. GPT-4Vでできること
    See 画像内のコンテキストを読み取る
    Think コンテキストに基づき思考できる
    Action テキスト出⼒に限る
    9

    View full-size slide

  10. GPT4-Vの応⽤⽅法
    興味を持ったタスクの紹介
    • GUIナビゲーション
    • 複数画像から推論
    • 画像上で注⽬箇所を指⽰
    • エンジニアリングAI系
    • チャートの理解
    10

    View full-size slide

  11. 応⽤①︓GUIナビゲーション
    GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
    スクショに対して次のユーザーの⾏動を聞く 精度 50/55 = 90.9%
    11

    View full-size slide

  12. 購⼊までのフローをタスク完
    了できるか A. 難しい
    GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
    メトリック︓エピソード中何ステップ正解したかの割合
    9ステップ中6ステップが正しい挙動なら66.7%
    最初から何⼿順まで進めたかではない
    ドメイン知識が必要
    12

    View full-size slide

  13. 応⽤②︓複数画像から推論
    On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
    時間遷移
    異なる視点 異なる画⾯
    13

    View full-size slide

  14. 応⽤③︓画像上で注⽬箇所を指⽰
    画像の中で注⽬箇所を⽰すことで精度を向上できる。
    The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
    14

    View full-size slide

  15. 応⽤④︓エンジニアリングAI系
    Evaluating Vision-Language Models for Engineering Design
    15
    有効的なケース
    ・デザイン・スケッチ分析
    ・コンセプト・デザイン段階の⽀援
    それ以外のタスクは精度不⾜
    より特化型の解法が必要
    精度不⾜
    精度不⾜
    有効ケース
    精度不⾜

    View full-size slide

  16. 応⽤⑤︓チャートの理解
    現状のGPT-4Vでは精度が低い
    図表が読み取れると
    レポート作成の武器になる
    MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning
    16

    View full-size slide

  17. 現状のGPT-4V の限界
    • OCR
    • 中国語や韓国語、⽇本語は難しい
    • 表やグラフ
    • 空セルが多い、傾きがある、回転している、密に配置されていると苦⼿
    • 座標⽣成
    • 物体位置検出、セマンティックセグメンテーションは難しい
    • 画像の編集
    • そもそもできない
    17

    View full-size slide

  18. OCRの限界
    EXPLORING OCR CAPABILITIES OF GPT-4V(ISION) : A QUANTITATIVE AND IN-DEPTH EVALUATION
    • イメージサイズが⼩さいと精度は低い
    • 通常のOCRに⽐べ、精度は低い
    • ⾔語でも精度に差がある
    18

    View full-size slide

  19. 表やグラフの限界
    • 複雑な表(c)を⽂字起こししたり、htmlに変換するのも苦⼿
    • グラフの読み取りも難しい
    • フローチャートも⽇本語だと難しい
    EXPLORING OCR CAPABILITIES OF GPT-4V(ISION) : A QUANTITATIVE AND IN-DEPTH EVALUATION
    The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
    19

    View full-size slide

  20. 座標⽣成の限界
    • 物体の位置を左右上下奥⾏きで把握はできる。(左)
    • 位置座標を⽣成するのは難しい。(右)
    The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
    20

    View full-size slide

  21. 現状のGPT-4V の限界の解決策
    OCR、表やグラフ、座標⽣成、画像の編集に対して
    • 外部ツールを活⽤する
    • 特化型モデルを作る
    21

    View full-size slide

  22. 表やグラフ理解の解決策
    • モデルの学習
    • ファインチューニングでどこまでできるか
    • データセットは公開されている
    22

    View full-size slide

  23. 画像の座標問題の解決策
    • モデルの学習
    • モデルの⼊⼒や出⼒に、座標情報の埋め込みベクトルを⽤意する。
    • ⼿法名︓Florence-2、NExT-Chat、u-LLaVA
    • ツールを使う
    • ReAct アルゴリズムなどで、道具として外部ツールを呼び出す。
    • ⼿法名︓MM-ReAct、UnifiedVisionGPT 、LLaVA-plus
    23

    View full-size slide

  24. 画像の座標問題の解決策︓モデルの学習①
    Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
    • 座標やピクセル値を⽣成するように学習する。 Florence-2はAzure AIが取り組んでいる。
    24

    View full-size slide

  25. どんなタスクがさらに解けるようになるのか
    • 領域やピクセルレベルで回答が得られる。
    25

    View full-size slide

  26. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
    26

    View full-size slide

  27. 画像の座標問題の解決策︓モデルの学習②
    NExT-Chat: An LMM for Chat, Detection and Segmentation
    エンべディングからbox, mask⽤のデコーダーを⽤意する。
    異なる位置フォーマット(例︓バウンディングボックスやマスク)を会話に利⽤する。
    27

    View full-size slide

  28. どんなことができるようになるのか
    28

    View full-size slide

  29. 画像の座標問題の解決策︓モデルの学習③
    • 外部モジュールをデコーダーに⽤意する。
    u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model
    29

    View full-size slide

  30. どんなことができるようになるのか
    u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model
    30

    View full-size slide

  31. 画像の座標問題の解決策
    • モデルの学習
    • モデルの⼊⼒や出⼒に、座標情報の埋め込みベクトルを⽤意する。
    • Florence-2、NExT-Chat、u-LLaVA
    • ツールを使う
    • ReAct アルゴリズムなどで、道具として外部ツールを呼び出す。
    • MM-ReAct、 UnifiedVisionGPT 、LLaVA-plus
    31

    View full-size slide

  32. 画像の座標問題の解決策︓ツールを使う①
    • MM-ReAct(Azure AI)
    • GPT-4VにAction Requestを考えてもらう。
    • どのツールを使うのか、ワードを⽣成させる。
    MM-REACT : Prompting ChatGPT for Multimodal Reasoning and Action 32

    View full-size slide

  33. どのようなことができるのか
    33

    View full-size slide

  34. MM-REACT : Prompting ChatGPT for Multimodal Reasoning and Action
    34

    View full-size slide

  35. 画像の座標問題の解決策︓ツールを使う②
    UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized Multimodal Framework
    UnifiedVisionGPT
    様々なCVタスクを解くことに特化している
    35

    View full-size slide

  36. どのようなことができるのか
    異常検知
    複数のカエル検知
    ⻩⾊の花検知
    異なる動物のみ検出
    UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized Multimodal Framework
    36

    View full-size slide

  37. • LLaVA-Plus
    • 使うツールは様々
    画像の座標問題の解決策︓ツールを使う③
    LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
    37

    View full-size slide

  38. どのようなことができるのか
    LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
    38

    View full-size slide

  39. 具体的な結果
    LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
    画像の編集
    Semantic Seg
    画像の編集
    物体検知
    39

    View full-size slide

  40. 現状のGPT-4V の限界の解決策
    • OCR
    • 表やグラフ
    • 座標⽣成
    • 画像の編集
    40

    View full-size slide

  41. 別モデルやツールを使った画像の編集⽅法
    画像の編集についてどういった⽅法でプロンプト指⽰をおこなうのか説明します。
    テキスト指⽰
    • 指⽰⽂で編集箇所を指摘
    • 複数ターンで徐々に改善
    画像から指⽰
    • Few Shot の画像
    • ペンなどで画像を編集
    41

    View full-size slide

  42. 画像編集①︓指⽰⽂で画像の編集
    GENOME: GENERATIVE NEURO-SYMBOLIC VISUAL REASONING BY GROWING AND REUSING MODULES
    42

    View full-size slide

  43. 画像編集②︓複数ターンによる画像編集
    https://idea2img.github.io/
    複数ラウンドに渡って⾃⼰改善し画像を編集
    43

    View full-size slide

  44. 画像編集③︓画像のFewshotで画像編集
    Unifying Image Processing as Visual Prompting Question Answering
    44

    View full-size slide

  45. 画像編集④︓インタラクティブな画像編集
    LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing
    ペンで変更箇所を指摘する。
    45

    View full-size slide

  46. LLMの画像応⽤ まとめ
    Vision-LLMの研究動向では以下の傾向が⾒られた。
    ・GPT-4Vのタスク特化型で精度調査の研究
    ・既存のCVタスクをマルチモダールLLMに組み込む研究
    ・道具を活⽤する解決策やコード⽣成から道具を新たに作る研究
    ・GPT-4Vができないことをデータセットを作って特化型モデルを作る研究
    46

    View full-size slide

  47. LLM 動画への応⽤
    47

    View full-size slide

  48. ⽬次
    • Video-LLMの利⽤ユースケース
    • Video-LLMのタスク
    • Video QA
    • Video Summarization
    • Video Search
    • より最先端なタスク
    48

    View full-size slide

  49. Azure から動画の検索、プロンプト、VQAが提供開始
    https://techcommunity.microsoft.com/t5/ai-azure-ai-services-blog/video-retrieval-gpt-4-
    turbo-with-vision-integrates-with-azure-to/ba-p/3982753
    2023年11⽉ 動画をインプットにChatGPTと対話可能になり、動画の検索もAPI提供開始
    どんなタスクが考えられるのか︖
    動画プロンプト
    動画シーン検索
    49

    View full-size slide

  50. Video-LLMの利⽤ユースケース
    • Video Search
    • YouTube
    • Specialized archival sites
    • Enterprise video search tools
    • Video Classification
    • Contextual Advertising
    • Automated Video Editing
    • Sports Analysis
    • Content Moderation
    • Surveillance and Security
    • Video Clustering
    • video topic modeling
    • automatic video categorization
    • video content recommendation
    https://app.twelvelabs.io/blog/a-tour-of-video-understanding-use-cases
    • Video Description and Summarization
    • media and entertainment
    • e-commerce
    • education and training
    • marketing and advertising
    • social media platforms and content sharing websites
    • Video Question Answering
    • Customer Support
    • Educational Content
    • Interactive Media
    50

    View full-size slide

  51. ⽬次
    • Video-LLMの利⽤ユースケース
    • Video-LLMのタスク
    • Video QA
    • Video Summarization
    • Video Search
    • より最先端なタスク
    51

    View full-size slide

  52. Video-LLMのタスク
    • Video QA
    • アプリケーション︓対話型アシスタント
    • Video Summarization
    • アプリケーション︓過去の録画内容の管理
    • Video Search
    • アプリケーション︓シーン検索、オブジェクト検索など
    https://socraticmodels.github.io/
    52

    View full-size slide

  53. アプリケーション①︓対話型アシスタント
    • 料理の⽀援
    • 点検作業の⽀援
    • 申請の⽀援
    https://socraticmodels.github.io/
    53

    View full-size slide

  54. アプリケーション②︓過去の録画内容の管理
    ⾃宅のカメラから1⽇を振り返るタスク
    - 要約やQAを活⽤
    場所が変われば応⽤は様々
    ・医療介護、作業現場、オフィス、街
    質問例
    • Recall Reasoning
    • 今⽇運転したっけ︖
    • Contextual Reasoning
    • なぜリビングルームに⾏ったんだっけ︖
    • Temporal Reasoning
    • いつ最後に⼿を洗ったけ︖
    • Subjective Reasoning
    • 今⽇はいい⽇だった︖
    https://socraticmodels.github.io/
    54

    View full-size slide

  55. 関連︓ビデオ要約
    https://socraticmodels.github.io/ 55

    View full-size slide

  56. 関連︓VQA 動画の概要について質問
    そもそもVideo QAではどんな質問をするのか紹介します。
    ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System
    56

    View full-size slide

  57. 関連︓VQA 動画内の⼈物の動きについて質問
    ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System
    57

    View full-size slide

  58. 関連︓VQA 動画の⾳声情報について質問
    ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System
    58

    View full-size slide

  59. 関連︓VQA
    • MM-VIDはAzure AIか
    ら発表されています。
    MM-VID : Advancing Video Understanding with GPT-4V(ision)
    59

    View full-size slide

  60. アプリケーション③︓ビデオ検索
    Deep Learning for Video-Text Retrieval: a Review
    テキストで質問しビデオ検索 動画で質問しテキスト検索
    60

    View full-size slide

  61. ビデオから何を検索しますか
    https://docs.twelvelabs.io/docs
    • 別製品のAPI仕様から動向を探る
    • 検索対象を視覚的か動画中テキストか⾳声か
    61

    View full-size slide

  62. ビデオ検索 で何をインデックスにしますか
    https://docs.twelvelabs.io/docs 62

    View full-size slide

  63. より最先端な応⽤
    • Video Grounding
    • Audio Transcript
    • Image and Video input
    • Video Generator
    63

    View full-size slide

  64. 応⽤①︓Video Grounding
    PG-Video-LLaVA: Pixel Grounding Large Video-Language Models
    • 質問⽂に対して、オブジェクトの座標またはピクセルレベルで出⼒する
    64

    View full-size slide

  65. 応⽤②︓ With Audio Transcript
    PG-Video-LLaVA: Pixel Grounding Large Video-Language Models
    より詳細に
    より詳細に
    • 動画の⾳声情報が回答に良い影響を及ぼす
    65

    View full-size slide

  66. 応⽤③︓ Image and Video input
    • 画像と動画の組でQA
    • 同⼀⼈物や特定のモノを探すなどで活⽤できそう︖
    Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
    66

    View full-size slide

  67. 応⽤④︓ Video Generator
    • Text2video
    • Image2video
    Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
    67

    View full-size slide

  68. LLMの動画応⽤ まとめ
    Video-LLMの研究動向では以下の傾向が⾒られた。
    ・ビデオ理解(Video Understanding)の包括的な調査報告が出始めた
    ・タスク特化の調査報告はまだ少ない
    ・⾔語を介在した動画理解や検索のエラー分析をしていく必要がある
    動画のGPT-4Vの活⽤や事例が増えていくか
    68

    View full-size slide