Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルによる視覚・言語の融合/Large Vision Language Models

Ryota Tanaka
July 09, 2024
3.3k

大規模言語モデルによる視覚・言語の融合/Large Vision Language Models

Ryota Tanaka

July 09, 2024
Tweet

Transcript

  1. Copyright 2022 NTT CORPORATION 1 Copyright 2024 NTT CORPORATION n

    2020~ NTT⼈間情報研究所 研究員 n 2023~ 東北⼤学 社会⼈博⼠ n 研究分野: Vision & Language l 視覚的に⽂書を読み解く「⽂書画像理解」を中⼼に取り組んでいます ⾃⼰紹介: ⽥中涼太 ⽂書画像理解 [AAAI’21, AAAI’23 , AAAI’24] Multi-page QA w/ Multi-hop & Discrete & Visual Reasoning on Form on Slide deck on Figure Input: There are 4 categories for selection: “title”, “key”, “value”, and “other”. Please output the category corresponding to the text “CASE FORM”. Output: title Input: Respond to the question " What is the difference in the competition media percentage between East and the region with 12% of journalists? " with a short answer based on the content of the multi-page document. Answers contain either: - a span inside of the document - a list of spans inside of document (each span should be separated by ",") - not exist explicitly as a span of the document (the answer should be freely generated text) Output: 5% (11%-6%) Input: Please write a one-sentence description of what is presented in the figure. Output: Robustness of the generalization error with respect to a Gaussian corruption noise added to the input, and the model trained with the combination of input noise and Jacobian regularization is more robust. Key Information Extraction Captioning LLM (tsuzumi) のマルチモーダル対応 https://group.ntt/jp/newsrelease/2024/04/12/240412b.html
  2. Copyright 2022 NTT CORPORATION 2 Copyright 2024 NTT CORPORATION Vision&Languageとは︖

    n 視覚 (Vision) と⾔語 (Language) を組み合わせて,課題解決を⾏う研究分野 バナナの⾊は何ですか︖ ⻩⾊です ⼥性がバナナを ⾝につけています ⼝髭の形をしたバナナ Visual Question Answering (VQA) Image Captioning Visual Grounding
  3. Copyright 2022 NTT CORPORATION 3 Copyright 2024 NTT CORPORATION LLM

    x Vision&Languageの驚きの能⼒ (1/3) n 汎⽤的な知識 l LLMの内部知識を補完することで,表層的に分かる以上の情報を提供 常識: VGAがスマホの充電ポートに刺さっていることが⾯⽩い 知識: VGAが15pinのケーブルであることは画像だけでは,分からない
  4. Copyright 2022 NTT CORPORATION 4 Copyright 2024 NTT CORPORATION LLM

    x Vision&Languageの驚きの能⼒ (2/3) n ゼロショット性能 l ⾒たことのない画像やタスクに対して,よしなに応答してくれる 左側に⼤きな⾻盤内腫瘤がある
  5. Copyright 2022 NTT CORPORATION 5 Copyright 2024 NTT CORPORATION LLM

    x Vision&Languageの驚きの能⼒ (3/3) n ⾼度な推論能⼒ l LLMが獲得している推論能⼒を,画像に対しても適⽤可能 右上の図にある,星の真ん中にドットがついたもの
  6. Copyright 2022 NTT CORPORATION 6 Copyright 2024 NTT CORPORATION 本⽇の内容

    n Vision&Languageの変遷 (15分) n LLMによるVision&Languageの今 (15分) n LLMによるVision&Languageの課題 (15分)
  7. Copyright 2022 NTT CORPORATION 7 Copyright 2024 NTT CORPORATION Vision&Languageのパラダイムシフト

    n BERT,CLIP,LLMの活⽤により,⾔語理解・視覚認識・推論能⼒が ⾶躍的に向上 2019 2023 2021 CLIPの視覚 認識能⼒を活⽤ LLMの推論 能⼒を活⽤ - LXMERT - VisualBERT - VL-BERT - UNITER - Oscar - ViLBERT - GRIT - CLIP-ViL - CoCa - GiT - BLIP - SimVLM - BLIP2 - MiniGPT4 - LLaVA - mPLUG-OWL - InstructBLIP - LLaMA-Adapter BERTの⾔語理解 能⼒を活⽤
  8. Copyright 2022 NTT CORPORATION 8 Copyright 2024 NTT CORPORATION 深層学習時代初期の解法と課題

    n 画像分類で事前学習された画像エンコーダと,⾔語をエンコードする モデル (LSTMなど) の出⼒を統合し,⽬的のタスクでスクラッチ学習 VQAタスクの場合 タスクに共通する視覚⾔語知識が蓄積しない 数⼗万オーダの学習データが必要 Agrawal+, VQA: Visual Question Answering. ICCV’15
  9. Copyright 2022 NTT CORPORATION 9 Copyright 2024 NTT CORPORATION BERT

    [Devlin+, NAACL’19] n ⼤量の⾃⼰教師データを基に学習されたTransformerモデル.事前学習後, タスクに特化した学習を⾏うことで,⾔語理解を問うタスクで⾼い性能を発揮 l Masked Language Modeling (MLM): マスクされた単語を予測 l Next Sentence Prediction (NSP): ⼆つの⽂章の繋がりの⾃然さを⼆値分類 NSP BERT (Transformerエンコーダ) 名前 Yes/No MLM [CLS] [SEP] 吾輩 は 猫 で ある [MASK] は まだ 無 い Devlin+, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL’19
  10. Copyright 2022 NTT CORPORATION 10 Copyright 2024 NTT CORPORATION BERT

    (事前学習⾔語モデル) の活⽤ ① Web上の画像・テキストペアを⼤量に収集し,事前学習⾔語モデルを事前学習 ② ⽬的のタスクでファインチューニング 店内でオレンジ ジュースをカップ に注いでいる⼥性 ⼤量に収集 事前学習 ⾔語モデル 事前学習 V&Lモデル Q: バナナの⾊は︖ A: ⻩⾊ ⽐較少量 (数千-数万) のサンプルを⽤意 Web ① Vision&Language事前学習 ② ファインチューニング BERTなど 汎⽤的な視覚⾔語 の知識を獲得 n 事前学習⾔語モデルを活⽤し,汎⽤的な視覚⾔語の知識を獲得
  11. Copyright 2022 NTT CORPORATION 11 Copyright 2024 NTT CORPORATION 代表的なV&L事前学習タスク

    [SEP] 店内 で オレンジ … [CLS] … [MASK] [MASK] ITM n Masked Language/Image Modeling (MLM/MIM) l BERTと同様にマスクされたトークン (画像や⾔語) を復元 n Image Text Matching (ITM) l 画像とテキストのペアが正しいものかを予測 ⼥性 Yes/No MLM MIM Transformerエンコーダ
  12. Copyright 2022 NTT CORPORATION 12 Copyright 2024 NTT CORPORATION Oscar

    [Li+, ECCV’20] n 物体検出から得られた物体の名前 (Object Tags) と領域を同時に⼊⼒すること で,画像内の物体と⾔語の関係性を明⽰的に学習可能 l 物体検出器が扱うクラスを⼤規模化することで,更なる性能向上 [Zhang+, CVPR’21] Li+, Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks, ECCV’20
  13. Copyright 2022 NTT CORPORATION 13 Copyright 2024 NTT CORPORATION 物体検出の限界

    ⾷品 ⾷器 フォーク ⾷器 ⾷器 商⽤の物体検出APIの結果 各種Webサービスのアイコンを認識できず ⾷品や⾷器の細かい違いが認識できていない マットやコーヒーについて認識漏れ オブジェクト検出なし n 物体検出がカバーできる物体には限界があり,下流タスクの性能に⼤きく影響 l 外部のモジュールに影響されない汎⽤的な画像理解が求められる
  14. Copyright 2022 NTT CORPORATION 14 Copyright 2024 NTT CORPORATION Vision&Languageのパラダイムシフト

    n BERT,CLIP,LLMの活⽤により,⾔語理解・視覚認識・推論能⼒が ⾶躍的に向上 CLIPの視覚 認識能⼒を活⽤ LLMの推論 能⼒を活⽤ - LXMERT - VisualBERT - VL-BERT - UNITER - Oscar - ViLBERT - GRIT - CLIP-ViL - CoCa - GiT - BLIP - SimVLM - BLIP2 - MiniGPT4 - LLaVA - mPLUG-OWL - InstructBLIP - LLaMA-Adapter BERTの⾔語理解 能⼒を活⽤ 2019 2023 2021
  15. Copyright 2022 NTT CORPORATION 15 Copyright 2024 NTT CORPORATION n

    画像とテキストの⼤量のペアを⽤いて,対応するペアの類似度を⾼くし,その 他のペアの類似度を低くする対照学習を実施 l One-hot画像分類では獲得できない,画像とテキストの意味をアライン可能 CLIP [Redford+, ICML’21] 通常のOne-hot画像分類 画像エンコーダが何の⾔語特徴と結びついて いるか理解できない CLIP (Contrastive Language-Image Pre-training) 1/0のラベル Radford+, Learning Transferable Visual Models From Natural Language Supervision, ICML’21
  16. Copyright 2022 NTT CORPORATION 16 Copyright 2024 NTT CORPORATION CLIP-ViL

    [Shen+, ICLR’22] n 事前学習済みのCLIP Vision EncoderをV&Lモデルに再利⽤ l 画像分類や物体検出タスクで事前学習を⾏なったResNetよりも, CLIPは視覚的特徴をより 正確に捉えることが可能 CLIP事前学習 > 物体検出 > 画像分類 Shen+, How Much Can CLIP Benefit Vision-and-Language Tasks?, ICLR’22
  17. Copyright 2022 NTT CORPORATION 17 Copyright 2024 NTT CORPORATION RegionCLIP

    [Zhong+, CVPR’22] n CLIPがRegion理解に弱い問題に挑戦 l CLIP事前学習後に,Regionとテキストのペアを基に対照学習を⾏う 画像全体とテキストのペアで学習するCLIPは, Regionの特徴を捉えれない Zhong+, RegionCLIP: Region-based Language-Image Pretraining, CVPR’22
  18. Copyright 2022 NTT CORPORATION 18 Copyright 2024 NTT CORPORATION DueT

    [Hasegawa&Nishida+, EMNLP’23] n モーダル単体で事前学習された画像・テキストエンコーダの能⼒を維持しつつ, パラメータ効率が良い学習⼿法の提案 l Adapter (モデル全体の3.64%) によって,更新すべきパラメータを制御することで,モデル全体 を学習するFine-tuningなどよりも良い性能を達成 Adapter Hasegawa&Nishida+, DueT : Image-Text Contrastive Transfer Learning with Dual-adapter Tuning, EMNLP’23
  19. Copyright 2022 NTT CORPORATION 19 Copyright 2024 NTT CORPORATION CLIPによって実現した技術

    (1/2) DALL-E 2 [Ramesh+, arxiv’22] ViLD [Gu+, ICLR’22] CLIPと拡散モデルによるテキストからの画像⽣成 Toy duck Green toy Blue toy CLIPの画像表現を蒸留することで,任意クラスに対して 物体検出が可能 物体検出 結果 CLIPの画像 エンコーダ の出⼒に近づける Toy duck 画像⽣成 Open-Vocabulary物体検出 Remesh+, Hierarchical Text-Conditional Image Generation with CLIP Latents, arXiv’22 Gu+, Open-vocabulary Object Detection via Vision and Language Knowledge Distillation, ICLR’22
  20. Copyright 2022 NTT CORPORATION 20 Copyright 2024 NTT CORPORATION CLIPによって実現した技術

    (2/2) モーション⽣成 3Dオブジェクト⽣成 MotionCLIP [Tevet+, ECCV’22] AvatarCLIP [Hong+, SIGGRAPH’22] モーション系列とCLIPの画像・テキスト 表現を結びつける モーション⽣成例 モーション合成例 CLIP空間とオブジェクトの形状やテクスチャ, モーションなどを結びつける Tevet+, MotionCLIP: Exposing Human Motion Generation to CLIP Space, ECCV’22 Hong+, AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars, SIGGRAPH’22
  21. Copyright 2022 NTT CORPORATION 21 Copyright 2024 NTT CORPORATION 課題:

    推論能⼒ n 事前に学習されたタスクしか基本的に対応できない 事前学習モデル 学習: Image Captioning 事前学習モデル 推論: Visual Question Answering バナナの⾊は何ですか︖ 分かりません ⻩⾊バナナを付けた⼥性
  22. Copyright 2022 NTT CORPORATION 22 Copyright 2024 NTT CORPORATION 課題:

    推論能⼒ n 6~8歳児でも解ける簡単な推論問題ですら,zero-shotでは10%程度しか解けない Cherian+, Are Deep Neural Networks SMARTer than Second Graders?, CVPR’23
  23. Copyright 2022 NTT CORPORATION 23 Copyright 2024 NTT CORPORATION Vision&Languageのパラダイムシフト

    n BERT,CLIP,LLMの活⽤により,⾔語理解・視覚認識・推論能⼒が ⾶躍的に向上 CLIPの視覚 認識能⼒を活⽤ LLMの推論 能⼒を活⽤ - LXMERT - VisualBERT - VL-BERT - UNITER - Oscar - ViLBERT - GRIT - CLIP-ViL - CoCa - GiT - BLIP - SimVLM - BLIP2 - MiniGPT4 - LLaVA - mPLUG-OWL - InstructBLIP - LLaMA-Adapter BERTの⾔語理解 能⼒を活⽤ 2019 2023 2021
  24. Copyright 2022 NTT CORPORATION 24 Copyright 2024 NTT CORPORATION 本⽇の内容

    n Vision&Languageの変遷 (15分) n LLMによるVision&Languageの今 (15分) n LLMによるVision&Languageの課題 (15分)
  25. Copyright 2022 NTT CORPORATION 25 Copyright 2024 NTT CORPORATION ⼤規模⾔語モデル

    (LLM: Large Language Models) n ⼤規模なコーパスで訓練された⼤規模なパラメータを持つ⾔語モデル l LLama3の場合,70Bモデルのサイズを,15兆トークンのコーパスで,6.4MGPU時間の学習 l (ただし,どれだけ⼤規模にすればLLMと呼べるかコンセンサスは取れていない.) ⼤規模⾔語 モデル (ベース) ⼤規模⾔語 モデル 汎⽤ ニューラル ネット構造 ⼤規模コーパスで 事前学習 指⽰チューニング (+ アライメント)
  26. Copyright 2022 NTT CORPORATION 26 Copyright 2024 NTT CORPORATION LLMの事前学習タスク

    Transformerデコーダ [sos] 吾輩 は 猫 で ある は まだ 無 い 名前 吾輩 は 。 猫 で ある は まだ 無 い 名前 。 [eos] n ⼊⼒に続く単語 (トークン) を確率に基づいて,⾃⼰回帰的に予測する
  27. Copyright 2022 NTT CORPORATION 27 Copyright 2024 NTT CORPORATION LLMの事前学習コーパス

    n Webページ,対話データ,ニュース記事,論⽂,コードなどのデータを組み合 わせてデータを構築 l どのような割合で配合すべきかは,作りたいLLMによって異なる Zhao+, A Survey of Large Language Models, arXiv’23
  28. Copyright 2022 NTT CORPORATION 28 Copyright 2024 NTT CORPORATION 指⽰チューニング

    [Wei+, ICLR’22] n 様々なタスクの指⽰と回答のペアを学習することで,未学習の未知のタスクに 対しても対応可能 Wei+, Finetuned Language Models Are Zero-Shot Learners, ICLR’22
  29. Copyright 2022 NTT CORPORATION 29 Copyright 2024 NTT CORPORATION Scaling

    Laws [Kaplan+, arXiv’20] n ⾔語モデルの性能は経験的に、 「訓練に使われた計算量」 「データサイズ 「モデルサイズ」 の3つの要素に対してスケーリングすることを⽰した l スケーリングの限界が⽰されてない Kaplan+, Scaling Laws for Neural Language Models, arXiv’20
  30. Copyright 2022 NTT CORPORATION 30 Copyright 2024 NTT CORPORATION LLMの⼤規模化

    n Scaling Lawsにより,モデルパラメータ数の⼤きい⾔語モデルの開発が活発化 https://lifearchitect.ai/models/ GPT-3.5/4、Geminiの パラメータ数は正式 公表されていない BERT 0.34B GPT-3 175B Google Google Amazon Baidu Inflection
  31. Copyright 2022 NTT CORPORATION 31 Copyright 2024 NTT CORPORATION LLMの⾼いゼロショット性能

    n アメリカの司法試験をLLM (GPT-4) がゼロショットで合格⽔準を上回る性能 https://www.iit.edu/news/gpt-4-passes-bar-exam
  32. Copyright 2022 NTT CORPORATION 32 Copyright 2024 NTT CORPORATION LLMの⾼い推論能⼒

    Kojima+, Large Language Models are Zero-Shot Reasoners, NeurIPS’22 n 思考⽅法を提⽰したり,思考を促すことで,推論能⼒が⾶躍的に向上
  33. Copyright 2022 NTT CORPORATION 33 Copyright 2024 NTT CORPORATION Large

    Vision Language Models (LVLM) の開発競争 Li+, Multimodal Foundation Models: From Specialists to General-Purpose Assistants, arXiv’23 Zhang+, InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output, arXiv’24 n 企業・アカデミア問わず,加速度的に開発が進められている l 7BクラスのLVLMにおいても,GPT-4VやGeminiなどと同等の性能が出ることが報告されている
  34. Copyright 2022 NTT CORPORATION 34 Copyright 2024 NTT CORPORATION LVLMのモデル構造

    n 画像エンコーダとLLMの橋渡しとなるアダプターを⽤いて 画像をLLMに⼊⼒ アダプター (Linear, Q-former, etc.) 画像エンコーダ (CLIP, DINO, etc.) LLM ⾺はどこで何をしていますか︖ 緑の草が⽣えている牧場と 思われるところで草を ⾷べています
  35. Copyright 2022 NTT CORPORATION 35 Copyright 2024 NTT CORPORATION LVLMの学習⽅法:

    ① 事前学習 アダプター (Linear, Q-former, etc.) 画像エンコーダ (CLIP, DINO, etc.) LLM ⾺が草を⾷べています n アダプターからLLMへのマッピングを⽬的とした事前学習を実施 l アダプタを学習対象とし,その他のパラメータは固定 l 質よりも量を重視し,主に画像キャプショニングデータを⽤いて,学習
  36. Copyright 2022 NTT CORPORATION 36 Copyright 2024 NTT CORPORATION LVLMの学習⽅法:

    ② 視覚指⽰チューニング アダプター (Linear, Q-former, etc.) 画像エンコーダ (CLIP, DINO, etc.) n ⾃然⾔語の指⽰⽂,画像,その回答のデータでファインチューニング l アダプタとLLMを学習対象とし,画像エンコーダのパラメータは固定 l 量よりも質を重視し,幅広いタスクをカバーしたデータで学習 LLM ⾺はどこで何をしていますか︖ 緑の草が⽣えている牧場と 思われるところで草を ⾷べています
  37. Copyright 2022 NTT CORPORATION 37 Copyright 2024 NTT CORPORATION Visual

    Instruction Tuning [Liu+, NeurIPS’23] GPT-4 (テキスト⼊⼒) テキスト情報 + 複数の⼊出⼒ペアを例⽰ ⼊出⼒ペア n 画像をテキスト情報に変換し,テキスト版のGPT-4に例⽰することで指⽰ チューニングデータを⾃動⽣成 Liu+, Visual Instruction Tuning, NeurIPS’23
  38. Copyright 2022 NTT CORPORATION 38 Copyright 2024 NTT CORPORATION LLaVA

    [Liu+, NeurIPS’23] n LLMと画像エンコーダの接続部 Projection 𝐖 を⽤いて,画像情報をLLMに伝搬 ① 事前学習: LLMと画像エンコーダのパラメータを固定し,𝐖のみCC3Mを⽤いて学習 ② 視覚指⽰チューニング: 画像エンコーダのパラメータを固定し,LLMと𝐖を視覚指⽰チュー ニングデータを⽤いて学習 CLIP Vicuna Linear
  39. Copyright 2022 NTT CORPORATION 39 Copyright 2024 NTT CORPORATION BLIP-2

    [Li+, ICML’23] n 画像表現を固定⻑のクエリベクトルに圧縮するQ-formerをCLIPライクに学習後, LLMに接続して,事前学習 l BLIP-2の場合,LLMのパラメータは固定 ① Q-formerの事前学習 ② Q-formerとLLMを接続して学習 Li+, BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, ICML’23
  40. Copyright 2022 NTT CORPORATION 40 Copyright 2024 NTT CORPORATION 医療ドメイン:

    LLaVA-Med [Li+, NeurIPS’23] n LLaVAと同様のプロセスでGPT-4を利⽤して,医療ドメインの視覚指⽰チューニ ングデータを構築し,LLaVAに対して8枚のA100を15時間かけて,追加学習 l 画像データはPubMedに投稿された論⽂に掲載されたFigure (PMC-15M) を使⽤ Li+, LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day, NeurIPS’23
  41. Copyright 2022 NTT CORPORATION 41 Copyright 2024 NTT CORPORATION ビデオ・⾳声⼊⼒:

    Video-LLaMA [Cheng+, arXiv’23] n BLIP-2に対して,時系列情報をエンコードするVideo/Audio Q-formerと各フレー ムの位置埋め込みを追加 Zhang+, Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding, arXiv’23
  42. Copyright 2022 NTT CORPORATION 42 Copyright 2024 NTT CORPORATION ⾃動運転:

    DriveGPT4 [Xu+, arXiv’24] n 運転時における周辺状況や,次フレームの⾞体の速度や⾓度をテキストデータ として予測するLVLM Xu+, DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model, arXiv’24
  43. Copyright 2022 NTT CORPORATION 43 Copyright 2024 NTT CORPORATION ツールの活⽤:

    LLaVA-plus [Liu+, arXiv’23] n 外部ツールを使⽤しながら,画像編集などを⾏うためのデータをGPT-4を⽤い て⾃動構築し,LLaVAを追加学習 Liu+, LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents, arXiv’23
  44. Copyright 2022 NTT CORPORATION 44 Copyright 2024 NTT CORPORATION 本⽇の内容

    n Vision&Languageの変遷 (25分) n LLMによるVision&Languageの今 (15分) n LLMによるVision&Languageの課題 (15分)
  45. Copyright 2022 NTT CORPORATION 45 Copyright 2024 NTT CORPORATION n

    実世界の⽂書を視覚的に(画像として)理解し読解するタスク 課題①: ⽂書画像理解 VisualMRC [Tanaka&Nishida+, AAAI’21] PubLayNet [Xu+, ICDAR’19] Screen2Word [Wang+, UIST’21] Zhong+, PubLayNet: largest dataset ever for document layout analysis, ICADR’19 Tanaka+, VisualMRC: Machine Reading Comprehension on Document Images, AAAI’21 Wang+, Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning, UIST’21
  46. Copyright 2022 NTT CORPORATION 46 Copyright 2024 NTT CORPORATION ⽂書画像理解の難しさ

    (1/2) n ⾼解像度化への対応 l 既存の学習済み画像エンコーダは基本的に,低解像度 (224x224など) にしか対応していないため, ⽂字などの細かな情報が潰れてしまう Q: What is the year of the budget? A: 1979
  47. Copyright 2022 NTT CORPORATION 47 Copyright 2024 NTT CORPORATION ⽂書画像理解の難しさ

    (2/2) n マルチモーダル (視覚,⾔語,レイアウト) 情報を理解する必要がある l 現在のLVLMの多くは,画像内のテキスト情報に引っ張られてしまう Wadhawan+, CONTEXTUAL: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models, arXiv’24
  48. Copyright 2022 NTT CORPORATION 48 Copyright 2024 NTT CORPORATION ⽂書画像理解の実⽤性

    ⾃然⾔語指⽰による作業⾃動化 専⾨調査レポート AI 業界紙 論⽂ 医薬情報提供 ページ レポート A薬の症例に ついて教えて ⾒積書を 帳票に⼊⼒して カスタマーサポート 契約プランを変更 したいのですが 顧客 データベース スーパーバイザ 相談 操作 違約⾦が かかってしまいますが よろしいでしょうか… ⾒積書 帳票 AIと⼈のリアルタイムペアワーク その選択肢, エラーがありそうですよ マニュアル マニュアルと 違いが無いか チェックしてね n オフィスシーンで多⽤される⽂書を⼈間のように視覚から情報を理解できることで, オフィスDXに資する重要技術となり得る
  49. Copyright 2022 NTT CORPORATION 49 Copyright 2024 NTT CORPORATION InstructDoc

    [Tanaka+, AAAI’24] n ⽂書画像理解に関する30件のデータセット (12件のタスク) に指⽰⽂を⼈⼿付与 Multi-page QA w/ Multi-hop & Discrete & Visual Reasoning on Form on Slide deck on Figure Input: There are 4 categories for selection: “title”, “key”, “value”, and “other”. Please output the category corresponding to the text “CASE FORM”. Output: title Input: Respond to the question " What is the difference in the competition media percentage between East and the region with 12% of journalists? " with a short answer based on the content of the multi-page document. Answers contain either: - a span inside of the document - a list of spans inside of document (each span should be separated by ",") - not exist explicitly as a span of the document (the answer should be freely generated text) Output: 5% (11%-6%) Input: Please write a one-sentence description of what is presented in the figure. Output: Robustness of the generalization error with respect to a Gaussian corruption noise added to the input, and the model trained with the combination of input noise and Jacobian regularization is more robust. Key Information Extraction Captioning https://github.com/nttmdlab-nlp/InstructDoc
  50. Copyright 2022 NTT CORPORATION 50 Copyright 2024 NTT CORPORATION InstructDr

    [Tanaka+, AAAI’24] n アダプターに画像,⾔語,レイアウトを⼊⼒し,LLMに解釈できる形に変換 l レイアウトを表現するために,各単語のbboxの座標情報・サイズをFFNで変換し,⼊⼒ l OCR⼊⼒を前提としない,⾼解像度化は今後の課題 Tanaka+, InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructions, AAAI’24 1 2 THE FIRST STEP TO THE BIG STORY Internal meeting decision Competition media Tip-off Communication agencies Primary research Others An event Social Network Online content North South East West 20% 9% 13% 16% 8% 8% 9% 13% 4% 26% 16% 16% 7% 2% 10% 10% 10% 3% 29% 6% 15% 20% 3% 3% 6% 18% 0% 20% 11% 14% 14% 5% 6% 8% 19% 3% SECTION 1 1 3 THE FIRST STEP TO THE BIG STORY Business & Corporate Lifestyle & Entertainment Science & Tech Sports 21% 10% 13% 12% 5% 13% 10% 13% 3% 25% 7% 14% 16% 8% 6% 10% 13% 1% 19% 11% 10% 17% 11% 11% 8% 9% 4% 19% 9% 13% 19% 8% 3% 13% 14% 2% Internal meeting decision Competition media Tip-off Communication agencies Primary research Others An event Social Network Online content SECTION 1 CR … CR … … features + Image Encoder Document-former FFN w/ mean pooling Large Language Model … Instruction … OCR … Instruction … Concatenated multi-page OCR … 11 … Spatial features Respond to the question " What is the percentage of Internal meeting decision? " with a short answer based on the content of the multi-page document. (….) Directly answer the question from the document with 1 to 3 words. Input multiple images Response Instruction + … t (b) Our InstructDr for a multi-page document Learnable tokens 𝒙𝟏 , 𝒚𝟏 𝒙𝟐 , 𝒚𝟐 FFN
  51. Copyright 2022 NTT CORPORATION 51 Copyright 2024 NTT CORPORATION 評価実験:

    Zero-Shotのパフォーマンス n 未知 (未学習) のタスクにおいて,タスクに特化した教師ありモデルやChatGPT などを上回る性能を達成
  52. Copyright 2022 NTT CORPORATION 54 Copyright 2024 NTT CORPORATION ⾼解像度化:

    UReader [Ye+, EMNLP’23 Findings] n 画像を複数のサブ画像に分割し,個別にエンコードすることで,⾼解像度対応 l 複数のサブ画像 (224x224) で構成されるグリッド候補 (Pre-defined Grids) を事前に⽤意. 元画像のアスペクト⽐と解像度が近いグリッドを選択し,リサイズを実施 l 低解像度で学習した画像エンコーダ (e.g., CLIP) を再学習なしで利⽤できる Ye+, UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model, EMNLP’23 Findings
  53. Copyright 2022 NTT CORPORATION 55 Copyright 2024 NTT CORPORATION ⾼解像度化の弊害

    n サブ画像に跨った推論が苦⼿ サブ画像の境界に 跨ったカウントは 誤りがち Xu+, LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images, arXiv’24 “How many circles are there in the image?”
  54. Copyright 2022 NTT CORPORATION 56 Copyright 2024 NTT CORPORATION 課題②:

    ⾃動評価 n 画像を⾒なくても解けてまうタスクになっていないか︖ l テキストコーパスによって得られた知識と画像の知覚能⼒を分けて評価する必要がある Chen+, Are We on the Right Way for Evaluating Large Vision-Language Models?, arXiv’24
  55. Copyright 2022 NTT CORPORATION 57 Copyright 2024 NTT CORPORATION 課題③:

    バイアス n 事実に反した画像,⻄洋圏以外の⽂化に関する画像など,学習データにあまり 含まれない内容は,ほとんど理解できない Cui+, Holistic Analysis of Hallucination in GPT-4V(ision): Bias and Interference Challenges, arXiv’23
  56. Copyright 2022 NTT CORPORATION 58 Copyright 2024 NTT CORPORATION まとめ

    n BERT,CLIP,LLMの活⽤によりVision&Languageにパラダイムシフトが起きた l 事前学習⾔語モデルにより⾔語理解能⼒が強化 l CLIPにより視覚認識能⼒が強化 l LLMにより推論能⼒が強化 n LVLMは,医療ドメインや⾃動運転など実応⽤への広がりが期待できる技術で あり,加速度的に発展を遂げている n 課題 l ⽂書画像理解 l ⾃動評価 l バイアス