MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning（最先端NLP勉強会2023）

Slide 1

Slide 1 text

最先端NLP勉強会2023 MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning 著者：Zhiyang Xu, Ying Shen, Lifu Huang 学会：ACL2023 発表者：上原康平（東京大学原田・長・黒瀬・椋田研究室助教）

Slide 2

Slide 2 text

• ⼤規模⾔語モデル（Large Language Model; LLM）の学習において， Instruction Tuning の有効性が知られている → Vision & Language モデルではどうか？ • 実際にデータセットを作成（MultiInstructデータセット）して実験 • 既存のデータセットに Instruction を追加して整備 • 実験 • Instructionの種類を増やす → 性能向上 • ⾃然⾔語のみの Instruction を⽤いた転移学習も有効 ※ 特に注のない場合，スライド内の画像はMultiInstructの論⽂より引⽤ 1 ざっくり⾔うと

Slide 3

Slide 3 text

• ⼤規模⾔語モデルのチューニング技法 • Prompt Tuning • タスクに応じたプロンプトを学習 • In-context Learning • 少数サンプルをコンテキストとして提⽰したときに，新規タスクを解けるように学習 • Instruction Tuning • 【指⽰⽂ – 回答】形式のデータセットを⽤いてモデルを追加学習 • タスクを⾃然⾔語で説明したデータで学習するため，新規タスクにも対応しやすい 2 前置き

Slide 4

Slide 4 text

• ⼤規模⾔語モデルにおける Instruction Tuning の有効性は知られている cf. Natural Instructions は 61のタスクについてのInstructionデータを収集し，未知タスクへの汎化性が向上することを確認 • Vision & Languageモデルにおける Instruction Tuning の有効性を検証する • 解決すべき課題 • Vision & Languageモデル⽤のInstructionデータセットは存在しない • Instructionの多様さの重要性も未知数 → 実際にデータセットを構築し，実験を⾏うことで実証する 3 研究⽬的 Mishra et al., “Cross-task generalization via natural language crowdsourcing instructions”, ACL2022

Slide 5

Slide 5 text

• 多様なタスク（64種類）をカバーした，⾃然⾔語による指⽰⽂付きデータセット 4 MultiInstruct データセット

Slide 6

Slide 6 text

• 多様なタスク（64種類）をカバーした，⾃然⾔語による指⽰⽂付きデータセット 5 MultiInstruct データセット（例）Grounded Caption（領域に基づくキャプション生成）タスクの指示文 Generate a caption for 出力 blue and white tennis racquet

Slide 7

Slide 7 text

• タスク … キャプション⽣成，VQA，領域理解，常識推論など • OFA（今回の実験で⽤いるV&Lモデル，後述）の事前訓練タスクに近いタスクを訓練セット，その他のタスクを評価セットとしている → ゼロショットでのタスク適応能⼒を調査 6 タスクの構成

Slide 8

Slide 8 text

• 作り⽅ • 各タスクのデータは既存のデータセット（MS COCO, VQA, …）を使う • 指⽰⽂：アノテーターに書いてもらう • アノテーターを2⼈ずつペアにして相互チェックを実施し，品質を担保 • 最終的には，1タスクにつき5つの指⽰⽂を収集 • 計約23万5千件（？）の【指⽰⽂ – 回答】データからなるデータセットを構築 ※ MultiInstructの論⽂にはデータの件数について記載なし，M3IT [Li+, 2023] の論⽂より引⽤ 7 データセット作成 Li et al., “M3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning”, arxiv, 2023

Slide 9

Slide 9 text

• 指⽰⽂ • 指⽰⽂本体 + プレースホルダー（, , など） • VQA：Answer the question based on the content of the given image • Grounded Captioning：Given the region in the image, generate a caption for that region • 指⽰⽂などにおける領域の扱い⽅ • 領域座標を x, y それぞれ最⼤1,000に量⼦化 • 座標を表現するための特殊トークン（, ..., ）で各座標を表現 • 座標値（連続値）を直接的に扱うより，トークン数を少なくできる 8 データセットの例

Slide 10

Slide 10 text

• OFAモデル：⼤規模Transformerで画像‧テキストを同時に扱うモデル • いくつかの事前学習タスクで訓練済（Visual Grounding, Grounded Captioning, Image-Text Matching, Image Captioning, VQAなど） 9 実験：モデル Wang et al., “OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework”, ICML2022

Slide 11

Slide 11 text

• そもそも⾃然⾔語による指⽰⽂は必要なのか？ • MultiInstructでの訓練 vs. タスク名のみを⽤いた訓練（TaskName） ※ TextVQA, Visual Text Extraction, Visual Dialogの評価指標はRougeL，その他はAccuracy ※ OFATaskName以外は，指⽰⽂5種類の結果の平均値 10 実験：指⽰⽂の⽐較結果 Common- sense VQA Visual Entailment Visual Spatial Reasoning NLVR TextVQA Grounded VQA Visual Text Extraction Visual Dialog Disaster Type Classification OFA 0.40 41.86 35.29 52.10 9.30 0.00 17.62 28.71 9.64 OFATaskName 29.01 55.70 53.76 55.35 23.80 0.00 36.30 25.18 62.65 OFAMultiInstruct 31.17 55.06 53.90 56.18 26.46 47.22 62.43 32.91 56.00 ⾃然⾔語による指⽰⽂を⽤いた訓練は，新規タスクへの適応に効果的

Slide 12

Slide 12 text

• ⾔語onlyのInstructionを使った転移学習は有効か？ • MultiInstructでの訓練 vs. w/ Natural Instructionsでの訓練 • Mixed Instruct … Natural InstructionsとMultiInstructをランダムにシャッフルして訓練 • SeqInstruct … まずNatural Instructionsで，次にMultiInstructで順番に訓練 ※ TextVQA, Visual Text Extraction, Visual Dialogの評価指標はRougeL，その他はAccuracy 11 実験：転移学習の結果 Common- sense VQA Visual Entailment Visual Spatial Reasoning NLVR TextVQA Grounded VQA Visual Text Extraction Visual Dialog Disaster Type Classification OFAMultiInstruct 31.17 55.06 53.90 56.18 26.46 47.22 62.43 32.91 56.00 OFAMixedInstruct 30.27 53.74 52.61 55.96 23.67 54.99 46.56 38.02 64.31 OFASeqInstruct 31.23 52.98 53.11 56.63 26.67 54.46 60.62 35.10 57.89 ⾔語のみのタスクによる転移学習の効果は限定的

Slide 13

Slide 13 text

• Instructionの多様性は重要か？ • タスクごとの指⽰⽂の数を変化（1個 vs. 5個）させて実験 • 評価指標 • Aggregated Performance … 全タスクの指標値の平均 • Sensitivity … 指⽰⽂の変化に対する性能変動の指標（標準偏差 / 平均） 12 実験：指⽰⽂の多様性についての結果 # Instructions Aggregated Performance ↑ Sensitivity ↓ 1 42.81 24.62 5 47.82 10.45 Instruction の多様性は重要

Slide 14

Slide 14 text

• Instruction Tuningを⾏う際は，なるべく多様なタスクを含めるのが良い • ⾔語のみのInstructionデータを混ぜて訓練する場合は，ステージを分けて訓練するよりランダムに混ぜて訓練（Mixed Instruct）する⽅が Sensitivityの観点では良い • MultiInstructで訓練するとNLPタスクへの性能は低下する • Natural Instructionsをランダムに混ぜて訓練（Mixed Instruct）すると， Natural Instructionsのみで訓練した場合とほぼ同等になるまとめ：NLP InstructionとV&L Instructionをランダムに混ぜて，なるべく多様なタスク‧多様な指⽰⽂で訓練するのが良い 13 その他の知⾒

Slide 15

Slide 15 text

• Instruction Tuning は，Vision & Language モデルにおいても有効 • 特に，タスクの多様性‧指⽰⽂の多様性が，未知タスクへの汎化能⼒獲得において重要 • その後も，Instruction Tuning 系 V&L データセットは継続的に新しく構築され続けている • GPT-4 などの LLM の恩恵により，データセット構築がさらに加速 14 まとめ

Slide 16

Slide 16 text

• GPTを⽤いた新規 Instruction データセットの作成 → 画像アノテーション（物体ラベル，bounding boxなど）をGPTに⼊⼒ e.g., LLaVA, LLaVAR, MIMIC-IT, ... 15 その後の研究 cat ... [100, 152, 164, 211] dog ... [178, 160, 224, 205] house ... [54, 68, 94, 122] a cat is playing with a dog image bbox caption GPT-4 Instruction Data Question: What kind of animals are in front of the house? Answer: A cat and a dog is in front of the house. Question: Please describe the image in detail. Answer: ...

Slide 17

Slide 17 text

16 昨今の潮流データセット名 Size Task Data by GPT Date 備考 MultiInstruct 235K 26 ✗ Dec-22 Mini-GPT4 ~3.5K 1 ◯ Apr-23 比較的少量データでのtuning LLaVA 158K 3 ◯ Apr-23 GPT-4を用いた新規データ作成 InstructBLIP 1.6M 28 ✗ May-23 思想はMultiInstructに近い X-LLM ~7.5K > 1 ◯ May-23 中国語，音声も含む VisionLLM ~500K? 5 ✗ May-23 DetectionやSegmentationも MultiModal GPT ? > 5 ✗ May-23 対話形式を意識 ChatBridge ~4.6M ? ◯ May-23 画像・音声・動画など LLaVA-Med 60K 1 (chat) ◯ Jun-23 医療ドメイン特化 M3-IT 2.4M 40 ◯ Jun-23 多言語・大規模徐々にデータセットのサイズ‧タスク数ともに増加している

Slide 18

Slide 18 text

Reference Mini-GPT4 Zhu et al., “MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models”, arXiv, 2023 LLaVA Liu et al., “Visual Instruction Tuning”, arXiv, 2023 InstructBLIP Dai et al., “InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning”, arXiv, 2023 X-LLM Chen et al., “X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages”, arXiv, 2023 VisionLLM Wang et al., “VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision- Centric Tasks”, arXiv, 2023 Multimodal-GPT Gong et al., “MultiModal-GPT: A Vision and Language Model for Dialogue with Humans”, arXiv, 2023 ChatBridge Zhao et al., “ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst”, arXiv, 2023 LLaVA-Med Li et al., “LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day”, arXiv, 2023 M3IT Li et al., “M3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning”, arXiv, 2023