Slide 13
Slide 13 text
マルチモーダルLLMの技術解説とトレンド:学習
事前学習とインストラクション・チューニングの2段階の学習について、
使用されるデータも踏まえて解説
学習の流れ
• 異なるモダリティ間のアラインメントを行う
• 画像を入力したい場合は画像キャプションデータ
を用いて、画像を入力しキャプション文が生成さ
れるように学習を行う
• 利点:既存にある大量のキャプションデータが利
用可能
• 欠点:質問・回答の多様性に欠ける、深い推論を
必要としない
• LLMと同様に、多様な指示文に対し望ましい回
答をするよう学習
• 多様な質問文に対して適切な回答を集めたデー
タセットが必要
• 欠点:データセットの構築に労力がかかる
→自動化してる場合もある
キャプション
A group of people
standing outside of
a black vehicle with
various luggage. …
BBox
person: [0.681, 0.242,
0.774, 0.694],
…
LLaVA※1
※1 Liu et al., NeurIPS 2024
Step1
事前学習
Step2
インストラク
ション
チューニング
トレンド
学習方法の改良 データの多様化
3段階目にRLHFによる
学習を実施するなど、学
習方法の改良が進められ
る
キャプションデータだけで
なく、OCRや領域認識用
のデータなど、使用される
データが多様化している
13