本資料では、大規模視覚言語モデル (LVLM) に関する最新の知見を包括的にまとめて紹介しています。
Part 1 では、「画像エンコーダ」と「大規模言語モデル (LLM)」の接続方法及び、画像のエンコード方法に焦点を当てて解説しています。
(続編の Part 2 では、学習データに焦点を当てて解説する予定です)
※ 本資料で紹介する知見は 2024-11-12 時点での情報に基づいています。
※ Speaker Deck 上だと、フォントがかすれて見にくくなっているので、気になる方は pdf ファイルをダウンロードして閲覧してください 🙇