大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案【MIRU 2024】

Slide 1

Slide 1 text

⼤規模⾔語モデルを⽤いた⽇本語視覚⾔語モデルの評価⽅法とベースラインモデルの提案佐々⽊謙⼈*,1, 2 井ノ上雄⼀*,1, 3 藤井⼀喜1, 4 棚橋耕太郎1 ⼭⼝祐1, 3 Turing株式会社1 筑波⼤学⼤学院⼈間総合科学学術院2 慶応義塾⼤学SFC研究所3 東京⼯業⼤学情報理⼯学院4 * equal contribution

Slide 2

Slide 2 text

研究背景と⽬的 1 ● ベースラインモデルHeron-GITを構築 ● 評価ベンチマークHeron-Benchを提案 ● 近年、GPT-4V[OpenAI 2023]やLLaVA[Liu+ 2023]など様々な視覚⾔語モデル (VLM: Vision Language Model)が提案されている ● ⾼性能なVLMは、英語中⼼のデータセットで学習されている ● 英語圏以外においてVLMの構築⽅法や性能を評価するためのベンチマークが未整備であることが課題⽇本語VLMを発展させるためには、⽇本語を対象としたベースラインモデルと評価ベンチマークが必要不可⽋

Slide 3

Slide 3 text

関連研究 2 ● 主要なVQA（Visual Question Answering）ベンチマーク ○ VQA v2 [Goyal + 2017] ○ GQA [Hudson and Manning 2019] ● LLMを⽤いたVQAのベンチマーク ○ TouchStone [Bai+ 2023] ○ LLaVA-Bench (COCO, in-the-wild) [Liu+ 2023] ■ 画像理解と会話能⼒をGPT-4を⽤いて定量的に図るために提案 ■ Conversation, Detail, Complexの3つのカテゴリのスコア算出英語の代表的なVLM評価ベンチマーク [VLMEvalKit 2024] 本研究では、LLaVA-Benchを参考に画像理解と会話能⼒の観点から⽇本語VLMの性能を評価するためのベンチマークを作成

Slide 4

Slide 4 text

Heron-Bench 3 ● ⽇本に由来する21枚の画像 (CC BY 1.0 / CC BY 2.0) に基づく102の質問 ● Conversation, Detail, Complex カテゴリごとに、テキストアノテーションを付与 ● 各画像は7つのサブカテゴリに分類 Anime Art Landmark Culture Food Landscape Traﬃc

Slide 5

Slide 5 text

Heron-Benchのスコア算出⽅法 4 1. 画像の説明⽂を⼈⼿で付与する (コンテキスト) 2. GPT-4 (No Vision)にコンテキストとプロンプトを与えてGPT-4回答⽂を作成 3. コンテキスト、GPT-4回答、VLM回答をGPT-4に与えて10点満点で評価この場所における制限速度はいくつですか？ Gemini Pro 速度は時速40キロです。[Score: 9] Claude 3 Opus 画像の道路標識によると、この場所の制限速度は 23km/hから12km/hに減速することが⽰されています。[Score: 1] アシスタントの回答は、質問に対して不正確であり、誤解を招く情報を提供しています。質問は「この場所における制限速度はいくつですか？」というものでしたが、アシスタントは制限速度として「23km/hから12km/hに減速すること」と回答しています。これは、画像に表⽰されている距離標識（ニセコまで12km、倶知安まで23km）を誤って速度制限と解釈してしまったものです。

Slide 6

Slide 6 text

実験：ベースラインモデルの構築 5 ⽇本語VLMのベースラインモデルHeron-GIT DeepLを⽤いて⽇本語に翻訳したLLaVA-1.5[Liu+ 2023]の事前学習: 約558K、視覚指⽰チューニング: 約665Kの画像-テキストペアデータセットを⽤いて学習 Tokenize & Embed Text Decoder (japanese-stablelm-base-alpha-7b) Image Encoder (CLIPViT-L-336px ) BOS 写真の概要を簡潔明瞭に説明してください。 EOS … …

Slide 7

Slide 7 text

実験結果 6 ● LLMと同様にクローズドモデル (GPT-4V, Claude 3 Opus etc.)のスコアが⾼い ● LLaVA-Bench (in-the-wild)とHeron-Benchを⽐較すると10%以上の差がある →⽇本特有の⽂化的理解は改善の余地あり

Slide 8

Slide 8 text

考察：コンテキスト理解 7 Q: あなたは⾞を運転しており、交差点で右折しようと思っています。このまま交差点に向かってよいでしょうか？ GPT-4Vのみ⾚信号と交通誘導員の指⽰を正しく理解 Heron GIT : いいえ、あなたは右に曲がる前に、交通信号が変わるのを待ってください。[Score: 6] Claude 3 Opus : いいえ、このまま交差点に向かってはいけません。信号が⾚なので、⼀時停⽌して⻘信号になるまで待つ必要があります。交通ルールを守り、安全運転を⼼がけましょう。[Score: 6] GPT-4V : 交差点に向かう前に停⽌する必要があります。画像には⾚信号が表⽰されており、交通整理のために⽴っている作業員もいます。作業員は⾚い旗を持っていて、交通を制御している様⼦が⾒受けられます。安全に右折するためには、信号と作業員の指⽰に従う必要があります。信号が緑に変わり、作業員が進⾏を許可したときのみ、交差点に進⼊して右折することができます。[Score: 8]

Slide 9

Slide 9 text

考察：⽇本⽂化の理解 8 ⼟俵には3⼈の⼒⼠がいるが、すべてのモデルが「2⼈の⼒⼠」と回答通常、相撲は2⼈の⼒⼠が対戦するという⼀般的な知識に影響され、視覚情報を正確に反映できていないことが⽰唆される Q: 相撲の⼒⼠が何をしているかを説明してください。 Heron GIT : 画像では、2⼈の⼒⼠のパフォーマンスが⾏われており、1⼈はリングの上で相撲の技を披露し、もう1⼈の⼒⼠はリングの近くで太⿎を叩いています。（略）[Score: 2] Claude 3 Opus : 画像は相撲の取組の様⼦を捉えたものです。⼟俵の上で2⼈の⼒⼠が対峙し、四股を踏んでいる最中のようです。⼟俵の周りには⼤勢の観客が⾒守っており、伝統的な相撲の興⾏の雰囲気が伝わってきます。⼒⼠たちは精⼀杯の⼒を出し合い、勝負の⾏⽅に観客も注⽬しているのが分かります。（略）[Score: 4] GPT-4V : この写真は、⽇本の伝統的なスポーツである相撲の試合を捉えたものです。⼒⼠たちは⼟俵の上で対戦しており、周囲には観客が詰めかけています。写真の中央にいる⼆⼈の⼒⼠は、試合の⼀環として、おそらく⽴ち合い直前の儀式を⾏っているところです。（略）[Score: 4]

Slide 10

Slide 10 text

まとめ ● ⽇本語VLMの性能を包括的に評価するHeron-Benchを提案 ● Heron-GITはオープンモデルにおいて競争⼒のある性能を獲得 ● GPT-4V、Claude 3 Opus、LLaVAなど英語圏で提案された既存のVLMは⽇本の⽂化的理解に課題あり 9 ● データセット、モデル、プロジェクトコードの全てを公開 ● Weights＆Biases社と技術協⼒し、Heron-VLM Leaderboardを公開 Project Code Dataset, Model Heron-VLM Leaderboard

Slide 11

Slide 11 text

Heron-VLM Leaderboard ● Heron-VLM Leaderboard powered by Nejumi@Wandb ○ Weights & Biases社と技術協⼒し、⽇本語VLMのリーダボードを整備 ○ Heron-Bench, LLaVA-Bench (in-the-wild)を⽤いた⾃動評価 ○ GPT-4Vを含む16以上のVLMの⽇本語性能がひと⽬で確認可能 10 http://vlm.nejumi.ai/

Slide 12

Slide 12 text

公開URL⼀覧 ● Demo https://heron-demo.turing-motors.com ● TechBlog https://zenn.dev/turing_motors/articles/8e913f46374ede ● GitHub https://github.com/turingmotors/heron ● Heron-GIT (Model Weight) https://huggingface.co/turing-motors/heron-chat-git-ja-stablelm-base-7b-v1 ● Heron-Bench (Dataset) https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench 11

Slide 13

Slide 13 text

参考⽂献 12 ● Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, and David Ha. Evolutionary optimization of model merging recipes, 2024. ● Anthropic. Introducing the next generation of claude. available at: https://www.anthropic.com/news/ claude-3-family. ● Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A versatile vision-language model for understanding, localization, text reading, and beyond, 2023. ● Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the V in VQA Matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. ● Drew A. Hudson and Christopher D. Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. ● Meng Lee, Fujiki Nakamura, Makoto Shing, Paul McCann, Takuya Akiba, and Naoki Orii. Japanese stablelm base alpha 7b.

Slide 14

Slide 14 text

参考⽂献 13 ● Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning, 2023. ● OpenAI. Gpt-4v(ision) system card, 2023. ● Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning, 2023. ● Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530, 2024.