LLM評価の落とし穴~開発者目線で気をつけるポイント~

©2024 CyberAgent Inc. Distribution prohibited LLM評価の落とし穴 ~開発者目線で気をつけるポイント~ GENIACコミュニティ勉強会#1 Ryosuke Ishigami
(CyberAgent) 2024/05/13

©2024 CyberAgent Inc. Distribution prohibited 概要 2 はじめに • LLMの主要なベンチマークと開発者目線で気をつけるポイントを紹介
◦ JP LM Evaluation Harness ◦ llm-jp-eval ◦ Japanese-MT-Bench ◦ MMLU ◦ GSM8k ◦ Chatbot Arena →評価の落とし穴を意識してより良いモデル開発が行えるように • 今後の方向性について議論

©2024 CyberAgent Inc. Distribution prohibited JP LM Evaluation Harnessについて 3
ベンチマーク • JGLUE, XLSum, XWinogrand, MGSMなどが含まれるFew-shot形式の日本語ベンチマーク • 旧バージョンと新バージョンがあり、ベンチマークの種類や評価指標に違いがあるデータ例 https://github.com/Stability-AI/lm-evaluation-harness 与えられた選択肢の中から、最適な答えを選んでください。質問：街のことは？選択肢：- タウン - 劇場 - ホーム - ハウス - ニューヨークシティ回答：タウン質問：必要な機器などを取り付けることをなんという？選択肢：- 用意 - ペーパー - 準備 - 装備 - 針金回答：装備質問：ブラウザと言えば？選択肢：- ペンタゴン - 記憶媒体 - 会社 - グーグル - フロッピー回答：グーグル質問：生理現象なのは？選択肢：- 準備する - おしっこする - 風 - 雨 - ベッドに入る回答：リポジトリ

©2024 CyberAgent Inc. Distribution prohibited JP LM Evaluation Harnessの落とし穴 4
落とし穴 • プロンプトを変えるだけで正解率が変化 • 予測や評価指標のバイアスも指摘されているプロンプトの影響予測・評価のバイアス https://tech.preferred.jp/ja/blog/prompt-tuning/ https://arxiv.org/abs/2404.17790 https://arxiv.org/abs/2403.15484

©2024 CyberAgent Inc. Distribution prohibited llm-jp-evalについて 5 ベンチマークデータ例質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してく
ださい。なお、回答は選択肢の番号（例：0）でするものとします。回答となる数値をint型で返し、他には何も含めないことを厳守してください。質問：ワシントンが首都の国は？選択肢：0.州,1.北海道,2.アメリカ,3.中部地方,4.ロシアリポジトリ https://github.com/llm-jp/llm-jp-eval • Multi-Choice QA, NLI, Reading Comprehensionなど複数タスクからなる日本語ベンチマーク • 尤度ではなく言語モデルの生成結果を直接使う評価を行う

©2024 CyberAgent Inc. Distribution prohibited llm-jp-evalの落とし穴 6 落とし穴訓練データの学習によるスコア向上ゼロショット形式の難しさ
https://speakerdeck.com/olachinkei/llm-jp-eval-ri-ben-yu-da-gui-m o-yan-yu-moteruno-zi-dong-ping-jia-turunokai-fa-nixiang-kete # jemhopqa (Llama-3-70B-Instruct) 質問を入力とし、回答を出力してください。回答の他には何も含めないことを厳守してください。質問：徳川家宣の父方の祖父の墓所は何というお寺にありますか？回答：徳川家宣の父方の祖父の墓所は（※文字数制限）正解：輪王寺 https://wandb.ai/wandb-japan/llm-leaderbo ard/runs/396f6utw?nw=nwuseraswandb • 訓練データで学習することで大きくスコアが向上することが知られている（学習の有無で差がついてしまう） • ゼロショット設定では正しいフォーマットで回答するのが難しい場合も

©2024 CyberAgent Inc. Distribution prohibited llm-jp-evalの言い換え検証 7 検証 JCommonsenseQAの言い換え評価結果（4-shot/100samples）
オリジナル質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。なお、回答は選択肢の番号（例： 0）でするものとします。回答となる数値を int型で返し、他には何も含めないことを厳守してください。質問：電子機器で使用される最も主要な電子回路基板の事をなんと言う？選択肢：0.掲示板,1.パソコン,2.マザーボード ,3.ハードディスク ,4.まな板回答：2 言い換え質問と回答の選択肢を入力として受け取り、選択肢から不正解となる回答をすべて選択してください。なお、回答は選択肢の番号（例： 1,2,3,4）でするものとします。回答となる数値を int型でカンマ区切りで出力してください。質問：電子機器で使用される最も主要な電子回路基板の事をなんと言う？選択肢：0.掲示板,1.パソコン,2.マザーボード ,3.ハードディスク ,4.まな板回答：0,1,3,4 model オリジナル言い換え gpt-4-turbo 95 78 gpt-3.5-turbo 90 56 RakutenAI-7B-instruct 91 7 llm-jp-13b-instruct-full-jast er-v1.0 71 5 Swallow-13b-instruct-hf 71 8 • 問題文を言い換えるだけで正解率に大きな影響 • 訓練データを学習したとしても似たようなタスクに汎化するとは限らない

©2024 CyberAgent Inc. Distribution prohibited Japanese MT-benchについて 8 ベンチマーク https://github.com/Stability-AI/FastChat/tree/j
p-stable/fastchat/llm_judge 評価結果の例 # Writing Turn 1 新人社員へのビジネスメールのエチケットについての指導書を作成してください。敬語の正しい使い方や、日本のビジネス文化での注意点を取り入れてください。 Turn 2 自分の作成した指導書を客観的に評価し、改善点があれば指摘してください。 # Math Turn 1 (math) 三角形の頂点が点 (0, 0)、(-1, 1)、(3, 3) にあるとき、その三角形の面積は何ですか？ Turn 2 (math) その三角形を外接する円の面積は何ですか？データ例 • 8カテゴリ/マルチターンからなる日本語指示応答の能力を測るベンチマーク • GPT-4により1~10点の評価を行う（LLM as a Judge）

©2024 CyberAgent Inc. Distribution prohibited Japanese MT-benchの落とし穴 9 落とし穴日本語能力の評価？
Judgement bias # Roleplay (Llama-3-70B-Instruct) Question あなたはAIエンジニアです。複雑な AIの概念を簡単に説明し、技術的な背景を持たない顧客が製品を理解し、信頼するようにします。まず、「言語モデルとは何ですか？ラベル付けされたデータやラベル付けされていないデータを使用して訓練されますか？」という質問から始めましょう。 Answer I'd be happy to explain what a language model is and how it's trained in a way that's easy to understand. 😊 What is a Language Model? A language model is a type of artificial intelligence (AI) that is trained to understand and generate human-like language. It's like a super smart robot that can read, write, and converse with humans in a natural way. … Score 10 https://wandb.ai/wandb-japan/llm-leaderboard/runs/396f6utw?nw=nwuseraswandb https://arxiv.org/abs/2402.10669 • 指示によって日本語以外の回答でも高いスコアをつけることがある • 冗長性や位置バイアスなど、様々なバイアスが報告されている

©2024 CyberAgent Inc. Distribution prohibited Japanese MT-benchのスコアのばらつき検証 10 検証同一モデル（temp=0.7）の複数出力の評価
GPT-4のバージョン違いによる同一出力の評価 model score Llama3-8B-Instruct (1) 6.81 Llama3-8B-Instruct (2) 7.13 Llama3-8B-Instruct (3) 7.07 Llama3-8B-Instruct (4) 7.32 version score gpt-4-0613 6.81 gpt-4-1106-preview 4.77 gpt-4-0125-preview 5.68 gpt-4-turbo-2024-04-09 6.05 • Llama3-8B-Instruct (temp=0.7)の複数の出力をgpt-4-0613で評価 • Llama3-8B-Instruct (temp=0.7)の１つの出力を複数のgpt-4で評価 • どちらもばらつきが見られる

©2024 CyberAgent Inc. Distribution prohibited MMLUについて 11 ベンチマーク • 数学・歴史・コンピュータサイエンス・法律など57分野の専門知識を問う4択形式の問題
• 高校~大学レベルの問題が中心データ例 https://arxiv.org/abs/2009.03300

©2024 CyberAgent Inc. Distribution prohibited MMLUの落とし穴 12 落とし穴 • 多答式のデータを学習するだけで性能が向上（モデルの知識が増えているわけではない）
• 回答形式を変更することで正解率が大きく変わることも多答式データの寄与 https://arxiv.org/abs/2401.02954 回答形式の変更 https://arxiv.org/abs/2402.01781

©2024 CyberAgent Inc. Distribution prohibited GSM8kについて 13 ベンチマーク • 複数ステップの推論が必要な小学校レベルの数学の問題
データ例 https://arxiv.org/abs/2110.14168

©2024 CyberAgent Inc. Distribution prohibited GSM8kの落とし穴 14 落とし穴 • 合成データセットの使用などによりベンチマークに過学習している可能性
• 訓練データやテストデータの使用の有無についても議論がある新規データセットでの正解率の低下 https://arxiv.org/abs/2405.00332v2 https://arxiv.org/abs/2310.19341 訓練データとテストデータのLoss比較

©2024 CyberAgent Inc. Distribution prohibited Chatbot Arenaについて 15 ベンチマーク •
2つのモデルの出力に対してどちらが良いかをユーザーに選択させるブラインド方式 • 人手評価のため信頼性が高いと言われている評価システムの例 https://chat.lmsys.org/

©2024 CyberAgent Inc. Distribution prohibited Chatbot Arenaの落とし穴 16 落とし穴 •
フォーマットを整えることでユーザーの印象が良くなる（モデルの性能とは無関係） • 難易度の高いサンプルや専門知識が必要なサンプルでの評価が少ないフォーマットによるハック https://www.reddit.com/r/LocalLLaMA/comments/1cbdr4j/ge mini_15_pro_has_hacked_the_arena_through_nicer/ 難易度の違いによる勝率の変化 https://lmsys.org/blog/2024-05-08-llama3/

©2024 CyberAgent Inc. Distribution prohibited 事前学習データの落とし穴 17 落とし穴 • 事前学習データセットにベンチマークの言い換えが含まれている
• n-gramでは検出できないベンチマークデータに似たデータも存在している • この種のデータに偏らせることで「ベンチマーク上でGPT-4を超える性能」も達成可能（過学習のため未知タスクには対応不可）事前学習データに含まれる言い換えサンプル https://arxiv.org/abs/2311.04850 n-gramでは検出できない似たサンプルによる学習結果 https://arxiv.org/abs/2401.12246

©2024 CyberAgent Inc. Distribution prohibited チューニングの落とし穴 18 落とし穴モデルA ベンチマーク
モデルB モデルC モデルD ベンチマークへの過学習 • 同じベンチマークでチューニングと評価を繰り返すと過学習が起きる • チューニング用と評価用を分けるのが望ましい • Japanese MT-benchのような単一のベンチマークを使用する際は注意（llm-jp-evalは devとtestが存在）モデルチューニング用ベンチマーク評価用ベンチマークチューニング用と評価用ベンチマークの区別 • チェックポイントの選択 • 指示チューニング • アライメントチューニング • モデルマージ • モデルの最終評価 • 他モデルとの比較 • チェックポイントの選択 • 指示チューニング • アライメントチューニング • モデルマージ • モデルの最終評価 • 他モデルとの比較

©2024 CyberAgent Inc. Distribution prohibited まとめ 19 最後に • LLMの主要なベンチマークと開発者目線で気をつけるポイントを紹介
◦ JP LM Evaluation Harness ◦ llm-jp-eval ◦ Japanese-MT-Bench ◦ MMLU ◦ GSM8k ◦ Chatbot Arena • 今後の方向性 ◦ 評価のバリエーションを増やす（専門知識、高度な推論能力、Long Context、ビジネスドメインなど） ◦ ベンチマークの問題を定期的に更新する（MT-Benchなど） ◦ ベンチマークを作成する際は開発者がアクセスできないPrivateセットも用意しておく（過学習対策） ◦ ステークホルダー間でより良い評価のための知見の共有や意見交換を行う

LLM評価の落とし穴~開発者目線で気をつけるポイント~

LLM評価の落とし穴~開発者目線で気をつけるポイント~

rishigami

More Decks by rishigami

Other Decks in Technology

Featured

Transcript

©2024 CyberAgent Inc. Distribution prohibited LLM評価の落とし穴 ~開発者目線で気をつけるポイント~ GENIACコミュニティ勉強会#1 Ryosuke Ishigami

©2024 CyberAgent Inc. Distribution prohibited 概要 2 はじめに • LLMの主要なベンチマークと開発者目線で気をつけるポイントを紹介

©2024 CyberAgent Inc. Distribution prohibited JP LM Evaluation Harnessについて 3

©2024 CyberAgent Inc. Distribution prohibited JP LM Evaluation Harnessの落とし穴 4

©2024 CyberAgent Inc. Distribution prohibited llm-jp-evalについて 5 ベンチマークデータ例質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してく

©2024 CyberAgent Inc. Distribution prohibited llm-jp-evalの落とし穴 6 落とし穴訓練データの学習によるスコア向上ゼロショット形式の難しさ

©2024 CyberAgent Inc. Distribution prohibited llm-jp-evalの言い換え検証 7 検証 JCommonsenseQAの言い換え評価結果（4-shot/100samples）

©2024 CyberAgent Inc. Distribution prohibited Japanese MT-benchについて 8 ベンチマーク https://github.com/Stability-AI/FastChat/tree/j

©2024 CyberAgent Inc. Distribution prohibited Japanese MT-benchの落とし穴 9 落とし穴日本語能力の評価？

©2024 CyberAgent Inc. Distribution prohibited Japanese MT-benchのスコアのばらつき検証 10 検証同一モデル（temp=0.7）の複数出力の評価

©2024 CyberAgent Inc. Distribution prohibited MMLUについて 11 ベンチマーク • 数学・歴史・コンピュータサイエンス・法律など57分野の専門知識を問う4択形式の問題

©2024 CyberAgent Inc. Distribution prohibited MMLUの落とし穴 12 落とし穴 • 多答式のデータを学習するだけで性能が向上（モデルの知識が増えているわけではない）

©2024 CyberAgent Inc. Distribution prohibited GSM8kについて 13 ベンチマーク • 複数ステップの推論が必要な小学校レベルの数学の問題

©2024 CyberAgent Inc. Distribution prohibited GSM8kの落とし穴 14 落とし穴 • 合成データセットの使用などによりベンチマークに過学習している可能性

©2024 CyberAgent Inc. Distribution prohibited Chatbot Arenaについて 15 ベンチマーク •

©2024 CyberAgent Inc. Distribution prohibited Chatbot Arenaの落とし穴 16 落とし穴 •

©2024 CyberAgent Inc. Distribution prohibited 事前学習データの落とし穴 17 落とし穴 • 事前学習データセットにベンチマークの言い換えが含まれている

©2024 CyberAgent Inc. Distribution prohibited チューニングの落とし穴 18 落とし穴モデルA ベンチマーク

©2024 CyberAgent Inc. Distribution prohibited まとめ 19 最後に • LLMの主要なベンチマークと開発者目線で気をつけるポイントを紹介