Slide 1

Slide 1 text

©2024 CyberAgent Inc. Distribution prohibited LLM評価の落とし穴 ~開発者目線で気をつけるポイント~ GENIACコミュニティ勉強会#1 Ryosuke Ishigami (CyberAgent) 2024/05/13

Slide 2

Slide 2 text

©2024 CyberAgent Inc. Distribution prohibited 概要 2 はじめに ● LLMの主要なベンチマークと開発者目線で気をつけるポイントを紹介 ○ JP LM Evaluation Harness ○ llm-jp-eval ○ Japanese-MT-Bench ○ MMLU ○ GSM8k ○ Chatbot Arena →評価の落とし穴を意識してより良いモデル開発が行えるように ● 今後の方向性について議論

Slide 3

Slide 3 text

©2024 CyberAgent Inc. Distribution prohibited JP LM Evaluation Harnessについて 3 ベンチマーク ● JGLUE, XLSum, XWinogrand, MGSMなどが含まれるFew-shot形式の日本語ベンチマーク ● 旧バージョンと新バージョンがあり、ベンチマークの種類や評価指標に違いがある データ例 https://github.com/Stability-AI/lm-evaluation-harness 与えられた選択肢の中から、最適な答えを選んでください。 質問:街のことは? 選択肢:- タウン - 劇場 - ホーム - ハウス - ニューヨークシティ 回答:タウン 質問:必要な機器などを取り付けることをなんという? 選択肢:- 用意 - ペーパー - 準備 - 装備 - 針金 回答:装備 質問:ブラウザと言えば? 選択肢:- ペンタゴン - 記憶媒体 - 会社 - グーグル - フロッピー 回答:グーグル 質問:生理現象なのは? 選択肢:- 準備する - おしっこする - 風 - 雨 - ベッドに入る 回答: リポジトリ

Slide 4

Slide 4 text

©2024 CyberAgent Inc. Distribution prohibited JP LM Evaluation Harnessの落とし穴 4 落とし穴 ● プロンプトを変えるだけで正解率が変化 ● 予測や評価指標のバイアスも指摘されている プロンプトの影響 予測・評価のバイアス https://tech.preferred.jp/ja/blog/prompt-tuning/ https://arxiv.org/abs/2404.17790 https://arxiv.org/abs/2403.15484

Slide 5

Slide 5 text

©2024 CyberAgent Inc. Distribution prohibited llm-jp-evalについて 5 ベンチマーク データ例 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してく ださい。なお、回答は選択肢の番号(例:0)でするものとします。回答 となる数値をint型で返し、他には何も含めないことを厳守してくださ い。 質問:ワシントンが首都の国は? 選択肢:0.州,1.北海道,2.アメリカ,3.中部地方,4.ロシア リポジトリ https://github.com/llm-jp/llm-jp-eval ● Multi-Choice QA, NLI, Reading Comprehensionなど複数タスクからなる日本語ベンチマーク ● 尤度ではなく言語モデルの生成結果を直接使う評価を行う

Slide 6

Slide 6 text

©2024 CyberAgent Inc. Distribution prohibited llm-jp-evalの落とし穴 6 落とし穴 訓練データの学習によるスコア向上 ゼロショット形式の難しさ https://speakerdeck.com/olachinkei/llm-jp-eval-ri-ben-yu-da-gui-m o-yan-yu-moteruno-zi-dong-ping-jia-turunokai-fa-nixiang-kete # jemhopqa (Llama-3-70B-Instruct) 質問を入力とし、回答を出力してください。 回答の他には何も含めないことを厳守してく ださい。 質問:徳川家宣の父方の祖父の墓所は何とい うお寺にありますか? 回答:徳川家宣の父方の祖父の墓所は(※文 字数制限) 正解:輪王寺 https://wandb.ai/wandb-japan/llm-leaderbo ard/runs/396f6utw?nw=nwuseraswandb ● 訓練データで学習することで大きくスコアが向上することが知られている (学習の有無で差がついてしまう) ● ゼロショット設定では正しいフォーマットで回答するのが難しい場合も

Slide 7

Slide 7 text

©2024 CyberAgent Inc. Distribution prohibited llm-jp-evalの言い換え検証 7 検証 JCommonsenseQAの言い換え 評価結果(4-shot/100samples) オリジナル 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。なお、回答は 選択肢の番号(例: 0)でするものとします。 回答となる数値を int型で返し、他には何も含め ないことを厳守してください。 質問:電子機器で使用される最も主要な電子回路基板の事をなんと言う? 選択肢:0.掲示 板,1.パソコン,2.マザーボード ,3.ハードディスク ,4.まな板 回答:2 言い換え 質問と回答の選択肢を入力として受け取り、選択肢から 不正解となる回答をすべて選択してく ださい。 なお、回答は選択肢の番号(例: 1,2,3,4)でするものとします。 回答となる数値を int型でカンマ区切りで出力してください。 質問:電子機器で使用される最も主要な電子回路基板の事をなんと言う? 選択肢:0.掲示 板,1.パソコン,2.マザーボード ,3.ハードディスク ,4.まな板 回答:0,1,3,4 model オリジナル 言い換え gpt-4-turbo 95 78 gpt-3.5-turbo 90 56 RakutenAI-7B-instruct 91 7 llm-jp-13b-instruct-full-jast er-v1.0 71 5 Swallow-13b-instruct-hf 71 8 ● 問題文を言い換えるだけで正解率に大きな影響 ● 訓練データを学習したとしても似たようなタスクに汎化するとは限らない

Slide 8

Slide 8 text

©2024 CyberAgent Inc. Distribution prohibited Japanese MT-benchについて 8 ベンチマーク https://github.com/Stability-AI/FastChat/tree/j p-stable/fastchat/llm_judge 評価結果の例 # Writing Turn 1 新人社員へのビジネスメールのエチケットについての指導書を作成してくださ い。敬語の正しい使い方や、日本のビジネス文化での注意点を取り入れてくださ い。 Turn 2 自分の作成した指導書を客観的に評価し、改善点があれば指摘してください。 # Math Turn 1 (math) 三角形の頂点が点 (0, 0)、(-1, 1)、(3, 3) にあるとき、その三角形の面 積は何ですか? Turn 2 (math) その三角形を外接する円の面積は何ですか? データ例 ● 8カテゴリ/マルチターンからなる日本語指示応答の能力を測るベンチマーク ● GPT-4により1~10点の評価を行う(LLM as a Judge)

Slide 9

Slide 9 text

©2024 CyberAgent Inc. Distribution prohibited Japanese MT-benchの落とし穴 9 落とし穴 日本語能力の評価? Judgement bias # Roleplay (Llama-3-70B-Instruct) Question あなたはAIエンジニアです。複雑な AIの概念を簡単に説明し、技術的な背景を持たな い顧客が製品を理解し、信頼するようにします。まず、「言語モデルとは何ですか? ラベル付けされたデータやラベル付けされていないデータを使用して訓練されます か?」という質問から始めましょう。 Answer I'd be happy to explain what a language model is and how it's trained in a way that's easy to understand. 😊 What is a Language Model? A language model is a type of artificial intelligence (AI) that is trained to understand and generate human-like language. It's like a super smart robot that can read, write, and converse with humans in a natural way. … Score 10 https://wandb.ai/wandb-japan/llm-leaderboard/runs/396f6utw?nw=nwuseraswandb https://arxiv.org/abs/2402.10669 ● 指示によって日本語以外の回答でも高いスコアをつけることがある ● 冗長性や位置バイアスなど、様々なバイアスが報告されている

Slide 10

Slide 10 text

©2024 CyberAgent Inc. Distribution prohibited Japanese MT-benchのスコアのばらつき検証 10 検証 同一モデル(temp=0.7)の複数出力の評価 GPT-4のバージョン違いによる同一出力の評価 model score Llama3-8B-Instruct (1) 6.81 Llama3-8B-Instruct (2) 7.13 Llama3-8B-Instruct (3) 7.07 Llama3-8B-Instruct (4) 7.32 version score gpt-4-0613 6.81 gpt-4-1106-preview 4.77 gpt-4-0125-preview 5.68 gpt-4-turbo-2024-04-09 6.05 ● Llama3-8B-Instruct (temp=0.7)の複数の出力をgpt-4-0613で評価 ● Llama3-8B-Instruct (temp=0.7)の1つの出力を複数のgpt-4で評価 ● どちらもばらつきが見られる

Slide 11

Slide 11 text

©2024 CyberAgent Inc. Distribution prohibited MMLUについて 11 ベンチマーク ● 数学・歴史・コンピュータサイエンス・法律など57分野の専門知識を問う4択形式の問題 ● 高校~大学レベルの問題が中心 データ例 https://arxiv.org/abs/2009.03300

Slide 12

Slide 12 text

©2024 CyberAgent Inc. Distribution prohibited MMLUの落とし穴 12 落とし穴 ● 多答式のデータを学習するだけで性能が向上(モデルの知識が増えているわけではない) ● 回答形式を変更することで正解率が大きく変わることも 多答式データの寄与 https://arxiv.org/abs/2401.02954 回答形式の変更 https://arxiv.org/abs/2402.01781

Slide 13

Slide 13 text

©2024 CyberAgent Inc. Distribution prohibited GSM8kについて 13 ベンチマーク ● 複数ステップの推論が必要な小学校レベルの数学の問題 データ例 https://arxiv.org/abs/2110.14168

Slide 14

Slide 14 text

©2024 CyberAgent Inc. Distribution prohibited GSM8kの落とし穴 14 落とし穴 ● 合成データセットの使用などによりベンチマークに過学習している可能性 ● 訓練データやテストデータの使用の有無についても議論がある 新規データセットでの正解率の低下 https://arxiv.org/abs/2405.00332v2 https://arxiv.org/abs/2310.19341 訓練データとテストデータのLoss比較

Slide 15

Slide 15 text

©2024 CyberAgent Inc. Distribution prohibited Chatbot Arenaについて 15 ベンチマーク ● 2つのモデルの出力に対してどちらが良いかをユーザーに選択させるブラインド方式 ● 人手評価のため信頼性が高いと言われている 評価システムの例 https://chat.lmsys.org/

Slide 16

Slide 16 text

©2024 CyberAgent Inc. Distribution prohibited Chatbot Arenaの落とし穴 16 落とし穴 ● フォーマットを整えることでユーザーの印象が良くなる(モデルの性能とは無関係) ● 難易度の高いサンプルや専門知識が必要なサンプルでの評価が少ない フォーマットによるハック https://www.reddit.com/r/LocalLLaMA/comments/1cbdr4j/ge mini_15_pro_has_hacked_the_arena_through_nicer/ 難易度の違いによる勝率の変化 https://lmsys.org/blog/2024-05-08-llama3/

Slide 17

Slide 17 text

©2024 CyberAgent Inc. Distribution prohibited 事前学習データの落とし穴 17 落とし穴 ● 事前学習データセットにベンチマークの言い換えが含まれている ● n-gramでは検出できないベンチマークデータに似たデータも存在している ● この種のデータに偏らせることで「ベンチマーク上でGPT-4を超える性能」も達成可能 (過学習のため未知タスクには対応不可) 事前学習データに含まれる言い換えサンプル https://arxiv.org/abs/2311.04850 n-gramでは検出できない似たサンプルによる学習結果 https://arxiv.org/abs/2401.12246

Slide 18

Slide 18 text

©2024 CyberAgent Inc. Distribution prohibited チューニングの落とし穴 18 落とし穴 モデルA ベンチマーク モデルB モデルC モデルD ベンチマークへの過学習 ● 同じベンチマークでチューニングと評価を繰り返すと過学習が起きる ● チューニング用と評価用を分けるのが望ましい ● Japanese MT-benchのような単一のベンチマークを使用する際は注意(llm-jp-evalは devとtestが存在) モデル チューニング用 ベンチマーク 評価用 ベンチマーク チューニング用と評価用ベンチマークの区別 ● チェックポイントの選択 ● 指示チューニング ● アライメントチューニング ● モデルマージ ● モデルの最終評価 ● 他モデルとの比較 ● チェックポイントの選択 ● 指示チューニング ● アライメントチューニング ● モデルマージ ● モデルの最終評価 ● 他モデルとの比較

Slide 19

Slide 19 text

©2024 CyberAgent Inc. Distribution prohibited まとめ 19 最後に ● LLMの主要なベンチマークと開発者目線で気をつけるポイントを紹介 ○ JP LM Evaluation Harness ○ llm-jp-eval ○ Japanese-MT-Bench ○ MMLU ○ GSM8k ○ Chatbot Arena ● 今後の方向性 ○ 評価のバリエーションを増やす(専門知識、高度な推論能力、Long Context、 ビジネスドメインなど) ○ ベンチマークの問題を定期的に更新する(MT-Benchなど) ○ ベンチマークを作成する際は開発者がアクセスできないPrivateセットも用意し ておく(過学習対策) ○ ステークホルダー間でより良い評価のための知見の共有や意見交換を行う