Upgrade to Pro — share decks privately, control downloads, hide ads and more …

進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見

進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見

Weights & Biasesの年次開催ユーザーカンファレンスFully Connected Tokyo 2025の講演スライド

Avatar for Naoaki Okazaki

Naoaki Okazaki PRO

October 31, 2025
Tweet

More Decks by Naoaki Okazaki

Other Decks in Technology

Transcript

  1. 大規模言語モデルSwallow(with 東京科学大学・横田研、産総研) https://swallow-llm.github.io/ https://huggingface.co/tokyotech-llm オープンなLLM  HuggingFace上でモデルを公開  オンプレミス環境ならば情報漏洩の心配がない 

    タスクやドメインに関してチューニングできる  商用利用可で寛容的なライセンス アカデミックな開発  東京科学大学の学生・スタッフを中心に開発  モデルの学習にTSUBAME 4.0やABCI 3.0を利用  構築方法、実験結果、データを公開することで、 日本のLLMの研究開発を後押し 賢い大規模言語モデルを構築するための「レシピ」を追求  日本語や日本に関する知識を強化したLLMを構築して、日本におけるLLMの研究開発・利用を促進する  フルスクラッチではなく継続事前学習で構築し、賢いLLMのレシピを効率よく探索・実験・検証する 1
  2. 評価はLLM開発の羅針盤であり、価値創造でもある 「評価とは創造である。創造者たちよ、これを聞け!評価するという行為そのものが、私たちが価 値あるとみなすすべてのものの中で最も貴重な宝なのだ。価値は評価を通じてのみ存在し、もし評 価がなければ、存在という実の核は空虚なものとなるだろう。創造者たちよ、これを聞け!」 ― フリードリヒ・ニーチェ LLMが身に付けるべき能力を定め、開発が目標に向かって進んでいるか検証する  言語能力、常識的知識、論理的思考力、応用力、指示追従能力、対話能力、好感度、安全性など 

    測定したい能力に対応したベンチマークデータや評価手法を収集・整備する  事前学習・事後学習済みのモデルなど、LLMの学習ステージに合わせた評価を設計する  事前学習のみのモデル: 言語能力、常識的な知識、論理的思考力など  事後学習済みモデル: 応用力、指示追従能力、対話能力、好感度、安全性など  安定性・信頼性のある評価基盤を整備することが重要 3
  3. 代表的な日本語LLM評価フレームワーク Nejumi Leaderboard 4[1,2] LLM-jp-eval[3,4] Swallow-evaluation[5,6] Swallow-evaluation-instruct[7,8] [1] https://nejumi.ai/ [2]

    https://github.com/wandb/llm-leaderboard [5] https://github.com/swallow-llm/swallow-evaluation [6] https://swallow-llm.github.io/leaderboard/index-pre.ja.html [3] https://github.com/llm-jp/llm-jp-eval [4] https://huggingface.co/spaces/llm-jp/open-japanese-llm-leaderboard [7] https://github.com/swallow-llm/swallow-evaluation-instruct [8] https://swallow-llm.github.io/leaderboard/index-post.ja.html 5
  4. Swallow-evaluation https://github.com/swallow-llm/swallow-evaluation SwallowではLLMの開発に先立って、評価タスク・方法を固定している  信頼性・正確性・一貫性のある評価実験を蓄積し、構築したLLMの成否を見極める Swallowプロジェクトにおいて開発・利用している評価ソフトウェア  様々なLLMを公平な条件で、誰でも評価できる(再現できる)ことを目指して開発  LLMの開発元から公表されているスコア(公式スコア)が再現できているか、人手で丁寧に確認・検証

     Swallowプロジェクトの主眼が継続事前学習に置かれていた時期に開発(初期版は2024年7月公開)  (事後学習をしていない)事前学習済みモデル向けの評価方法(後述) 採用しているタスク  日本語: JComQA, JEMHopQA, NIILC, JSQuAD, XL-Sum, MGSM, WMT20, JMMLU, JHumanEval  英語: OpenBookQA, TriviaQA, HellaSwag, SQuAD2, XWINO, MMLU, GSM8K, MATH, BBH, HumanEval  日本語対話: 日本語MT-Bench(Nejumi LLMリーダーボード版を採用)  タスクの採用方針: 測定すべきLLMの能力の網羅性、難易度、スケール性、世界的な知名度、信頼性 7
  5. 日本語LLMの黎明期に合わせた評価(swallow-evaluationで採用) チャットテンプレートを使用しない 事後学習の有無に関わらず同条件で評価できる 事後学習済みLLMの推論時の状況から乖離する Few-shot推論でタスクや回答形式を誘導 指示が理解できないLLMの潜在能力を測定できる 標準的なユーザの利用状況から乖離する 答えのみを出力させて評価する 正誤判定が容易になる 思考の連鎖や推論過程を出力すると不正解扱い

    多肢選択式問題の回答を尤度で判定する 選択肢で回答できなかったLLMを救済する プロプライエタリなモデルを評価できない chat = [ {"role": "user", "content": "1+2+3は?"}, ] <|im_start|>system あなたは優秀なアシスタントです。<|im_end|> <|im_start|>user 1+2+3は?<|im_end|> 質問に対する答えを出力してください。答えが 複数の場合、コンマ(,)で繋げてください。 ### 入力: 質問:ワールドカップは何年に一度開催されるの? ### 回答: 4年 ### 入力: 質問:慶応大学を作った人は? ### 回答: 指示 解答例 問題 問題: ある分数の分母は、分子の3倍から7を引いた数です。この 分数が2/5と等しいとき、この分数の分子を求めなさい。 解答:問題の条件は、分数の分母が分子の3倍から7を引いた数で あるとあります。つまり、分数はb/(3b-7)と表すことができます。 分数が2/5と等しいとあります。したがって、b/(3b-7)=2/5とな ります。両辺を通分して……。ゆえに、b=14です。 問題: 慶応大学を作った人は? 選択肢: ア) 徳川慶喜 イ)福沢諭吉 ウ)坂本龍馬 エ)吉田松陰 ア: イ: ウ: エ: ... 47% 22% 14% 17% 8
  6. Swallow-evaluationのタスク・実験設定(日本語理解・生成タスク) https://swallow-llm.github.io/leaderboard/about.ja.html 9 知識 推論 知識 読解 生成 推論 生成

    生成 教養 コード 多くのタスクでfew-shot推 論が採用されている。ここに は示していないが、英語タス クの一部では尤度が使われて いる。
  7. 事後学習済みモデルの発展に伴い評価方法の刷新が必要に パラメータ数 (B; 対数軸) MATH (高校生向け数学コンテスト) 正 解 率 OpenAI

    o1 OpenAI o1-mini DeepSeek-R1- Distill-Llama-8B DeepSeek-R1- Distill-Llama- 8B* Qwen2.5-7B-Instruct Llama 3.1 8B Instruct 思考の深いモデル(DeepSeek-R1-Distill-Llama-8B)の評価をfew-shot推論(橙×)で行うと、 zero-shot推論(赤×)よりも性能が低めに測定された(Swallowチームでの検証[1]) パラメータ数 (B; 対数軸) JMMLU (試験問題MMLUの日本語訳) 正 解 率 Gemma 2 9B IT Qwen2.5-7B- Instruct DeepSeek-R1- Distill-Llama-8B* DeepSeek-R1- Distill-Llama-8B GPT-4o-mini OpenAI o1 Llama 3.1 8B Instruct [1] Swallowプロジェクトでは公平性を期すため、全てのLLMを同一の設定で評価している。また、性能が低いLLMでもタスクでスコアを出せるように、few-shot推論による回答生成を採用している。ところが、DeepSeek-R1の 論文には「DeepSeek-R1はプロンプトの影響を受けやすく、few-shot推論のプロンプトは一貫して性能を低下させる」との記述がある。実際、Swallowプロジェクトの設定(few-shot推論、温度パラメータ0)の評価結果(図中 の*印)では正解率が低下し、DeepSeek-R1の推奨設定(zero-shot推論、温度パラメータ0.6)を採用しないと、DeepSeek-R1知識蒸留モデルの本来の力を引き出すことができなかった。 10
  8. LLMの性能向上と高難易度ベンチマーク (GPQA) 11 大学院レベルの科学 (GPQA) の正解率[1,2] [1] D Rein, B

    L Hou, A C Stickland, J Petty, R Y Pang, J Dirani, J Michael, S R Bowman. 2024. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. Conference on Language Modeling (COLM). [2] OpenAIが公開しているsimple-evalsとLlama 3.3 70B Instructのリリースノートを基にグラフ化
  9. Swallow-evaluation-instruct https://github.com/swallow-llm/swallow-evaluation-instruct *印はSwallow Leaderboardの平均スコアの算出からは除外されているタスク 推論モデルや高難易度タスク(Swallowプロジェクトの今年の目標)に適した評価フレームワーク  日本語: JamC-QA, MMLU-ProX, GPQA,

    MATH-100, JHumanEval, M-IFEval-Ja*, WMT20*  英語: HellaSwag, MMLU-Pro, GPQA, MATH-500, AIME 2024-2025, LiveCodeBench  日本語対話: 日本語MT-Bench(Nejumi LLMリーダーボード版を採用)  英語対話: MT-Bench Lightevalをベースに日本語タスク向けに拡張  OpenAI互換の推論APIやvLLMなど、評価したいLLMに あわせて推論バックエンドを切り替えられる  ChatGPTやGeminiのようなプロプライエタリモデルに加 え、ホストするのが難しいモデル(Llama 3.1 405B等) を推論サービス(DeepInfra等)を経由して評価できる  Lightevalがサポートしているタスクに加え、評価手法 (多肢選択式問題の正解率、LLM-as-a-judge等)を活 用しながら、新しいデータセットの評価を実装できる MODEL_ID="Qwen/Qwen3-4B" MODEL_NAME="hosted_vllm/${MODEL_ID}" TASK_ID="swallow|humaneval" VLLM_LOG_FILE="./vllm.log" BASE_URL="http://localhost:8000/v1" setsid uv run --isolated --locked --extra vllm ¥ vllm serve "$MODEL_ID" ¥ --host localhost ¥ --port 8000 ¥ --reasoning-parser qwen3 ¥ --max-model-len 32768 >"$VLLM_LOG_FILE" 2>&1 & uv run --isolated --locked --extra lighteval ¥ lighteval endpoint litellm ¥ "model=$MODEL_NAME,base_url=$BASE_URL,"¥ "generation_parameters={temperature:0.2,top_p:0.95}" ¥ "${TASK_ID}|0|0" ¥ --use-chat-template ¥ --output-dir ./lighteval/outputs ¥ --save-details vLLMの推論 サーバを立ち 上げる Qwen3-4BをvLLMでホスト してHumanEvalタスクで評 価を実施する例 12
  10. Swallow-evaluation-instructの評価方針 https://github.com/swallow-llm/swallow-evaluation-instruct/blob/main/EVALUATION_POLICY.md J Yang, C E Jimenez, A Wettig, K

    Lieret, S Yao, K R Narasimhan, O Press. 2024. SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering. NeurIPS. 「考えて解く」事後学習済みモデルを想定  Chat Completion APIによる対話形式による応答の生成  短答ではなく推論過程を含む自由生成からの回答抽出  推論過程も含めて白紙から考えるZero-shot推論  推論を促す思考の連鎖(CoT)プロンプトの導入 文生成条件は実行時に指定する  温度やtop-pなどの推論時パラメータを評価実行時に指定 することで、モデルの特性に合わせた評価が可能  Pass@kやMajority@k指標の実装により、推論モデルの開 発途上におけるポテンシャルを測定可能 推論型モデルをサポートする  LLMの出力から推論過程と最終回答を分離し (reasoning parser)、最終回答のみを評価対象とする  評価実行時に推論の深さを指定できる 評価ベンチマークの選定基準  日本語LLMの課題を明らかにできること  推論を要する高難易度のタスクであること  国際的な採用実績があること  実社会で利用されやすいタスクであること  データの構築過程や品質検証結果が公開されていること ベンチマークと同じ言語でプロンプトを書く  データセットには指示(プロンプト)が含まれていない  日本語タスクなら日本語、英語タスクなら英語で評価用 プロンプトを設計 エージェント型タスクの評価は対象外 Yang+ (2024) 13
  11. GPT-OSS 120B[1] (推論モードはmedium) をMATH-100[2]で評価する例 以下の数学の問題を、わかりやすく、論理的に解いてください。 出力の最後の行は、次の形式にしてください。 回答: $¥boxed{{ANSWER}}$ `ANSWER` には、問題の答えに対する最終的な数式または数値が

    入ります。 ステップバイステップで考えてから回答してください。 $f(x)=¥frac{2x}{x^2-5x-14}$ のグラフには、垂直漸近線 $x=a$ と $x=b$、水平漸近線 $y=c$ があります。$a+b+c$ を 求めなさい。 We need to find vertical asymptotes: denominator zero where numerator not zero. f(x)=2x/(x^2 -5x -14). Factor denominator: x^2 -5x -14 = (x-7)(x+2). So (…省略… ) Then a+b+c = 7 + (-2) + 0 = 5. Answer 5. Need to present step-by-step reasoning in Japanese. Output final line: 回答: $¥boxed{5}$. Let's produce solution. vLLM (GPT-OSS 120B; temperature=0.5) 思考過程 (reasoning_content) 解答 (content) ← 回答: $¥boxed{5}$ Math-Verify[3]ライブラリで数式処理をして正解と比較 プロンプトと問題 14 [1] https://huggingface.co/openai/gpt-oss-120b [2] G Son, J Hong, H Ko, J Thorne. 2025. Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning. ACL. [3] https://github.com/huggingface/Math-Verify (Lightevalに内蔵されている)
  12. Swallow-evaluation-instructの開発過程  2025年2月:  DeepSeek-R1の蒸留モデル (DeepSeek-R1-Distill-Llama-8B) を評価(推論型モデルの評価は初めて)  チームで測定したMATHとGPQAのスコアがDeepSeek-R1論文よりも20ポイント以上低いことを確認 

    swallow-evaluationの設定(チャットテンプレート無し、温度0)では過少評価になることを確認  日本語MT-Benchの評価(チャットテンプレート有り)も温度0では過小評価になることを確認  2025年4月:  事後学習済みモデルに向けて、評価タスクと評価方法を刷新する構想を立案  複数のLLM評価基盤を検討した結果、Lightevalをベースに開発を行うことを決定し、実装を開始  2025年7月:  実装のダブルチェック、バグ修正、テスト実行を開始  代表的な指示チューニング済みモデルの一括評価を開始し、公式スコアとの乖離がある場合は分析を行い、 原因が実装にある場合は修正  2025年8月:  Swallow LLM Leaderboard v2を実装  swallow-evaluation-instruct[1]およびSwallow LLM Leaderboard v2[2]を公開 15 [1] https://github.com/swallow-llm/swallow-evaluation-instruct [2] https://swallow-llm.github.io/leaderboard/
  13. まとめ 17  大規模言語モデルの発展に伴い、評価ベンチマークや評価方法もアップデートが必要  推論モデルの登場などで、大規模言語モデルの高性能化が進んだ  従来用いていたベンチマークの難易度が相対的に低下し、スコアが飽和  難易度の高いベンチマーク(GPQAやAIMEなど)が利用されるようになった

     思考の連鎖や推論モデルなどの最先端の事後学習済みモデルの能力を正しく評価したい  事後学習済みLLM向け評価フレームワークswallow-evaluation-instructを紹介  ベンチマーク、評価フレームワーク、リーダーボードの開発は地味だが大変な仕事 (ベンチマークやリーダーボードをハックするのは絶対にやめて欲しい)  謝辞  産総研政策予算プロジェクト「フィジカル領域の生成AI基盤モデルに関する研究開発」  文部科学省の補助事業「生成AIモデルの透明性・信頼性の確保に向けた研究開発拠点形成」  科学技術振興機構(JST)の経済安全保障重要技術育成プログラム (K Program)「人工知能 (AI)が浸透するデータ駆動型の経済社会に必要なAIセキュリティ技術の確立」  LLM-jp (LLM勉強会) および大規模言語モデル研究開発センター (LLMC)