進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見

進化する大規模言語モデル評価 Swallowプロジェクトにおける実践と知見岡崎直観東京科学大学情報理工学院情報工学系 [email protected] https://www.nlp.c.titech.ac.jp/

大規模言語モデルSwallow（with 東京科学大学・横田研、産総研） https://swallow-llm.github.io/ https://huggingface.co/tokyotech-llm オープンなLLM  HuggingFace上でモデルを公開  オンプレミス環境ならば情報漏洩の心配がない 
タスクやドメインに関してチューニングできる  商用利用可で寛容的なライセンスアカデミックな開発  東京科学大学の学生・スタッフを中心に開発  モデルの学習にTSUBAME 4.0やABCI 3.0を利用  構築方法、実験結果、データを公開することで、日本のLLMの研究開発を後押し賢い大規模言語モデルを構築するための「レシピ」を追求  日本語や日本に関する知識を強化したLLMを構築して、日本におけるLLMの研究開発・利用を促進する  フルスクラッチではなく継続事前学習で構築し、賢いLLMのレシピを効率よく探索・実験・検証する 1

Llama 3.3 Swallow 70B v0.4 (2025年3月10日公開) 2 日本に関する質問応答 GPT-4oに迫る
https://swallow-llm.github.io/llama3.3-swallow.ja.html

評価はLLM開発の羅針盤であり、価値創造でもある「評価とは創造である。創造者たちよ、これを聞け！評価するという行為そのものが、私たちが価値あるとみなすすべてのものの中で最も貴重な宝なのだ。価値は評価を通じてのみ存在し、もし評価がなければ、存在という実の核は空虚なものとなるだろう。創造者たちよ、これを聞け！」 ― フリードリヒ・ニーチェ LLMが身に付けるべき能力を定め、開発が目標に向かって進んでいるか検証する  言語能力、常識的知識、論理的思考力、応用力、指示追従能力、対話能力、好感度、安全性など 
測定したい能力に対応したベンチマークデータや評価手法を収集・整備する  事前学習・事後学習済みのモデルなど、LLMの学習ステージに合わせた評価を設計する  事前学習のみのモデル: 言語能力、常識的な知識、論理的思考力など  事後学習済みモデル: 応用力、指示追従能力、対話能力、好感度、安全性など  安定性・信頼性のある評価基盤を整備することが重要 3

同じベンチマークデータでも評価の仕方でスコアが変動する些細な実験設定がLLMの評価スコアに大きな影響を与える  推論時の設定：LLMによって最適なプロンプトや温度パラメータが異なる  位置バイアス：多値選択式の選択肢の並び順を変えるだけで、LLMの性能が変動してしまう  形式バイアス：同じ問題でもプロンプトのフォーマットを変えるだけで、LLMの性能が変動してしまう  冗長バイアス：LLM-as-a-judgeをするときに、冗長で繰り返しの多い応答を高く評価する傾向がある
 自己評価バイアス：LLM-as-a-judgeをするときに、自分自身の応答を高く評価する傾向がある自己評価バイアス (Zheng+ 2023) (この例ではGPT-4やClaudeが自分自身を高く評価する傾向を示している) L Zheng, W-L Chiang, Y Sheng, S Zhuang, Z Wu, et al. 2023. Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. NeurIPS 2023 Datasets and Benchmarks Track. 4

代表的な日本語LLM評価フレームワーク Nejumi Leaderboard 4[1,2] LLM-jp-eval[3,4] Swallow-evaluation[5,6] Swallow-evaluation-instruct[7,8] [1] https://nejumi.ai/ [2]
https://github.com/wandb/llm-leaderboard [5] https://github.com/swallow-llm/swallow-evaluation [6] https://swallow-llm.github.io/leaderboard/index-pre.ja.html [3] https://github.com/llm-jp/llm-jp-eval [4] https://huggingface.co/spaces/llm-jp/open-japanese-llm-leaderboard [7] https://github.com/swallow-llm/swallow-evaluation-instruct [8] https://swallow-llm.github.io/leaderboard/index-post.ja.html 5

Nejumi Leaderboard 4 https://nejumi.ai/ 6

Swallow-evaluation https://github.com/swallow-llm/swallow-evaluation SwallowではLLMの開発に先立って、評価タスク・方法を固定している  信頼性・正確性・一貫性のある評価実験を蓄積し、構築したLLMの成否を見極める Swallowプロジェクトにおいて開発・利用している評価ソフトウェア  様々なLLMを公平な条件で、誰でも評価できる（再現できる）ことを目指して開発  LLMの開発元から公表されているスコア（公式スコア）が再現できているか、人手で丁寧に確認・検証
 Swallowプロジェクトの主眼が継続事前学習に置かれていた時期に開発（初期版は2024年7月公開）  （事後学習をしていない）事前学習済みモデル向けの評価方法（後述）採用しているタスク  日本語: JComQA, JEMHopQA, NIILC, JSQuAD, XL-Sum, MGSM, WMT20, JMMLU, JHumanEval  英語: OpenBookQA, TriviaQA, HellaSwag, SQuAD2, XWINO, MMLU, GSM8K, MATH, BBH, HumanEval  日本語対話: 日本語MT-Bench（Nejumi LLMリーダーボード版を採用）  タスクの採用方針: 測定すべきLLMの能力の網羅性、難易度、スケール性、世界的な知名度、信頼性 7

日本語LLMの黎明期に合わせた評価（swallow-evaluationで採用）チャットテンプレートを使用しない事後学習の有無に関わらず同条件で評価できる事後学習済みLLMの推論時の状況から乖離する Few-shot推論でタスクや回答形式を誘導指示が理解できないLLMの潜在能力を測定できる標準的なユーザの利用状況から乖離する答えのみを出力させて評価する正誤判定が容易になる思考の連鎖や推論過程を出力すると不正解扱い
多肢選択式問題の回答を尤度で判定する選択肢で回答できなかったLLMを救済するプロプライエタリなモデルを評価できない chat = [ {"role": "user", "content": "1+2+3は？"}, ] <|im_start|>system あなたは優秀なアシスタントです。<|im_end|> <|im_start|>user 1+2+3は？<|im_end|> 質問に対する答えを出力してください。答えが複数の場合、コンマ（,）で繋げてください。 ### 入力：質問：ワールドカップは何年に一度開催されるの？ ### 回答： 4年 ### 入力：質問：慶応大学を作った人は？ ### 回答：指示解答例問題問題: ある分数の分母は、分子の3倍から7を引いた数です。この分数が2/5と等しいとき、この分数の分子を求めなさい。解答:問題の条件は、分数の分母が分子の3倍から7を引いた数であるとあります。つまり、分数はb/(3b-7)と表すことができます。分数が2/5と等しいとあります。したがって、b/(3b-7)=2/5となります。両辺を通分して……。ゆえに、b=14です。問題: 慶応大学を作った人は？選択肢: ア) 徳川慶喜イ）福沢諭吉ウ）坂本龍馬エ）吉田松陰ア: イ: ウ: エ: ... 47% 22% 14% 17% 8

Swallow-evaluationのタスク・実験設定（日本語理解・生成タスク） https://swallow-llm.github.io/leaderboard/about.ja.html 9 知識推論知識読解生成推論生成
生成教養コード多くのタスクでfew-shot推論が採用されている。ここには示していないが、英語タスクの一部では尤度が使われている。

事後学習済みモデルの発展に伴い評価方法の刷新が必要にパラメータ数 (B; 対数軸) MATH (高校生向け数学コンテスト) 正解率 OpenAI
o1 OpenAI o1-mini DeepSeek-R1- Distill-Llama-8B DeepSeek-R1- Distill-Llama- 8B* Qwen2.5-7B-Instruct Llama 3.1 8B Instruct 思考の深いモデル（DeepSeek-R1-Distill-Llama-8B）の評価をfew-shot推論（橙×）で行うと、 zero-shot推論（赤×）よりも性能が低めに測定された（Swallowチームでの検証[1]）パラメータ数 (B; 対数軸) JMMLU (試験問題MMLUの日本語訳) 正解率 Gemma 2 9B IT Qwen2.5-7B- Instruct DeepSeek-R1- Distill-Llama-8B* DeepSeek-R1- Distill-Llama-8B GPT-4o-mini OpenAI o1 Llama 3.1 8B Instruct [1] Swallowプロジェクトでは公平性を期すため、全てのLLMを同一の設定で評価している。また、性能が低いLLMでもタスクでスコアを出せるように、few-shot推論による回答生成を採用している。ところが、DeepSeek-R1の論文には「DeepSeek-R1はプロンプトの影響を受けやすく、few-shot推論のプロンプトは一貫して性能を低下させる」との記述がある。実際、Swallowプロジェクトの設定（few-shot推論、温度パラメータ0）の評価結果（図中の*印）では正解率が低下し、DeepSeek-R1の推奨設定（zero-shot推論、温度パラメータ0.6）を採用しないと、DeepSeek-R1知識蒸留モデルの本来の力を引き出すことができなかった。 10

LLMの性能向上と高難易度ベンチマーク (GPQA) 11 大学院レベルの科学 (GPQA) の正解率[1,2] [1] D Rein, B
L Hou, A C Stickland, J Petty, R Y Pang, J Dirani, J Michael, S R Bowman. 2024. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. Conference on Language Modeling (COLM). [2] OpenAIが公開しているsimple-evalsとLlama 3.3 70B Instructのリリースノートを基にグラフ化

Swallow-evaluation-instruct https://github.com/swallow-llm/swallow-evaluation-instruct *印はSwallow Leaderboardの平均スコアの算出からは除外されているタスク推論モデルや高難易度タスク（Swallowプロジェクトの今年の目標）に適した評価フレームワーク  日本語: JamC-QA, MMLU-ProX, GPQA,
MATH-100, JHumanEval, M-IFEval-Ja*, WMT20*  英語: HellaSwag, MMLU-Pro, GPQA, MATH-500, AIME 2024-2025, LiveCodeBench  日本語対話: 日本語MT-Bench（Nejumi LLMリーダーボード版を採用）  英語対話: MT-Bench Lightevalをベースに日本語タスク向けに拡張  OpenAI互換の推論APIやvLLMなど、評価したいLLMにあわせて推論バックエンドを切り替えられる  ChatGPTやGeminiのようなプロプライエタリモデルに加え、ホストするのが難しいモデル（Llama 3.1 405B等）を推論サービス（DeepInfra等）を経由して評価できる  Lightevalがサポートしているタスクに加え、評価手法（多肢選択式問題の正解率、LLM-as-a-judge等）を活用しながら、新しいデータセットの評価を実装できる MODEL_ID="Qwen/Qwen3-4B" MODEL_NAME="hosted_vllm/${MODEL_ID}" TASK_ID="swallow|humaneval" VLLM_LOG_FILE="./vllm.log" BASE_URL="http://localhost:8000/v1" setsid uv run --isolated --locked --extra vllm ¥ vllm serve "$MODEL_ID" ¥ --host localhost ¥ --port 8000 ¥ --reasoning-parser qwen3 ¥ --max-model-len 32768 >"$VLLM_LOG_FILE" 2>&1 & uv run --isolated --locked --extra lighteval ¥ lighteval endpoint litellm ¥ "model=$MODEL_NAME,base_url=$BASE_URL,"¥ "generation_parameters={temperature:0.2,top_p:0.95}" ¥ "${TASK_ID}|0|0" ¥ --use-chat-template ¥ --output-dir ./lighteval/outputs ¥ --save-details vLLMの推論サーバを立ち上げる Qwen3-4BをvLLMでホストしてHumanEvalタスクで評価を実施する例 12

Swallow-evaluation-instructの評価方針 https://github.com/swallow-llm/swallow-evaluation-instruct/blob/main/EVALUATION_POLICY.md J Yang, C E Jimenez, A Wettig, K
Lieret, S Yao, K R Narasimhan, O Press. 2024. SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering. NeurIPS. 「考えて解く」事後学習済みモデルを想定  Chat Completion APIによる対話形式による応答の生成  短答ではなく推論過程を含む自由生成からの回答抽出  推論過程も含めて白紙から考えるZero-shot推論  推論を促す思考の連鎖（CoT）プロンプトの導入文生成条件は実行時に指定する  温度やtop-pなどの推論時パラメータを評価実行時に指定することで、モデルの特性に合わせた評価が可能  Pass@kやMajority@k指標の実装により、推論モデルの開発途上におけるポテンシャルを測定可能推論型モデルをサポートする  LLMの出力から推論過程と最終回答を分離し (reasoning parser)、最終回答のみを評価対象とする  評価実行時に推論の深さを指定できる評価ベンチマークの選定基準  日本語LLMの課題を明らかにできること  推論を要する高難易度のタスクであること  国際的な採用実績があること  実社会で利用されやすいタスクであること  データの構築過程や品質検証結果が公開されていることベンチマークと同じ言語でプロンプトを書く  データセットには指示（プロンプト）が含まれていない  日本語タスクなら日本語、英語タスクなら英語で評価用プロンプトを設計エージェント型タスクの評価は対象外 Yang+ (2024) 13

GPT-OSS 120B[1] (推論モードはmedium) をMATH-100[2]で評価する例以下の数学の問題を、わかりやすく、論理的に解いてください。出力の最後の行は、次の形式にしてください。回答: $¥boxed{{ANSWER}}$ `ANSWER` には、問題の答えに対する最終的な数式または数値が
入ります。ステップバイステップで考えてから回答してください。 $f(x)=¥frac{2x}{x^2-5x-14}$ のグラフには、垂直漸近線 $x=a$ と $x=b$、水平漸近線 $y=c$ があります。$a+b+c$ を求めなさい。 We need to find vertical asymptotes: denominator zero where numerator not zero. f(x)=2x/(x^2 -5x -14). Factor denominator: x^2 -5x -14 = (x-7)(x+2). So （…省略… ） Then a+b+c = 7 + (-2) + 0 = 5. Answer 5. Need to present step-by-step reasoning in Japanese. Output final line: 回答: $¥boxed{5}$. Let's produce solution. vLLM (GPT-OSS 120B; temperature=0.5) 思考過程 (reasoning_content) 解答 (content) ← 回答: $¥boxed{5}$ Math-Verify[3]ライブラリで数式処理をして正解と比較プロンプトと問題 14 [1] https://huggingface.co/openai/gpt-oss-120b [2] G Son, J Hong, H Ko, J Thorne. 2025. Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning. ACL. [3] https://github.com/huggingface/Math-Verify (Lightevalに内蔵されている)

Swallow-evaluation-instructの開発過程  2025年2月:  DeepSeek-R1の蒸留モデル (DeepSeek-R1-Distill-Llama-8B) を評価（推論型モデルの評価は初めて）  チームで測定したMATHとGPQAのスコアがDeepSeek-R1論文よりも20ポイント以上低いことを確認 
swallow-evaluationの設定（チャットテンプレート無し、温度0）では過少評価になることを確認  日本語MT-Benchの評価（チャットテンプレート有り）も温度0では過小評価になることを確認  2025年4月:  事後学習済みモデルに向けて、評価タスクと評価方法を刷新する構想を立案  複数のLLM評価基盤を検討した結果、Lightevalをベースに開発を行うことを決定し、実装を開始  2025年7月:  実装のダブルチェック、バグ修正、テスト実行を開始  代表的な指示チューニング済みモデルの一括評価を開始し、公式スコアとの乖離がある場合は分析を行い、原因が実装にある場合は修正  2025年8月:  Swallow LLM Leaderboard v2を実装  swallow-evaluation-instruct[1]およびSwallow LLM Leaderboard v2[2]を公開 15 [1] https://github.com/swallow-llm/swallow-evaluation-instruct [2] https://swallow-llm.github.io/leaderboard/

Swallow LLM Leaderboard v2 16 https://swallow-llm.github.io/leaderboard/ swallow-evaluation-instructの開発過程で評価したLLMのスコアを可視化

まとめ 17  大規模言語モデルの発展に伴い、評価ベンチマークや評価方法もアップデートが必要  推論モデルの登場などで、大規模言語モデルの高性能化が進んだ  従来用いていたベンチマークの難易度が相対的に低下し、スコアが飽和  難易度の高いベンチマーク（GPQAやAIMEなど）が利用されるようになった
 思考の連鎖や推論モデルなどの最先端の事後学習済みモデルの能力を正しく評価したい  事後学習済みLLM向け評価フレームワークswallow-evaluation-instructを紹介  ベンチマーク、評価フレームワーク、リーダーボードの開発は地味だが大変な仕事（ベンチマークやリーダーボードをハックするのは絶対にやめて欲しい）  謝辞  産総研政策予算プロジェクト「フィジカル領域の生成AI基盤モデルに関する研究開発」  文部科学省の補助事業「生成AIモデルの透明性・信頼性の確保に向けた研究開発拠点形成」  科学技術振興機構（JST）の経済安全保障重要技術育成プログラム (K Program)「人工知能（AI）が浸透するデータ駆動型の経済社会に必要なAIセキュリティ技術の確立」  LLM-jp (LLM勉強会) および大規模言語モデル研究開発センター (LLMC)

Swallow開発チーム 18 https://swallow-llm.github.io/index.ja.html 主導開発 ※ Swallow-evaluation-instructにおいて: テスト助言

進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見

進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見

Naoaki Okazaki PRO

More Decks by Naoaki Okazaki

Other Decks in Technology

Featured

Transcript