進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見

Slide 1

Slide 1 text

進化する大規模言語モデル評価 Swallowプロジェクトにおける実践と知見岡崎直観東京科学大学情報理工学院情報工学系 [email protected] https://www.nlp.c.titech.ac.jp/

Slide 2

Slide 2 text

大規模言語モデルSwallow（with 東京科学大学・横田研、産総研） https://swallow-llm.github.io/ https://huggingface.co/tokyotech-llm オープンなLLM  HuggingFace上でモデルを公開  オンプレミス環境ならば情報漏洩の心配がない  タスクやドメインに関してチューニングできる  商用利用可で寛容的なライセンスアカデミックな開発  東京科学大学の学生・スタッフを中心に開発  モデルの学習にTSUBAME 4.0やABCI 3.0を利用  構築方法、実験結果、データを公開することで、日本のLLMの研究開発を後押し賢い大規模言語モデルを構築するための「レシピ」を追求  日本語や日本に関する知識を強化したLLMを構築して、日本におけるLLMの研究開発・利用を促進する  フルスクラッチではなく継続事前学習で構築し、賢いLLMのレシピを効率よく探索・実験・検証する 1

Slide 13

Slide 13 text

Swallow-evaluation-instruct https://github.com/swallow-llm/swallow-evaluation-instruct *印はSwallow Leaderboardの平均スコアの算出からは除外されているタスク推論モデルや高難易度タスク（Swallowプロジェクトの今年の目標）に適した評価フレームワーク  日本語: JamC-QA, MMLU-ProX, GPQA, MATH-100, JHumanEval, M-IFEval-Ja*, WMT20*  英語: HellaSwag, MMLU-Pro, GPQA, MATH-500, AIME 2024-2025, LiveCodeBench  日本語対話: 日本語MT-Bench（Nejumi LLMリーダーボード版を採用）  英語対話: MT-Bench Lightevalをベースに日本語タスク向けに拡張  OpenAI互換の推論APIやvLLMなど、評価したいLLMにあわせて推論バックエンドを切り替えられる  ChatGPTやGeminiのようなプロプライエタリモデルに加え、ホストするのが難しいモデル（Llama 3.1 405B等）を推論サービス（DeepInfra等）を経由して評価できる  Lightevalがサポートしているタスクに加え、評価手法（多肢選択式問題の正解率、LLM-as-a-judge等）を活用しながら、新しいデータセットの評価を実装できる MODEL_ID="Qwen/Qwen3-4B" MODEL_NAME="hosted_vllm/${MODEL_ID}" TASK_ID="swallow|humaneval" VLLM_LOG_FILE="./vllm.log" BASE_URL="http://localhost:8000/v1" setsid uv run --isolated --locked --extra vllm ¥ vllm serve "$MODEL_ID" ¥ --host localhost ¥ --port 8000 ¥ --reasoning-parser qwen3 ¥ --max-model-len 32768 >"$VLLM_LOG_FILE" 2>&1 & uv run --isolated --locked --extra lighteval ¥ lighteval endpoint litellm ¥ "model=$MODEL_NAME,base_url=$BASE_URL,"¥ "generation_parameters={temperature:0.2,top_p:0.95}" ¥ "${TASK_ID}|0|0" ¥ --use-chat-template ¥ --output-dir ./lighteval/outputs ¥ --save-details vLLMの推論サーバを立ち上げる Qwen3-4BをvLLMでホストしてHumanEvalタスクで評価を実施する例 12

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text