MATH-100, JHumanEval, M-IFEval-Ja*, WMT20*  英語: HellaSwag, MMLU-Pro, GPQA, MATH-500, AIME 2024-2025, LiveCodeBench  日本語対話: 日本語MT-Bench(Nejumi LLMリーダーボード版を採用)  英語対話: MT-Bench Lightevalをベースに日本語タスク向けに拡張  OpenAI互換の推論APIやvLLMなど、評価したいLLMに あわせて推論バックエンドを切り替えられる  ChatGPTやGeminiのようなプロプライエタリモデルに加 え、ホストするのが難しいモデル(Llama 3.1 405B等) を推論サービス(DeepInfra等)を経由して評価できる  Lightevalがサポートしているタスクに加え、評価手法 (多肢選択式問題の正解率、LLM-as-a-judge等)を活 用しながら、新しいデータセットの評価を実装できる MODEL_ID="Qwen/Qwen3-4B" MODEL_NAME="hosted_vllm/${MODEL_ID}" TASK_ID="swallow|humaneval" VLLM_LOG_FILE="./vllm.log" BASE_URL="http://localhost:8000/v1" setsid uv run --isolated --locked --extra vllm ¥ vllm serve "$MODEL_ID" ¥ --host localhost ¥ --port 8000 ¥ --reasoning-parser qwen3 ¥ --max-model-len 32768 >"$VLLM_LOG_FILE" 2>&1 & uv run --isolated --locked --extra lighteval ¥ lighteval endpoint litellm ¥ "model=$MODEL_NAME,base_url=$BASE_URL,"¥ "generation_parameters={temperature:0.2,top_p:0.95}" ¥ "${TASK_ID}|0|0" ¥ --use-chat-template ¥ --output-dir ./lighteval/outputs ¥ --save-details vLLMの推論 サーバを立ち 上げる Qwen3-4BをvLLMでホスト してHumanEvalタスクで評 価を実施する例 12