Slide 8
Slide 8 text
Swallow-evaluation
https://github.com/swallow-llm/swallow-evaluation
SwallowではLLMの開発に先立って、評価タスク・方法を固定している
信頼性・正確性・一貫性のある評価実験を蓄積し、構築したLLMの成否を見極める
Swallowプロジェクトにおいて開発・利用している評価ソフトウェア
様々なLLMを公平な条件で、誰でも評価できる(再現できる)ことを目指して開発
LLMの開発元から公表されているスコア(公式スコア)が再現できているか、人手で丁寧に確認・検証
Swallowプロジェクトの主眼が継続事前学習に置かれていた時期に開発(初期版は2024年7月公開)
(事後学習をしていない)事前学習済みモデル向けの評価方法(後述)
採用しているタスク
日本語: JComQA, JEMHopQA, NIILC, JSQuAD, XL-Sum, MGSM, WMT20, JMMLU, JHumanEval
英語: OpenBookQA, TriviaQA, HellaSwag, SQuAD2, XWINO, MMLU, GSM8K, MATH, BBH, HumanEval
日本語対話: 日本語MT-Bench(Nejumi LLMリーダーボード版を採用)
タスクの採用方針: 測定すべきLLMの能力の網羅性、難易度、スケール性、世界的な知名度、信頼性
7