Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf

Japanese MT-Bench を使った LLM モデルの評価 Meng Lee, Stability AI @
W&B Webinar 2024/01/24

Agenda • 自己紹介 • Japanese Stable LM シリーズ • Japanese
MT-Bench

󰳕 Meng Lee (メン・リ) 自己紹介 • Stability AI で機械学習エンジニア。日本語大規模言語モデル（LLM）の研究開発を主導
• SmartNews 時期は会社初の BERT・DistilBert に基づく大規模ニュース分類システムを構築 • 台湾大学情報管理科で情報検索と自然言語処理を専攻 • 台湾育ての多言語モデル。日本語、英語と中国語。コードもそこそこ書けます

🦜 Japanese Stable LM シリーズ • モデルサイズ 3B から 70B
の日本語 LLM を公開 • ゼロから学習か、英語のベースモデルから継続学習 • 基盤言語モデルとチャットモデル • 日本語特化の lm-evaluation-harness を開発し、 JGLUE ベースで LLM の言語理解を評価

⚖ Japanese MT-Bench での日本語 LLM の言語生成評価 • Chatbot Arena で有名な
LLM-as-a-judge 論文の手法に沿って作られた会話形式の日本語特化の LLM 言語生成評価データセット（MT は Multi-Turn の省略） • 8つの応用領域の問題を含む。各問題に正確に答えるために、LLMは以下の要求を同時に満たす必要があります： • 流暢な日本語を生成する • 世界の知識を理解する • 日本文化、社会を理解する • 推論や数学の能力を持つ • 文脈を理解し、利用者と対話すること

⚖ Japanese MT-Bench での日本語 LLM の言語生成評価

⚖ Weights & Biases で Japanese MT-Bench を利用 • Japanese
MT-Bench は、GPT-4 のような強力な LLM を使用して自動評価を行い、企業や研究所のための迅速な LLM 開発を可能にします。 • lm-evaluation-harness・Jaster と一緒に使用することをお勧めします。これにより、これらの日本語 LLM のパフォーマンスをより深く理解することができます。 • Nejumiリーダーボードは日本語特化の LLM 評価を簡単にしてくれる

Stability AI 採用情報：https://ja.stability.ai/careers Japanese Stable LM: https://huggingface.co/stabilityai

Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf

Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf

Keisuke Kamata

More Decks by Keisuke Kamata

Featured

Transcript

Japanese MT-Bench を使った LLM モデルの評価 Meng Lee, Stability AI @

Agenda • 自己紹介 • Japanese Stable LM シリーズ • Japanese

󰳕 Meng Lee (メン・リ) 自己紹介 • Stability AI で機械学習エンジニア。日本語大規模言語モデル（LLM）の研究開発を主導

🦜 Japanese Stable LM シリーズ • モデルサイズ 3B から 70B

⚖ Japanese MT-Bench での日本語 LLM の言語生成評価 • Chatbot Arena で有名な

⚖ Japanese MT-Bench での日本語 LLM の言語生成評価

⚖ Weights & Biases で Japanese MT-Bench を利用 • Japanese

Stability AI 採用情報：https://ja.stability.ai/careers Japanese Stable LM: https://huggingface.co/stabilityai