Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Keisuke Kamata
January 24, 2024
1
1.4k
Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf
Keisuke Kamata
January 24, 2024
Tweet
Share
More Decks by Keisuke Kamata
See All by Keisuke Kamata
MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAgent 三橋 亮太)
olachinkei
1
390
W&Bが新しくリリースしたServerless RLの紹介 (W&B 鎌田啓輔)
olachinkei
0
290
WeaveでMCPを記録する & W&BのMCP
olachinkei
1
290
LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール
olachinkei
1
280
生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo
olachinkei
2
1.3k
Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf
olachinkei
2
550
20240917_wandb_Monthly_meetup_TIS
olachinkei
0
580
Nejumi Leaderboard release 20240702
olachinkei
1
380
LCTG Bench 日本語LLMの制御性ベンチマークの紹介
olachinkei
1
520
Featured
See All Featured
Producing Creativity
orderedlist
PRO
348
40k
How to Talk to Developers About Accessibility
jct
2
120
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
410
How GitHub (no longer) Works
holman
316
140k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
GraphQLの誤解/rethinking-graphql
sonatard
74
11k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Building AI with AI
inesmontani
PRO
1
680
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
1
47
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
Transcript
Japanese MT-Bench を使った LLM モデルの評価 Meng Lee, Stability AI @
W&B Webinar 2024/01/24
Agenda • 自己紹介 • Japanese Stable LM シリーズ • Japanese
MT-Bench
Meng Lee (メン・リ) 自己紹介 • Stability AI で機械学習エンジニア。日本語大規 模言語モデル(LLM)の研究開発を主導
• SmartNews 時期は会社初の BERT・DistilBert に基づく大規模ニュース分類システムを構築 • 台湾大学情報管理科で情報検索と自然言語処 理を専攻 • 台湾育ての多言語モデル。日本語、英語と中国 語。コードもそこそこ書けます
🦜 Japanese Stable LM シリーズ • モデルサイズ 3B から 70B
の日本語 LLM を公開 • ゼロから学習か、英語のベースモデルから継続学習 • 基盤言語モデルとチャットモデル • 日本語特化の lm-evaluation-harness を開発し、 JGLUE ベースで LLM の言語理解を評価
⚖ Japanese MT-Bench での日本語 LLM の言語生成評価 • Chatbot Arena で有名な
LLM-as-a-judge 論 文の手法に沿って作られた会話形式の日本 語特化の LLM 言語生成評価データセット (MT は Multi-Turn の省略) • 8つの応用領域の問題を含む。各問題に正確 に答えるために、LLMは以下の要求を同時に 満たす必要があります: • 流暢な日本語を生成する • 世界の知識を理解する • 日本文化、社会を理解する • 推論や数学の能力を持つ • 文脈を理解し、利用者と対話すること
⚖ Japanese MT-Bench での日本語 LLM の言語生成評価
⚖ Weights & Biases で Japanese MT-Bench を利用 • Japanese
MT-Bench は、GPT-4 のような強 力な LLM を使用して自動評価を行い、企業 や研究所のための迅速な LLM 開発を可能 にします。 • lm-evaluation-harness・Jaster と一緒に使 用することをお勧めします。これにより、これ らの日本語 LLM のパフォーマンスをより深く 理解することができます。 • Nejumiリーダーボードは日本語特化の LLM 評価を簡単にしてくれる
Stability AI 採用情報:https://ja.stability.ai/careers Japanese Stable LM: https://huggingface.co/stabilityai