Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Jasterデータセットを使ったLLMモデルの評価
Search
Keisuke Kamata
January 24, 2024
Technology
4
4.4k
Jasterデータセットを使ったLLMモデルの評価
Keisuke Kamata
January 24, 2024
Tweet
Share
More Decks by Keisuke Kamata
See All by Keisuke Kamata
W_Bハッカソン説明会202602.pdf
olachinkei
0
400
MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAgent 三橋 亮太)
olachinkei
1
440
W&Bが新しくリリースしたServerless RLの紹介 (W&B 鎌田啓輔)
olachinkei
0
310
WeaveでMCPを記録する & W&BのMCP
olachinkei
1
300
LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール
olachinkei
1
290
生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo
olachinkei
2
1.3k
Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf
olachinkei
2
560
20240917_wandb_Monthly_meetup_TIS
olachinkei
0
590
Nejumi Leaderboard release 20240702
olachinkei
1
390
Other Decks in Technology
See All in Technology
JAWSDAYS2026_A-6_現場SEが語る 回せるセキュリティ運用~設計で可視化、AIで加速する「楽に回る」運用設計のコツ~
shoki_hata
0
2.9k
マルチプレーンGPUネットワークを実現するシャッフルアーキテクチャの整理と考察
markunet
2
230
Claude Codeが爆速進化してプラグイン追従がつらいので半自動化した話 ver.2
rfdnxbro
0
490
8万デプロイ
iwamot
PRO
2
220
Claude Code 2026年 最新アップデート
oikon48
10
6.3k
Kubernetesにおける推論基盤
ry
1
290
2026-03-11 JAWS-UG 茨城 #12 改めてALBを便利に使う
masasuzu
2
340
JAWS FESTA 2025でリリースしたほぼリアルタイム文字起こし/翻訳機能の構成について
naoki8408
1
260
元エンジニアPdM、IDEが恋しすぎてCursorに全業務を集約したら、スライド作成まで爆速になった話
doiko123
1
580
作りっぱなしで終わらせない! 価値を出し続ける AI エージェントのための「信頼性」設計 / Designing Reliability for AI Agents that Deliver Continuous Value
aoto
PRO
2
270
[AEON TECH HUB #24] お客様の長期的興味の理解に向けて
alpicola
0
140
僕、S3 シンプルって名前だけど全然シンプルじゃありません よろしくお願いします
yama3133
1
180
Featured
See All Featured
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
110
Paper Plane
katiecoart
PRO
0
48k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.8k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
210
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
150
Java REST API Framework Comparison - PWX 2021
mraible
34
9.2k
The Curse of the Amulet
leimatthew05
1
9.8k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.1k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Transcript
Jasterデータセットを使った LLMモデルの評価 Namgi Han 東京大学 大学院 情報理工学係研究科 コンピューター学専攻 特任研究員 W&B
ウェビナー (2024/01/24)
2 目次 • はじめに • llm-jp-evalの紹介 • Jasterの紹介 • llm-jp-eval+Jasterでの評価とその紹介
• おわりに
3 はじめに • 海外のLLM評価ベンチマークのリスト(Chang et al., 2023)
4 はじめに • 海外のLLM評価ベンチマークのリスト(Chang et al., 2023)
5 はじめに • 日本語のLLM評価ベンチマーク • JGLUE (Kurihara et al., 2022)が一般的
• 他は? • 日本語の評価データセットが存在しないわけではない • たくさんの評価データセットが提案されている • 海外の評価データセットを翻訳しているものも多い • それらをLLMの評価に使えないか?
6 はじめに • この発表の内容 • llm-jp-evalの紹介 • llm-jp-evalで使っているJasterの紹介 • llm-jp-eval+Jasterでの評価とその紹介
• 「llm-jp-eval: 日本語大規模言語モデルの自動評価ツール」 @ANLP2024でも話します
7 llm-jp-evalの紹介 • https://github.com/llm-jp/llm-jp-eval
8 llm-jp-evalの紹介 • LLM-JP(LLM 勉強会)で開発 • https://llm-jp.nii.ac.jp • オープンかつ日本語に強い大規模モデルを構築し、LLMの原理解明に 取り組む。また、モデル・データ・ツール・技術資料等を議論の過
程・失敗を含めすべて公開する • この趣旨に賛同すればだれでも参加可能 • 最初は日本語LLMの学習・開発のサポートのために作られた • lossの外にも、LLMの学習精度を測れるツールが欲しかった • 何らかの評価スコアが欲しい:どうやって?
9 llm-jp-evalの紹介 • どうやって評価する? • NLPのタスクは言語モデルを前提にしてない場合がある • 例えば分類タスクは決まったラベルの中の一つを予測する問題だが、 言語モデルは与えられたシーケンスの次に現れるべきトークンを予測 •
評価ツールによっては、言語モデルが次のトークンを予測する際、 ラベル候補のトークンの予測確率を調べ、生成結果でなくその確率で評価 • llm-jp-evalでは言語モデルの生成結果を直接使う評価を行う • 海外の評価ベンチマークのユースケースを参照 • 全ての評価タスクを一般的な方法で扱いたいというモチベーション • 分類タスクと他の生成タスクの評価手法を別々に実装したくない • 生成結果をExact Match、文字列ベースのF1などで自動評価
10 llm-jp-evalの紹介 • どうやって評価する?
11 llm-jp-evalの紹介
12 Jasterの紹介 • Jasterとは? • J * (ASTERisk) • LLM-JP内部でllm-jp-evalの対応データセットを、
「Jで始まる名前のデータセット多いから、J*。」 とまとめて呼んでいたことから由来 • Jasterの二つの意味 • 1)llm-jp-evalで対応している評価データセット全て • 2)2023.10.20のJaster:LLM-JPが発表している一部のモデルは当時 のJasterを使ってInstruction Tuningしたため
13 Jasterの紹介 • モチベ:日本語LLMの評価データセットを集める • まずNLPのタスクから始めることに • (自分含め)NLPのタスクに馴染みある人が多い • 既存研究がある:評価データが公開されて、(比較的)自動評価がやりやすい
• 現在対応している評価データセットのカテゴリー • MC (Multi-Choice QA)、NLI (Natural Language Inference)、QA (Question Answering)、RC (Reading Comprehension)、STS (Semantic Textual Similarity)、EL (Entity Linking)、FA (Fundamental Analysis)、MR (Mathematical Reasoning)
14 Jasterの紹介
15 Jasterの紹介 • NLI(自然言語推論)での例え
16 Jasterの紹介 • MC (Multi-Choice QA):JCommonsenseQA 質問と回答の選択肢を入力として受け取り、選択肢から回答を 選択してください。なお、回答は選択肢の番号(例:0)です るものとします。 回答となる数値をint型で返し、他には何も
含めないことを厳守してください。 質問:ワシントンが首都の国は? 選択肢:0.州,1.北海道,2.アメリカ,3.中部地方,4.ロシア
17 Jasterの紹介 • NLI (Natural Language Inference):Jamp、JaNLI、JNLI、JSeM、JSICK 前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。そ れ以外には何も含めないことを厳守してください。 制約:
-前提から仮説が、論理的知識や常識的知識を用いて導出可能である場合はentailment と出力 - 前提と仮説が両立しえない場合はcontradictionと出力 - そのいずれでもない場合はneutralと出力 前提:テーブルにワイングラスがいくつも並んでいます。 仮説:テーブルには何も置かれていません。
18 Jasterの紹介 • QA (Question Answering):JEMHopQA、NIILC 質問を入力とし、回答を出力してください。回答の他には何も 含めないことを厳守してください。 質問:中野区と板橋区はどちらの人口が多いですか?
19 Jasterの紹介 • RC (Reading Comprehension):JSQuAD 質問に対する回答を文章から一言で抽出してください。回答は名詞 で答えてください。 それ以外には何も含めないことを厳守してくだ さい。
文章:シアトル [SEP] 2000年現在の国勢調査で、この都市は人口 563,374人である。この都市の人種的な構成は白人73.40%、アフリ カン・アメリカン8.44%、インディアン1.10%、アジア13.71%、太 平洋諸島系0.50%、その他の人種6.84%および混血4.70%である。 質問:シアトルの人口は?
20 Jasterの紹介 • STS (Semantic Textual Similarity) :JSTS 日本語の文ペアの意味がどのくらい近いかを判定し、類似度を 0〜5までの間の値で付与してください。0に近いほど文ペアの
意味が異なり、5に近いほど文ペアの意味が似ていることを表 しています。整数値のみを返し、それ以外には何も含めないこ とを厳守してください。 文1:波に向かってサーフィンをしている人が2人います。 文2:二人のサーファーが波に乗っています。
21 Jasterの紹介 • EL (Entity Linking) :chABSA 与えられた文章から固有表現で書かれたターゲットの名前を抽出し、それに対す る極性をpositive、neutral、negativeの中から選択して下さい。固有表現で書か れたターゲットの名前と、それに対する極性(positive、neutral、negativeのい
ずれか)のペアをスペース( )で区切って出力し、それ以外には何も含めない ことを厳守してください。答えが複数の場合、改行で繋げてください。ただし、 ターゲットは固有表現である市場、市況、会社/法人、グループ、会社内の部門、 事業部、事業領域、製品、サービスの名称などを指すこととします。 文章:その結果、売上高は132億7千2百万円(前年度比19.8%減)となりまし た
22 Jasterの紹介 • FA (Fundamental Analysis):Wikipedia Annotated Corpus • Reading
prediction, Named entity recognition, Dependency parsing, Predicate-argument structure analysis, Coreference resolution 与えられたテキストを全てひらがなに変換してください。 戦死とは、軍人が戦争、戦闘、武力紛争により死亡すること。その定義 や範囲は複数存在するが、通常は戦争による民間人の死亡は含まれない。
23 Jasterの紹介 • MR (Mathematical Reasoning):MAWPS 与えられた計算問題に対する答えを整数または小数で出力して ください。数値のみを出力し、それ以外には何も含めないこと を厳守してください。 問題:佐藤は16個の青い風船、鈴木は11個の青い風船、高橋は
99個の青い風船を持っています。彼らは全部でいくつの青い風 船を持っているのでしょう?
24 Jasterの紹介 • 評価データセットの選定条件 • 公開されている • ライセンスが商用利用まで許容している(CC-BY-SAなど) • 自動評価が出来る
• 海外のベンチマークと参考し、 出来るだけ多くのタスクを網羅するように選ぶ • 問題の数が一定数以上 • llm-jp-evalのバージョンアップにつき、 Jasterもまた増えている:chABSA, Wikipedia Annotated Corpus, MAWPS, ...
25 llm-jp-eval+Jasterでの評価とその紹介 • 評価のやり方 • 出来るだけ自動化 • ログはW&Bで同期可能 • デフォルト設定
• 4-shots • alpaca式プロンプト • Greedy生成など、 ハイパラはほぼデフォ
26 llm-jp-eval+Jasterでの評価とその紹介
27 llm-jp-eval+Jasterでの評価とその紹介 • llm-jp-eval+Jasterの限界:評価対象が足りなく、偏っている • Chang et al.(2023):社会バイアスや毒性表現などに関わる倫理・ 信頼性,医療や応用タスクに関わるドメイン特化能力,理工学・社会 科学のように実世界を理解する能力などを評価する必要がある
• コード生成、翻訳、対話などの生成タスクへの対応も足りない: MT-Bench-JP、Rakuda、Vicuna、… • 海外の評価データの取り込みなどを目指したい:MMLUなど
28 おわりに • この発表の振り返り • 日本語LLMを評価するツール、llm-jp-evalの紹介 • 日本語LLMを評価 • 日本語LLMを何で評価するのか?:公開された評価データセット
• 日本語LLMをどうやって評価するのか?:LLMの生成結果を自動評価 • llm-jp-evalで対応する評価データセット、Jasterの紹介 • 8つのカテゴリー、12個のデータセット • 利用が自由なライセンスを持つ、公開済みの評価データセットに対応 • llm-jp-eval+Jasterでの評価とその紹介 • 自動で簡単にできます • まだデータセットの数が全然足りないので、頑張って増やせます
ご清聴ありがとうございました