Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Jasterデータセットを使ったLLMモデルの評価
Search
Keisuke Kamata
January 24, 2024
Technology
4
3.2k
Jasterデータセットを使ったLLMモデルの評価
Keisuke Kamata
January 24, 2024
Tweet
Share
More Decks by Keisuke Kamata
See All by Keisuke Kamata
生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo
olachinkei
2
170
Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf
olachinkei
1
260
20240917_wandb_Monthly_meetup_TIS
olachinkei
0
450
Nejumi Leaderboard release 20240702
olachinkei
1
210
LCTG Bench 日本語LLMの制御性ベンチマークの紹介
olachinkei
1
290
ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と 人間とGPT-4による評価で観察されたもの
olachinkei
1
980
Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf
olachinkei
1
1.1k
W&B webinar LLM leaderboard Neo
olachinkei
1
1.1k
llm-jp-eval 日本語大規模言語モデルの 自動評価ツールの開発に向けて
olachinkei
4
2.9k
Other Decks in Technology
See All in Technology
alecthomas/kong はいいぞ / kamakura.go#7
fujiwara3
1
300
LINE Developersプロダクト(LIFF/LINE Login)におけるフロントエンド開発
lycorptech_jp
PRO
0
120
TSKaigi 2024 の登壇から広がったコミュニティ活動について
tsukuha
0
160
AI時代のデータセンターネットワーク
lycorptech_jp
PRO
1
280
ハイテク休憩
sat
PRO
2
140
大幅アップデートされたRagas v0.2をキャッチアップ
os1ma
2
520
宇宙ベンチャーにおける最近の情シス取り組みについて
axelmizu
0
110
NilAway による静的解析で「10 億ドル」を節約する #kyotogo / Kyoto Go 56th
ytaka23
3
370
AWS re:Invent 2024で発表された コードを書く開発者向け機能について
maruto
0
190
終了の危機にあった15年続くWebサービスを全力で存続させる - phpcon2024
yositosi
0
430
ずっと昔に Star をつけたはずの思い出せない GitHub リポジトリを見つけたい!
rokuosan
0
150
AIのコンプラは何故しんどい?
shujisado
1
190
Featured
See All Featured
A better future with KSS
kneath
238
17k
Bash Introduction
62gerente
608
210k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
95
17k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
5
440
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.3k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
How STYLIGHT went responsive
nonsquared
95
5.2k
BBQ
matthewcrist
85
9.4k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
VelocityConf: Rendering Performance Case Studies
addyosmani
326
24k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Agile that works and the tools we love
rasmusluckow
328
21k
Transcript
Jasterデータセットを使った LLMモデルの評価 Namgi Han 東京大学 大学院 情報理工学係研究科 コンピューター学専攻 特任研究員 W&B
ウェビナー (2024/01/24)
2 目次 • はじめに • llm-jp-evalの紹介 • Jasterの紹介 • llm-jp-eval+Jasterでの評価とその紹介
• おわりに
3 はじめに • 海外のLLM評価ベンチマークのリスト(Chang et al., 2023)
4 はじめに • 海外のLLM評価ベンチマークのリスト(Chang et al., 2023)
5 はじめに • 日本語のLLM評価ベンチマーク • JGLUE (Kurihara et al., 2022)が一般的
• 他は? • 日本語の評価データセットが存在しないわけではない • たくさんの評価データセットが提案されている • 海外の評価データセットを翻訳しているものも多い • それらをLLMの評価に使えないか?
6 はじめに • この発表の内容 • llm-jp-evalの紹介 • llm-jp-evalで使っているJasterの紹介 • llm-jp-eval+Jasterでの評価とその紹介
• 「llm-jp-eval: 日本語大規模言語モデルの自動評価ツール」 @ANLP2024でも話します
7 llm-jp-evalの紹介 • https://github.com/llm-jp/llm-jp-eval
8 llm-jp-evalの紹介 • LLM-JP(LLM 勉強会)で開発 • https://llm-jp.nii.ac.jp • オープンかつ日本語に強い大規模モデルを構築し、LLMの原理解明に 取り組む。また、モデル・データ・ツール・技術資料等を議論の過
程・失敗を含めすべて公開する • この趣旨に賛同すればだれでも参加可能 • 最初は日本語LLMの学習・開発のサポートのために作られた • lossの外にも、LLMの学習精度を測れるツールが欲しかった • 何らかの評価スコアが欲しい:どうやって?
9 llm-jp-evalの紹介 • どうやって評価する? • NLPのタスクは言語モデルを前提にしてない場合がある • 例えば分類タスクは決まったラベルの中の一つを予測する問題だが、 言語モデルは与えられたシーケンスの次に現れるべきトークンを予測 •
評価ツールによっては、言語モデルが次のトークンを予測する際、 ラベル候補のトークンの予測確率を調べ、生成結果でなくその確率で評価 • llm-jp-evalでは言語モデルの生成結果を直接使う評価を行う • 海外の評価ベンチマークのユースケースを参照 • 全ての評価タスクを一般的な方法で扱いたいというモチベーション • 分類タスクと他の生成タスクの評価手法を別々に実装したくない • 生成結果をExact Match、文字列ベースのF1などで自動評価
10 llm-jp-evalの紹介 • どうやって評価する?
11 llm-jp-evalの紹介
12 Jasterの紹介 • Jasterとは? • J * (ASTERisk) • LLM-JP内部でllm-jp-evalの対応データセットを、
「Jで始まる名前のデータセット多いから、J*。」 とまとめて呼んでいたことから由来 • Jasterの二つの意味 • 1)llm-jp-evalで対応している評価データセット全て • 2)2023.10.20のJaster:LLM-JPが発表している一部のモデルは当時 のJasterを使ってInstruction Tuningしたため
13 Jasterの紹介 • モチベ:日本語LLMの評価データセットを集める • まずNLPのタスクから始めることに • (自分含め)NLPのタスクに馴染みある人が多い • 既存研究がある:評価データが公開されて、(比較的)自動評価がやりやすい
• 現在対応している評価データセットのカテゴリー • MC (Multi-Choice QA)、NLI (Natural Language Inference)、QA (Question Answering)、RC (Reading Comprehension)、STS (Semantic Textual Similarity)、EL (Entity Linking)、FA (Fundamental Analysis)、MR (Mathematical Reasoning)
14 Jasterの紹介
15 Jasterの紹介 • NLI(自然言語推論)での例え
16 Jasterの紹介 • MC (Multi-Choice QA):JCommonsenseQA 質問と回答の選択肢を入力として受け取り、選択肢から回答を 選択してください。なお、回答は選択肢の番号(例:0)です るものとします。 回答となる数値をint型で返し、他には何も
含めないことを厳守してください。 質問:ワシントンが首都の国は? 選択肢:0.州,1.北海道,2.アメリカ,3.中部地方,4.ロシア
17 Jasterの紹介 • NLI (Natural Language Inference):Jamp、JaNLI、JNLI、JSeM、JSICK 前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。そ れ以外には何も含めないことを厳守してください。 制約:
-前提から仮説が、論理的知識や常識的知識を用いて導出可能である場合はentailment と出力 - 前提と仮説が両立しえない場合はcontradictionと出力 - そのいずれでもない場合はneutralと出力 前提:テーブルにワイングラスがいくつも並んでいます。 仮説:テーブルには何も置かれていません。
18 Jasterの紹介 • QA (Question Answering):JEMHopQA、NIILC 質問を入力とし、回答を出力してください。回答の他には何も 含めないことを厳守してください。 質問:中野区と板橋区はどちらの人口が多いですか?
19 Jasterの紹介 • RC (Reading Comprehension):JSQuAD 質問に対する回答を文章から一言で抽出してください。回答は名詞 で答えてください。 それ以外には何も含めないことを厳守してくだ さい。
文章:シアトル [SEP] 2000年現在の国勢調査で、この都市は人口 563,374人である。この都市の人種的な構成は白人73.40%、アフリ カン・アメリカン8.44%、インディアン1.10%、アジア13.71%、太 平洋諸島系0.50%、その他の人種6.84%および混血4.70%である。 質問:シアトルの人口は?
20 Jasterの紹介 • STS (Semantic Textual Similarity) :JSTS 日本語の文ペアの意味がどのくらい近いかを判定し、類似度を 0〜5までの間の値で付与してください。0に近いほど文ペアの
意味が異なり、5に近いほど文ペアの意味が似ていることを表 しています。整数値のみを返し、それ以外には何も含めないこ とを厳守してください。 文1:波に向かってサーフィンをしている人が2人います。 文2:二人のサーファーが波に乗っています。
21 Jasterの紹介 • EL (Entity Linking) :chABSA 与えられた文章から固有表現で書かれたターゲットの名前を抽出し、それに対す る極性をpositive、neutral、negativeの中から選択して下さい。固有表現で書か れたターゲットの名前と、それに対する極性(positive、neutral、negativeのい
ずれか)のペアをスペース( )で区切って出力し、それ以外には何も含めない ことを厳守してください。答えが複数の場合、改行で繋げてください。ただし、 ターゲットは固有表現である市場、市況、会社/法人、グループ、会社内の部門、 事業部、事業領域、製品、サービスの名称などを指すこととします。 文章:その結果、売上高は132億7千2百万円(前年度比19.8%減)となりまし た
22 Jasterの紹介 • FA (Fundamental Analysis):Wikipedia Annotated Corpus • Reading
prediction, Named entity recognition, Dependency parsing, Predicate-argument structure analysis, Coreference resolution 与えられたテキストを全てひらがなに変換してください。 戦死とは、軍人が戦争、戦闘、武力紛争により死亡すること。その定義 や範囲は複数存在するが、通常は戦争による民間人の死亡は含まれない。
23 Jasterの紹介 • MR (Mathematical Reasoning):MAWPS 与えられた計算問題に対する答えを整数または小数で出力して ください。数値のみを出力し、それ以外には何も含めないこと を厳守してください。 問題:佐藤は16個の青い風船、鈴木は11個の青い風船、高橋は
99個の青い風船を持っています。彼らは全部でいくつの青い風 船を持っているのでしょう?
24 Jasterの紹介 • 評価データセットの選定条件 • 公開されている • ライセンスが商用利用まで許容している(CC-BY-SAなど) • 自動評価が出来る
• 海外のベンチマークと参考し、 出来るだけ多くのタスクを網羅するように選ぶ • 問題の数が一定数以上 • llm-jp-evalのバージョンアップにつき、 Jasterもまた増えている:chABSA, Wikipedia Annotated Corpus, MAWPS, ...
25 llm-jp-eval+Jasterでの評価とその紹介 • 評価のやり方 • 出来るだけ自動化 • ログはW&Bで同期可能 • デフォルト設定
• 4-shots • alpaca式プロンプト • Greedy生成など、 ハイパラはほぼデフォ
26 llm-jp-eval+Jasterでの評価とその紹介
27 llm-jp-eval+Jasterでの評価とその紹介 • llm-jp-eval+Jasterの限界:評価対象が足りなく、偏っている • Chang et al.(2023):社会バイアスや毒性表現などに関わる倫理・ 信頼性,医療や応用タスクに関わるドメイン特化能力,理工学・社会 科学のように実世界を理解する能力などを評価する必要がある
• コード生成、翻訳、対話などの生成タスクへの対応も足りない: MT-Bench-JP、Rakuda、Vicuna、… • 海外の評価データの取り込みなどを目指したい:MMLUなど
28 おわりに • この発表の振り返り • 日本語LLMを評価するツール、llm-jp-evalの紹介 • 日本語LLMを評価 • 日本語LLMを何で評価するのか?:公開された評価データセット
• 日本語LLMをどうやって評価するのか?:LLMの生成結果を自動評価 • llm-jp-evalで対応する評価データセット、Jasterの紹介 • 8つのカテゴリー、12個のデータセット • 利用が自由なライセンスを持つ、公開済みの評価データセットに対応 • llm-jp-eval+Jasterでの評価とその紹介 • 自動で簡単にできます • まだデータセットの数が全然足りないので、頑張って増やせます
ご清聴ありがとうございました