Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Jasterデータセットを使ったLLMモデルの評価
Search
Keisuke Kamata
January 24, 2024
Technology
4
2.8k
Jasterデータセットを使ったLLMモデルの評価
Keisuke Kamata
January 24, 2024
Tweet
Share
More Decks by Keisuke Kamata
See All by Keisuke Kamata
20240917_wandb_Monthly_meetup_TIS
olachinkei
0
400
Nejumi Leaderboard release 20240702
olachinkei
1
170
LCTG Bench 日本語LLMの制御性ベンチマークの紹介
olachinkei
1
240
ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と 人間とGPT-4による評価で観察されたもの
olachinkei
1
870
Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf
olachinkei
1
1.1k
W&B webinar LLM leaderboard Neo
olachinkei
1
1.1k
llm-jp-eval 日本語大規模言語モデルの 自動評価ツールの開発に向けて
olachinkei
4
2.8k
JGLUEの構築そして 日本語LLM評価のこれから
olachinkei
8
4.4k
LLMOpsのためのCICD環境構築
olachinkei
3
430
Other Decks in Technology
See All in Technology
[JAWS-UG金沢支部×コンテナ支部合同企画]コンテナとは何か
furuton
3
260
Apple/Google/Amazonの決済システムの違いを踏まえた定期購読課金システムの構築 / abema-billing-system
cyberagentdevelopers
PRO
1
220
Fargateを使った研修の話
takesection
0
120
プロダクト成長に対応するプラットフォーム戦略:Authleteによる共通認証基盤の移行事例 / Building an authentication platform using Authlete and AWS
kakehashi
1
150
Figma Dev Modeで進化するデザインとエンジニアリングの協働 / figma-with-engineering
cyberagentdevelopers
PRO
1
430
【技術書典17】OpenFOAM(自宅で極める流体解析)2次元円柱まわりの流れ
kamakiri1225
0
220
【若手エンジニア応援LT会】AWSで繋がり、共に成長! ~コミュニティ活動と新人教育への挑戦~
kazushi_ohata
0
180
Product Engineer Night #6プロダクトエンジニアを育む仕組み・施策
hacomono
PRO
1
470
新卒1年目が向き合う生成AI事業の開発を加速させる技術選定 / ai-web-launcher
cyberagentdevelopers
PRO
7
1.5k
サイバーエージェントにおける生成AIのリスキリング施策の取り組み / cyber-ai-reskilling
cyberagentdevelopers
PRO
2
200
小規模に始めるデータメッシュとデータガバナンスの実践
kimujun
3
590
Jr. Championsになって、強く連携しながらAWSをもっと使いたい!~AWSに対する期待と行動~
amixedcolor
0
190
Featured
See All Featured
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
3
370
Designing for humans not robots
tammielis
249
25k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Navigating Team Friction
lara
183
14k
Build The Right Thing And Hit Your Dates
maggiecrowley
32
2.4k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
41
2.1k
Ruby is Unlike a Banana
tanoku
96
11k
Art, The Web, and Tiny UX
lynnandtonic
296
20k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.2k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
The Cult of Friendly URLs
andyhume
78
6k
Adopting Sorbet at Scale
ufuk
73
9k
Transcript
Jasterデータセットを使った LLMモデルの評価 Namgi Han 東京大学 大学院 情報理工学係研究科 コンピューター学専攻 特任研究員 W&B
ウェビナー (2024/01/24)
2 目次 • はじめに • llm-jp-evalの紹介 • Jasterの紹介 • llm-jp-eval+Jasterでの評価とその紹介
• おわりに
3 はじめに • 海外のLLM評価ベンチマークのリスト(Chang et al., 2023)
4 はじめに • 海外のLLM評価ベンチマークのリスト(Chang et al., 2023)
5 はじめに • 日本語のLLM評価ベンチマーク • JGLUE (Kurihara et al., 2022)が一般的
• 他は? • 日本語の評価データセットが存在しないわけではない • たくさんの評価データセットが提案されている • 海外の評価データセットを翻訳しているものも多い • それらをLLMの評価に使えないか?
6 はじめに • この発表の内容 • llm-jp-evalの紹介 • llm-jp-evalで使っているJasterの紹介 • llm-jp-eval+Jasterでの評価とその紹介
• 「llm-jp-eval: 日本語大規模言語モデルの自動評価ツール」 @ANLP2024でも話します
7 llm-jp-evalの紹介 • https://github.com/llm-jp/llm-jp-eval
8 llm-jp-evalの紹介 • LLM-JP(LLM 勉強会)で開発 • https://llm-jp.nii.ac.jp • オープンかつ日本語に強い大規模モデルを構築し、LLMの原理解明に 取り組む。また、モデル・データ・ツール・技術資料等を議論の過
程・失敗を含めすべて公開する • この趣旨に賛同すればだれでも参加可能 • 最初は日本語LLMの学習・開発のサポートのために作られた • lossの外にも、LLMの学習精度を測れるツールが欲しかった • 何らかの評価スコアが欲しい:どうやって?
9 llm-jp-evalの紹介 • どうやって評価する? • NLPのタスクは言語モデルを前提にしてない場合がある • 例えば分類タスクは決まったラベルの中の一つを予測する問題だが、 言語モデルは与えられたシーケンスの次に現れるべきトークンを予測 •
評価ツールによっては、言語モデルが次のトークンを予測する際、 ラベル候補のトークンの予測確率を調べ、生成結果でなくその確率で評価 • llm-jp-evalでは言語モデルの生成結果を直接使う評価を行う • 海外の評価ベンチマークのユースケースを参照 • 全ての評価タスクを一般的な方法で扱いたいというモチベーション • 分類タスクと他の生成タスクの評価手法を別々に実装したくない • 生成結果をExact Match、文字列ベースのF1などで自動評価
10 llm-jp-evalの紹介 • どうやって評価する?
11 llm-jp-evalの紹介
12 Jasterの紹介 • Jasterとは? • J * (ASTERisk) • LLM-JP内部でllm-jp-evalの対応データセットを、
「Jで始まる名前のデータセット多いから、J*。」 とまとめて呼んでいたことから由来 • Jasterの二つの意味 • 1)llm-jp-evalで対応している評価データセット全て • 2)2023.10.20のJaster:LLM-JPが発表している一部のモデルは当時 のJasterを使ってInstruction Tuningしたため
13 Jasterの紹介 • モチベ:日本語LLMの評価データセットを集める • まずNLPのタスクから始めることに • (自分含め)NLPのタスクに馴染みある人が多い • 既存研究がある:評価データが公開されて、(比較的)自動評価がやりやすい
• 現在対応している評価データセットのカテゴリー • MC (Multi-Choice QA)、NLI (Natural Language Inference)、QA (Question Answering)、RC (Reading Comprehension)、STS (Semantic Textual Similarity)、EL (Entity Linking)、FA (Fundamental Analysis)、MR (Mathematical Reasoning)
14 Jasterの紹介
15 Jasterの紹介 • NLI(自然言語推論)での例え
16 Jasterの紹介 • MC (Multi-Choice QA):JCommonsenseQA 質問と回答の選択肢を入力として受け取り、選択肢から回答を 選択してください。なお、回答は選択肢の番号(例:0)です るものとします。 回答となる数値をint型で返し、他には何も
含めないことを厳守してください。 質問:ワシントンが首都の国は? 選択肢:0.州,1.北海道,2.アメリカ,3.中部地方,4.ロシア
17 Jasterの紹介 • NLI (Natural Language Inference):Jamp、JaNLI、JNLI、JSeM、JSICK 前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。そ れ以外には何も含めないことを厳守してください。 制約:
-前提から仮説が、論理的知識や常識的知識を用いて導出可能である場合はentailment と出力 - 前提と仮説が両立しえない場合はcontradictionと出力 - そのいずれでもない場合はneutralと出力 前提:テーブルにワイングラスがいくつも並んでいます。 仮説:テーブルには何も置かれていません。
18 Jasterの紹介 • QA (Question Answering):JEMHopQA、NIILC 質問を入力とし、回答を出力してください。回答の他には何も 含めないことを厳守してください。 質問:中野区と板橋区はどちらの人口が多いですか?
19 Jasterの紹介 • RC (Reading Comprehension):JSQuAD 質問に対する回答を文章から一言で抽出してください。回答は名詞 で答えてください。 それ以外には何も含めないことを厳守してくだ さい。
文章:シアトル [SEP] 2000年現在の国勢調査で、この都市は人口 563,374人である。この都市の人種的な構成は白人73.40%、アフリ カン・アメリカン8.44%、インディアン1.10%、アジア13.71%、太 平洋諸島系0.50%、その他の人種6.84%および混血4.70%である。 質問:シアトルの人口は?
20 Jasterの紹介 • STS (Semantic Textual Similarity) :JSTS 日本語の文ペアの意味がどのくらい近いかを判定し、類似度を 0〜5までの間の値で付与してください。0に近いほど文ペアの
意味が異なり、5に近いほど文ペアの意味が似ていることを表 しています。整数値のみを返し、それ以外には何も含めないこ とを厳守してください。 文1:波に向かってサーフィンをしている人が2人います。 文2:二人のサーファーが波に乗っています。
21 Jasterの紹介 • EL (Entity Linking) :chABSA 与えられた文章から固有表現で書かれたターゲットの名前を抽出し、それに対す る極性をpositive、neutral、negativeの中から選択して下さい。固有表現で書か れたターゲットの名前と、それに対する極性(positive、neutral、negativeのい
ずれか)のペアをスペース( )で区切って出力し、それ以外には何も含めない ことを厳守してください。答えが複数の場合、改行で繋げてください。ただし、 ターゲットは固有表現である市場、市況、会社/法人、グループ、会社内の部門、 事業部、事業領域、製品、サービスの名称などを指すこととします。 文章:その結果、売上高は132億7千2百万円(前年度比19.8%減)となりまし た
22 Jasterの紹介 • FA (Fundamental Analysis):Wikipedia Annotated Corpus • Reading
prediction, Named entity recognition, Dependency parsing, Predicate-argument structure analysis, Coreference resolution 与えられたテキストを全てひらがなに変換してください。 戦死とは、軍人が戦争、戦闘、武力紛争により死亡すること。その定義 や範囲は複数存在するが、通常は戦争による民間人の死亡は含まれない。
23 Jasterの紹介 • MR (Mathematical Reasoning):MAWPS 与えられた計算問題に対する答えを整数または小数で出力して ください。数値のみを出力し、それ以外には何も含めないこと を厳守してください。 問題:佐藤は16個の青い風船、鈴木は11個の青い風船、高橋は
99個の青い風船を持っています。彼らは全部でいくつの青い風 船を持っているのでしょう?
24 Jasterの紹介 • 評価データセットの選定条件 • 公開されている • ライセンスが商用利用まで許容している(CC-BY-SAなど) • 自動評価が出来る
• 海外のベンチマークと参考し、 出来るだけ多くのタスクを網羅するように選ぶ • 問題の数が一定数以上 • llm-jp-evalのバージョンアップにつき、 Jasterもまた増えている:chABSA, Wikipedia Annotated Corpus, MAWPS, ...
25 llm-jp-eval+Jasterでの評価とその紹介 • 評価のやり方 • 出来るだけ自動化 • ログはW&Bで同期可能 • デフォルト設定
• 4-shots • alpaca式プロンプト • Greedy生成など、 ハイパラはほぼデフォ
26 llm-jp-eval+Jasterでの評価とその紹介
27 llm-jp-eval+Jasterでの評価とその紹介 • llm-jp-eval+Jasterの限界:評価対象が足りなく、偏っている • Chang et al.(2023):社会バイアスや毒性表現などに関わる倫理・ 信頼性,医療や応用タスクに関わるドメイン特化能力,理工学・社会 科学のように実世界を理解する能力などを評価する必要がある
• コード生成、翻訳、対話などの生成タスクへの対応も足りない: MT-Bench-JP、Rakuda、Vicuna、… • 海外の評価データの取り込みなどを目指したい:MMLUなど
28 おわりに • この発表の振り返り • 日本語LLMを評価するツール、llm-jp-evalの紹介 • 日本語LLMを評価 • 日本語LLMを何で評価するのか?:公開された評価データセット
• 日本語LLMをどうやって評価するのか?:LLMの生成結果を自動評価 • llm-jp-evalで対応する評価データセット、Jasterの紹介 • 8つのカテゴリー、12個のデータセット • 利用が自由なライセンスを持つ、公開済みの評価データセットに対応 • llm-jp-eval+Jasterでの評価とその紹介 • 自動で簡単にできます • まだデータセットの数が全然足りないので、頑張って増やせます
ご清聴ありがとうございました