Jasterデータセットを使ったLLMモデルの評価

by Keisuke Kamata

Slide 1

Slide 1 text

Jasterデータセットを使った LLMモデルの評価 Namgi Han 東京大学大学院情報理工学係研究科コンピューター学専攻特任研究員 W&B ウェビナー (2024/01/24)

Slide 2

Slide 2 text

2 目次 • はじめに • llm-jp-evalの紹介 • Jasterの紹介 • llm-jp-eval＋Jasterでの評価とその紹介 • おわりに

Slide 3

Slide 3 text

3 はじめに • 海外のLLM評価ベンチマークのリスト（Chang et al., 2023）

Slide 4

Slide 4 text

4 はじめに • 海外のLLM評価ベンチマークのリスト（Chang et al., 2023）

Slide 5

Slide 5 text

5 はじめに • 日本語のLLM評価ベンチマーク • JGLUE (Kurihara et al., 2022）が一般的 • 他は？ • 日本語の評価データセットが存在しないわけではない • たくさんの評価データセットが提案されている • 海外の評価データセットを翻訳しているものも多い • それらをLLMの評価に使えないか？

Slide 6

Slide 6 text

6 はじめに • この発表の内容 • llm-jp-evalの紹介 • llm-jp-evalで使っているJasterの紹介 • llm-jp-eval＋Jasterでの評価とその紹介 • 「llm-jp-eval: 日本語大規模言語モデルの自動評価ツール」＠ANLP2024でも話します

Slide 7

Slide 7 text

7 llm-jp-evalの紹介 • https://github.com/llm-jp/llm-jp-eval

Slide 8

Slide 8 text

8 llm-jp-evalの紹介 • LLM-JP（LLM 勉強会）で開発 • https://llm-jp.nii.ac.jp • オープンかつ日本語に強い大規模モデルを構築し、LLMの原理解明に取り組む。また、モデル・データ・ツール・技術資料等を議論の過程・失敗を含めすべて公開する • この趣旨に賛同すればだれでも参加可能 • 最初は日本語LLMの学習・開発のサポートのために作られた • lossの外にも、LLMの学習精度を測れるツールが欲しかった • 何らかの評価スコアが欲しい：どうやって？

Slide 9

Slide 9 text

9 llm-jp-evalの紹介 • どうやって評価する？ • NLPのタスクは言語モデルを前提にしてない場合がある • 例えば分類タスクは決まったラベルの中の一つを予測する問題だが、言語モデルは与えられたシーケンスの次に現れるべきトークンを予測 • 評価ツールによっては、言語モデルが次のトークンを予測する際、ラベル候補のトークンの予測確率を調べ、生成結果でなくその確率で評価 • llm-jp-evalでは言語モデルの生成結果を直接使う評価を行う • 海外の評価ベンチマークのユースケースを参照 • 全ての評価タスクを一般的な方法で扱いたいというモチベーション • 分類タスクと他の生成タスクの評価手法を別々に実装したくない • 生成結果をExact Match、文字列ベースのF1などで自動評価

Slide 10

Slide 10 text

10 llm-jp-evalの紹介 • どうやって評価する？

Slide 11

Slide 11 text

11 llm-jp-evalの紹介

Slide 12

Slide 12 text

12 Jasterの紹介 • Jasterとは？ • J * （ASTERisk） • LLM-JP内部でllm-jp-evalの対応データセットを、「Jで始まる名前のデータセット多いから、J*。」とまとめて呼んでいたことから由来 • Jasterの二つの意味 • １）llm-jp-evalで対応している評価データセット全て • ２）2023.10.20のJaster：LLM-JPが発表している一部のモデルは当時のJasterを使ってInstruction Tuningしたため

Slide 13

Slide 13 text

13 Jasterの紹介 • モチベ：日本語LLMの評価データセットを集める • まずNLPのタスクから始めることに • （自分含め）NLPのタスクに馴染みある人が多い • 既存研究がある：評価データが公開されて、（比較的）自動評価がやりやすい • 現在対応している評価データセットのカテゴリー • MC (Multi-Choice QA)、NLI (Natural Language Inference)、QA (Question Answering)、RC (Reading Comprehension)、STS (Semantic Textual Similarity)、EL (Entity Linking)、FA (Fundamental Analysis)、MR (Mathematical Reasoning)

Slide 14

Slide 14 text

14 Jasterの紹介

Slide 15

Slide 15 text

15 Jasterの紹介 • NLI（自然言語推論）での例え

Slide 16

Slide 16 text

16 Jasterの紹介 • MC (Multi-Choice QA)：JCommonsenseQA 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。なお、回答は選択肢の番号（例：0）でするものとします。回答となる数値をint型で返し、他には何も含めないことを厳守してください。質問：ワシントンが首都の国は？選択肢：0.州,1.北海道,2.アメリカ,3.中部地方,4.ロシア

Slide 17

Slide 17 text

17 Jasterの紹介 • NLI (Natural Language Inference)：Jamp、JaNLI、JNLI、JSeM、JSICK 前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。それ以外には何も含めないことを厳守してください。制約： -前提から仮説が、論理的知識や常識的知識を用いて導出可能である場合はentailment と出力 - 前提と仮説が両立しえない場合はcontradictionと出力 - そのいずれでもない場合はneutralと出力前提：テーブルにワイングラスがいくつも並んでいます。仮説：テーブルには何も置かれていません。

Slide 18

Slide 18 text

18 Jasterの紹介 • QA (Question Answering)：JEMHopQA、NIILC 質問を入力とし、回答を出力してください。回答の他には何も含めないことを厳守してください。質問：中野区と板橋区はどちらの人口が多いですか？

Slide 19

Slide 19 text

19 Jasterの紹介 • RC (Reading Comprehension)：JSQuAD 質問に対する回答を文章から一言で抽出してください。回答は名詞で答えてください。それ以外には何も含めないことを厳守してください。文章：シアトル [SEP] 2000年現在の国勢調査で、この都市は人口 563,374人である。この都市の人種的な構成は白人73.40%、アフリカン・アメリカン8.44%、インディアン1.10%、アジア13.71%、太平洋諸島系0.50%、その他の人種6.84%および混血4.70%である。質問：シアトルの人口は？

Slide 20

Slide 20 text

20 Jasterの紹介 • STS (Semantic Textual Similarity) ：JSTS 日本語の文ペアの意味がどのくらい近いかを判定し、類似度を 0〜5までの間の値で付与してください。0に近いほど文ペアの意味が異なり、5に近いほど文ペアの意味が似ていることを表しています。整数値のみを返し、それ以外には何も含めないことを厳守してください。文1：波に向かってサーフィンをしている人が2人います。文2：二人のサーファーが波に乗っています。

Slide 21

Slide 21 text

21 Jasterの紹介 • EL (Entity Linking) ：chABSA 与えられた文章から固有表現で書かれたターゲットの名前を抽出し、それに対する極性をpositive、neutral、negativeの中から選択して下さい。固有表現で書かれたターゲットの名前と、それに対する極性（positive、neutral、negativeのいずれか）のペアをスペース（）で区切って出力し、それ以外には何も含めないことを厳守してください。答えが複数の場合、改行で繋げてください。ただし、ターゲットは固有表現である市場、市況、会社/法人、グループ、会社内の部門、事業部、事業領域、製品、サービスの名称などを指すこととします。文章：その結果、売上高は132億７千２百万円（前年度比19.8％減）となりました

Slide 22

Slide 22 text

22 Jasterの紹介 • FA (Fundamental Analysis)：Wikipedia Annotated Corpus • Reading prediction, Named entity recognition, Dependency parsing, Predicate-argument structure analysis, Coreference resolution 与えられたテキストを全てひらがなに変換してください。戦死とは、軍人が戦争、戦闘、武力紛争により死亡すること。その定義や範囲は複数存在するが、通常は戦争による民間人の死亡は含まれない。

Slide 23

Slide 23 text

23 Jasterの紹介 • MR (Mathematical Reasoning)：MAWPS 与えられた計算問題に対する答えを整数または小数で出力してください。数値のみを出力し、それ以外には何も含めないことを厳守してください。問題：佐藤は16個の青い風船、鈴木は11個の青い風船、高橋は 99個の青い風船を持っています。彼らは全部でいくつの青い風船を持っているのでしょう？

Slide 24

Slide 24 text

24 Jasterの紹介 • 評価データセットの選定条件 • 公開されている • ライセンスが商用利用まで許容している（CC-BY-SAなど） • 自動評価が出来る • 海外のベンチマークと参考し、出来るだけ多くのタスクを網羅するように選ぶ • 問題の数が一定数以上 • llm-jp-evalのバージョンアップにつき、 Jasterもまた増えている：chABSA, Wikipedia Annotated Corpus, MAWPS, ...

Slide 25

Slide 25 text

25 llm-jp-eval＋Jasterでの評価とその紹介 • 評価のやり方 • 出来るだけ自動化 • ログはW&Bで同期可能 • デフォルト設定 • 4-shots • alpaca式プロンプト • Greedy生成など、ハイパラはほぼデフォ

Slide 26

Slide 26 text

26 llm-jp-eval＋Jasterでの評価とその紹介

Slide 27

Slide 27 text

27 llm-jp-eval＋Jasterでの評価とその紹介 • llm-jp-eval+Jasterの限界：評価対象が足りなく、偏っている • Chang et al.（2023）：社会バイアスや毒性表現などに関わる倫理・信頼性，医療や応用タスクに関わるドメイン特化能力，理工学・社会科学のように実世界を理解する能力などを評価する必要がある • コード生成、翻訳、対話などの生成タスクへの対応も足りない： MT-Bench-JP、Rakuda、Vicuna、… • 海外の評価データの取り込みなどを目指したい：MMLUなど

Slide 28

Slide 28 text

28 おわりに • この発表の振り返り • 日本語LLMを評価するツール、llm-jp-evalの紹介 • 日本語LLMを評価 • 日本語LLMを何で評価するのか？：公開された評価データセット • 日本語LLMをどうやって評価するのか？：LLMの生成結果を自動評価 • llm-jp-evalで対応する評価データセット、Jasterの紹介 • 8つのカテゴリー、12個のデータセット • 利用が自由なライセンスを持つ、公開済みの評価データセットに対応 • llm-jp-eval＋Jasterでの評価とその紹介 • 自動で簡単にできます • まだデータセットの数が全然足りないので、頑張って増やせます

Slide 29

Slide 29 text

ご清聴ありがとうございました