Upgrade to Pro — share decks privately, control downloads, hide ads and more …

llm-jp-eval 日本語大規模言語モデルの 自動評価ツールの開発に向けて

Keisuke Kamata
November 15, 2023
2.7k

llm-jp-eval 日本語大規模言語モデルの 自動評価ツールの開発に向けて

Keisuke Kamata

November 15, 2023
Tweet

More Decks by Keisuke Kamata

Transcript

  1. 3 序論 • 最近公開された日本語LLMのリスト • cyberagent/calm2-7b • elyza/ELYZA-japanese-Llama-2-7b • llm-jp/llm-jp-13b-v1.0

    • matsuo-lab/weblab-10b • pfnet/plamo-13b • rinna/youri-7b • stabilityai/japanese-stablelm-base-alpha-7b • stockmark/stockmark-13b • …
  2. 4 序論 • 何が良い言語モデルなのか? • 最新のものが一番良い? • パラメータの数が大きいほど良い? • 有名な会社が作ってるものが良い?

    • そもそも「良い」とは何? • ChatGPTが「良い」言語モデルと言われるのはどうして? • 何を評価して、何で評価して、どう評価するのか? • まだ一般的な答えは存在しないと思われる
  3. 8 序論 • この発表の内容 • 日本語LLMを評価するツール、llm-jp-evalの紹介 • 日本語LLMを評価 • 日本語LLMのどの性能を評価するのか?

    • 日本語LLMを何で評価するのか? • 日本語LLMをどうやって評価するのか? • llm-jp-evalで実際、日本語LLMを評価して分かったもの • llm-jp-evalの問題・限界と、これからの取り組み
  4. 9 LLM-JP(LLM 勉強会)の紹介 • 2023年5月発足: https://llm-jp.nii.ac.jp • 問題意識 • LLMの研究開発が一部の組織の寡占状態であることは健全とはいえな

    い(ex. OpenAI) • 強いモデルの学習コーパス・データは公開されておらず、巨大パラ メータのモデルの振舞いを含めて多くがblack-boxで、その賢さ、多言 語性について多くが不明 • 一方、現在のモデルにはHallucination、バイアス等の課題も山積 • 日本語コーパスはGPT-3において0.11%、日本語の理解・生成能力は 英語に比べて劣る • 国内にサーバを置き、セキュリティ認証ISMAPを取得するサービスも 検討されているが、経済安全保障的な懸念は残る
  5. 10

  6. 11 LLM-JP(LLM 勉強会)の紹介 • オープンかつ日本語に強い大規模モデルを構築し、LLMの原理 解明に取り組む • モデル・データ・ツール・技術資料等を議論の過程・失敗を含 めすべて公開する •

    この趣旨に賛同すればだれでも参加可能 • 10月、日本語と英語を中心に事前学習した130億パラメータの 大規模言語モデルをオープンなライセンスで公開 • https://huggingface.co/llm-jp
  7. 12

  8. 13 LLM-JP(LLM 勉強会)のWG紹介 コーパスWG モデル構築WG チューニング・評価WG 大規模コーパス 大規模 計算基盤 評価データ

    チューニング データ 河原大輔 (早稲田大学教授) 鈴木潤教授 (東北大学教授) 宮尾祐介 (東京大学教授)
  9. 16 大規模言語モデルの評価 Chang et al. (2023), "A survey on evaluation

    of large language models”, arXiv preprint arXiv:2307.03109.
  10. 17 大規模言語モデルの評価 • What to evaluate?:どの課題で評価する? • NLPのタスク、信頼性、アプリケーション、… • Where

    to evaluate?:どのデータを持って評価する? • NLPの評価データ、社内のユーザーデータ、… • How to evaluate?:どうやって評価する? • 人手評価、自動評価、… Chang et al. (2023), "A survey on evaluation of large language models”, arXiv preprint arXiv:2307.03109.
  11. 24 大規模言語モデルの評価 • 例4)Summary of existing LLMs evaluation benchmarks (Chang

    et al., 2023) • 英語圏での評価データ及び ベンチマークは充実してるが、 日本語でのそれらは 比較的足りない • llm-jp-evalのモチベーション
  12. 26 llm-jp-evalの紹介 • What to evaluate?:どの課題で評価する? • まずNLPのタスクから始める • (自分含め)NLPのタスクに馴染みある人が多い

    • 既存研究により、評価データが公開されている • (比較的)自動評価がやりやすい • v1.0.0で対応できたNLPタスクのリスト • MC (Multi-Choice QA) • NLI (Natural Language Inference) • QA (Question Answering) • RC (Reading Comprehension) • STS (Semantic Textual Similarity)
  13. 27 llm-jp-evalの紹介 • Where to evaluate?:どのデータを持って評価する? • 自然と公開されているNLPの評価データセットを使うことに • v1.0.0で対応できた評価データセットのリスト

    • MC (Multi-Choice QA):JCommonsenseQA • NLI (Natural Language Inference):Jamp、JaNLI、JNLI、JSeM、JSICK • QA (Question Answering):JEMHopQA、NIILC • RC (Reading Comprehension):JSQuAD • STS (Semantic Textual Similarity) :JSTS
  14. 28 llm-jp-evalの紹介 • Where to evaluate?:どのデータを持って評価する? • MC (Multi-Choice QA):JCommonsenseQA

    • ex. 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択し てください。なお、回答は選択肢の番号(例:0)でするものとします。 回答となる数値をint型で返し、他には何も含めないことを厳守してく ださい。 質問:ワシントンが首都の国は? 選択肢:0.州,1.北海道,2.アメリカ,3.中部地方,4.ロシア
  15. 29 llm-jp-evalの紹介 • Where to evaluate?:どのデータを持って評価する? • NLI (Natural Language

    Inference):Jamp、JaNLI、JNLI、JSeM、JSICK • ex. 前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。 それ以外には何も含めないことを厳守してください。 制約: -前提から仮説が、論理的知識や常識的知識を用いて導出可能である場合は entailmentと出力 -前提と仮説が両立しえない場合はcontradictionと出力 -そのいずれでもない場合はneutralと出力 前提:テーブルにワイングラスがいくつも並んでいます。 仮説:テーブルには何も置かれていません。
  16. 30 llm-jp-evalの紹介 • Where to evaluate?:どのデータを持って評価する? • QA (Question Answering):JEMHopQA、NIILC

    • ex. 質問を入力とし、回答を出力してください。回答の他には何も含めな いことを厳守してください。 質問:中野区と板橋区はどちらの人口が多いですか?
  17. 31 llm-jp-evalの紹介 • Where to evaluate?:どのデータを持って評価する? • RC (Reading Comprehension):JSQuAD

    • ex. 質問に対する回答を文章から一言で抽出してください。回答は名詞で 答えてください。 それ以外には何も含めないことを厳守してください。 文章:シアトル [SEP] 2000年現在の国勢調査で、この都市は人口 563,374人である。この都市の人種的な構成は白人73.40%、アフリカ ン・アメリカン8.44%、インディアン1.10%、アジア13.71%、太平洋 諸島系0.50%、その他の人種6.84%および混血4.70%である。 質問:シアトルの人口は?
  18. 32 llm-jp-evalの紹介 • Where to evaluate?:どのデータを持って評価する? • STS (Semantic Textual

    Similarity) :JSTS • ex. 日本語の文ペアの意味がどのくらい近いかを判定し、類似度を0〜5ま での間の値で付与してください。0に近いほど文ペアの意味が異なり、 5に近いほど文ペアの意味が似ていることを表しています。整数値のみ を返し、それ以外には何も含めないことを厳守してください。 文1:波に向かってサーフィンをしている人が2人います。 文2:二人のサーファーが波に乗っています。
  19. 33 llm-jp-evalの紹介 • 評価データセットの選定条件 • 公開されている • ライセンスが商用利用まで 許容している(CC-BY-SAなど) •

    自動評価が出来る • 海外のベンチマークと参考し、 出来るだけ多くのタスクを 網羅するように選ぶ • 問題の数が一定数以上 • これからも増やし続ける予定
  20. 34 llm-jp-evalの紹介 • How to evaluate?:どうやって評価する? • NLPのタスクは言語モデルを前提にしてない場合がある • 例えば分類タスクは決まったラベルの中の一つを予測する問題だが、

    言語モデルは与えられたシーケンスの次に現れるべきトークンを予測 • 評価ツールによっては、言語モデルが次のトークンを予測する際、 ラベル候補のトークンの予測確率を調べ、生成結果でなくその確率で評価 • llm-jp-evalでは言語モデルの生成結果を直接使う評価を行う • 海外の評価ベンチマークのユースケースを参照 • 全ての評価タスクを一般的な方法で扱いたいというモチベーション • 分類タスクと他の生成タスクの評価手法を別々に実装したくない • 生成結果をExact Match、文字列ベースのF1などで自動評価
  21. 36 llm-jp-evalの紹介 • llm-jp-evalの機能 • 既存の日本語評価データの評価データ(Test split)を利用し、 テキスト生成タスクの評価データセットに変換 • 複数データセットを横断して大規模言語モデルの評価を実行

    • 評価データのプロンプトと同形式のインストラクションデータ (jaster) を生成 • (ほぼ)全ての機能を自動スクリプト化 • インストールした後、データセット準備スクリプトと評価スクリプト をそれぞれ実行するだけで言語モデルの評価が行える
  22. 41 今後の取り組み • llm-jp-evalの評価スコアは「良い」を判断するに足りるか? • 例)llm-jp-13b-instruct-full-jaster-v1.0 • llm-jp-evalのリーダーボードではスコアが上位 • 他のリーダーボードでも良い結果を見せる

    • llm-jp-13b-instruct-full-jaster-v1.0は優れた言語モデルと結論しても良いか? • 答え:いいえ • llm-jp-13b-instruct-full-jaster-v1.0はInstruction Tuningの練習として、 llm-jp-evalで評価に使っているデータセットの訓練データを学習している • そのためこれらのモデルは「教師あり学習」に近しい状態になり、 高いスコアはそれが原因になっていると思われる • LLMの学習・チューンングデータも評価スコアに影響を与える
  23. 43 今後の取り組み • llm-jp-evalの評価スコアは「良い」を判断するに足りるか? • 他の評価ベンチマークでの評価:Japanese Vicuna QA Benchmark •

    評価対象のLLMに80個の質問に対する答えを生成させ、 その生成結果をGPT-4に判断させて勝利率を計算する • ex. Q. 時間管理能力を向上させるにはどうしたらいいですか? • cf. The Rakuda Benchmark (YuzuAI, 2023)
  24. 45 • llm-jp-evalの評価スコアは「良い」を判断するに足りるか? • JasterでのInstruction Tuningが低い理由は? • Jaster、つまり日本語NLPの評価データセットは答えの長さが短い傾向がある • そのため、Instruction

    Tuningを行うとLLMは答えを短くする傾向が生まれる • cf. Dolly・OASSTでInstruction TuningしたLLMは比較的性能が良い • スコアを見るだけでなく、 評価結果をコンテキストと合わせて解釈する必要がある 今後の取り組み
  25. 46 今後の取り組み • llm-jp-evalの評価スコアは「良い」を判断するに足りるか? • LLMの生成結果に影響を与える環境要因の問題も考慮するべき • ex. Few-shotの数 Google.

    (2023), “PaLM 2 Technical Report”, ArXiv abs/2305.10403. Labrak et al. (2023), “A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language Models Applied to Clinical and Biomedical Tasks”, ArXiv abs/2307.12114.
  26. 47 今後の取り組み • llm-jp-evalの評価スコアは「良い」を判断するに足りるか? • LLMの生成結果に影響を与える環境要因の問題も考慮するべき • ex. プロンプト(prompt engineering,

    tuning, …) Zhuo et al. (2023). "On Robustness of Prompt-based Semantic Parsing with Large Pre-trained Language Model: An Empirical Study on Codex", ArXiv abs/2301.12868.
  27. 49 今後の取り組み • 評価対象を増やす • 評価タスク・データセットを増やす: 例)Code generation, Mathematical reasoning,

    Summarization, ... • 英語の評価データセットを取り込む: 例)MMLU, 既存のベンチマーク, ... • 評価手法を増やす • Chatbot Arena環境の実装, ... • LLMの生成環境とその影響を評価する • 生成プロンプト、Few-shotの数のオプション提供・性能比較 • 評価データのリーク探知
  28. 50 結論 • この発表の振り返り • 日本語LLMを評価するツール、llm-jp-evalの紹介 • 日本語LLMを評価 • 日本語LLMのどの性能を評価するのか?:日本語NLPの評価タスク

    • 日本語LLMを何で評価するのか?:公開された評価データセット • 日本語LLMをどうやって評価するのか?:LLMの生成結果を自動評価 • llm-jp-evalで実際、日本語LLMを評価して分かったもの • 今のllm-jp-evalでは、LLMの評価が十分に出来ない • 評価結果の解釈は、スコアだけでなく様々な要因を考慮するべき • llm-jp-evalの問題・限界と、これからの取り組み • 評価対象・手法の拡充、LLMの生成環境の影響に対する分析など
  29. 51 結論 • Take-home message • LLMの評価に対するシルバーバレットはまだない • LLMの「良さ」を評価ためには、まず多方面で評価を行い、 評価手法のコンテキストに合わせて評価結果を分析するべき

    • llm-jp-evalは日本語LLMの評価のため提案されているツールだが、 まだ第一歩を踏み出したばかりで、これからに期待してください
  30. 53 参考文献 • Hugging Face. (2023), "Open LLM Leaderboard”, https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

    • Stability-AI. (2023), "JP Language Model Evaluation Harness", https://github.com/Stability-AI/lm-evaluation- harness/blob/jp-stable/README.md • Weights & Biases Japan. (2023), "Nejumi LLMリーダーボード", https://wandb.ai/wandb/LLM_evaluation_Japan/reports/Nejumi-LLM---Vmlldzo0NTUzMDE2 • Chang et al. (2023), "A survey on evaluation of large language models”, arXiv preprint arXiv:2307.03109. • OpenAI. (2023), "GPT-4 Technical Report", ArXiv abs/2303.08774. • Google. (2023), “PaLM 2 Technical Report”, ArXiv abs/2305.10403. • Big-bench authors. (2022), "Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models", ArXiv abs/2206.04615. • YuzuAI. (2023), "The Rakuda Ranking of Japanese AI", https://yuzuai.jp/benchmark • Labrak et al. (2023), “A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language Models Applied to Clinical and Biomedical Tasks”, ArXiv abs/2307.12114. • Zhuo et al. (2023). "On Robustness of Prompt-based Semantic Parsing with Large Pre-trained Language Model: An Empirical Study on Codex", ArXiv abs/2301.12868.