Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LCTG Bench 日本語LLMの制御性ベンチマークの紹介

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

LCTG Bench 日本語LLMの制御性ベンチマークの紹介

Avatar for Keisuke Kamata

Keisuke Kamata

July 23, 2024
Tweet

More Decks by Keisuke Kamata

Other Decks in Technology

Transcript

  1. 栗原健太郎 
 • 略歴
 ◦ 2023/03: 早稲田大学 河原研究室 修士課程卒業 


    ◦ 2023/04: サイバーエージェント/AI Shift入社 
 • 職
 ◦ AIエンジニア / リサーチサイエンティスト 
 • 専門
 ◦ 自然言語処理 / 言語モデル性能評価(JGLUE)など 
 • 趣味
 ◦ ドラム, キャンプ, その他流行り物 
 
 
 2 For Engineer/ Researcher/ Business: @kkurihara_cs 
 For other: @kkurihara5732

  2. 知識を問う問題
 • JCommonsenseQA v2 [Kurihara+ 23]
 ◦ v1よりも難易度がより高い多肢選択式問題 
 ◦

    言語モデルを用いることで、v1よりも難易度の高い 選択肢群を取得
 
 • JMMLU [Yin+ 24]
 ◦ MMLU [Hendrycks+ 2021]を日本語に翻訳・修正 
 ◦ 56種類もの豊富なタスク
 ▪ 医療、法律、科学、CS etc 
 V1 V2 Human 0.988 0.997 TohokuBERT base 0.782 0.571 TohokuBERT large 0.822 0.617 Waseda RoBERTa base 0.849 0.551 Waseda RoBERTa large 0.901 0.807 6 日本語LLM評価の動き

  3. LLM-as-a-Judge
 • Japanese MT-Bench
 ◦ 8カテゴリ, 80対話
 ◦ GPT-4による評価, 1-10の整数値

    
 
 • Japanese ViqunaQA
 ◦ 10カテゴリ, 80問
 ◦ GPT-4によるペアワイズ(一対)比較 
 
 • Rakuda Benchmark 現在は削除されている
 ◦ OpenQA 40 questions
 ◦ Pairwise comparison by GPT-3.5
 
 7 日本語LLM評価の動き

  4. LCTG Bench構築の背景
 • LLMの事業応用においては、生成の品質はもちろん気にするが、
 指示に対する制御性を気にする場面が多い
 ◦ 広告文掲載における文字数などの入稿規定 
 ◦ SEO観点からのキーワードの有無

    
 ◦ LLMをシステムに組み込む上でのフォーマットの制約 etc 
 
 • LLMの制御性に焦点を当てた評価の枠組みは存在しない
 
 • LLMの制御性に焦点を当てたベンチマークとして、
 LCTG Bench (LLM Controlled Text Generation Bench mark) を構築
 LCTG Bench
 11
  5. LLMの制御性とは
 以下の条件で与えられた文章を要約して出力してください。 [条件] 70文字以上、180文字以下で要約すること 「フリーレン」という単語を用いる こと キャラクターという単語を用いず に要約すること keyがsummary, valueが生成結果で構成されるjsonで出力

    せよ [文章] 小学館「週刊少年サンデー」にて連載中の『葬送のフリーレン』 (原作・山田鐘人、作画・アベツカサ)の TVアニメ化が決定し、 ・・・ LLM {"summary": "週刊少年サンデーで連載 中の「葬送のフリーレン」が ・・・ 公開されたビジュアルは吉岡誠子氏と長 澤礼子氏が共同で作成。 "} 70-180文字以内 か? 「フリーレン」という単 語を含むか? 「キャラクター」という単語を 含んでいないか? 適切なフォーマットか? 要約 12 LCTG Bench
 12
  6. LCTG Benchの概要 1/2
 • 構成
 ◦ 3つの生成タスク
 ▪ 要約, 広告文生成,

    Pros&Consの生成 
 ◦ 制御性に関する4つの評価観点 
 ▪ フォーマット, 文字数, キーワード, NGワード 
 • タスク横断的に、同一の評価観点から評価することが可能
 ◦ 「タスクによって同じLLMでも制御性能のパフォーマンスは異なるのでは?」という仮説に 答えることが可能
 Task Dataset FORMAT C-COUNT KEYWORD P-WORD Summarization ABEMA TIMES 120 120 120 120 Ad Text Generation CAMERA 150 150 150 150 Pros & Cons Generation — 150 150 150 150 LCTG Bench
 13
  7. • LLMの生成の多様性を考慮して、
 プロンプトのみを用意。 
 正解の生成結果は用意しない。 
 
 • 生成テキストが与えた条件を満たすか否 かを評価する。


    ◦ 文字数
 ▪ 70 <= len(output ) <= 180
 ◦ キーワード / NGワード
 ▪ “キーワード (NGワード)” (not) in output 
 ◦ フォーマット
 ▪ タスクと関係のない文を付与していないか 
 LCTG Benchの概要 2/2
 LCTG Bench
 14
  8. LCTG Benchの構築手順
 1. Task instructionの作成
 2. Base textsの収集
 - 要約:

    ABEMA TIMES, 広告文生成: CAMERA [Mita+ 23](Pros & Cons 生成はbaseとなるデータ ソースは無し)
 1. Condition statementの収集
 - テンプレートの収集にクラウドソーシングを活用 
 - テンプレートに値を代入 
 - 代入する単語や数値はタスク毎に異なる方法で 決定
 LCTG Bench
 18
  9. LCTG Benchを用いたLLMの性能評価実験 (設定) 2/2
 • より頑健な評価を実施するための操作
 ◦ LLMの生成の不安定さを考慮
 ▪ 同じプロンプトに対して、3回生成を実施しそれぞれのスコアを取得&平均化

    
 ◦ タスクに関連した生成テキストの評価を実施するために 
 ▪ タスクと関係のない部分のテキストを除去するために、GPT-4を活用 
 ▪ つまり、フォーマットの条件を満たしていない生成テキストを、フォーマットの条件に準拠した 形に修正
 (フォーマットの条件を満たしている場合は、そもそも修正されない) 
 
 
 LLM 与えられた文章を投手を使用せず、要約いたしま す。 大谷翔平が「2番・DH」で先発出場。2点を追う7回に 今季初の3戦連続となる35号同点2ランを放った。… 与えられた文章を投手を使用せず、要約いたしま す。 大谷翔平が「2番・DH」で先発出場。2点を追う7回に 今季初の3戦連続となる35号同点2ランを放った。… 要約 前処理 NGワード NGワード 20 LCTG Bench
 20
  10. 評価結果
 
 22 • GPT-4は全般的に日本語LLMと比 較して高性能
 • 文字数の制御はモデルによらず、難 易度が高い
 •

    制御性能のパフォーマンスは、タス ク毎に異なっている
 • 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能
 要約 広告文 Pros&Cons
  11. 評価結果
 
 23 • GPT-4は全般的に日本語LLMと比 較して高性能
 • 文字数の制御はモデルによらず、難 易度が高い
 •

    制御性能のパフォーマンスは、タス ク毎に異なっている
 • 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能
 要約 広告文 Pros&Cons
  12. 評価結果
 
 24 • GPT-4は全般的に日本語LLMと比 較して高性能
 • 文字数の制御はモデルによらず、難 易度が高い
 •

    制御性能のパフォーマンスは、タス ク毎に異なっている
 • 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能
 要約 広告文 Pros&Cons
  13. LCTG Bench公開(2024/06/28)
 • Github ※ にて掲載
 ◦ Huggingface Hubにも掲載予定
 


    • ⚠評価スクリプトを回す際に課 金が発生します⚠ (APIを使用する都合) 
 ◦ 評価機によって値段は異なる
 ▪ GPT-4-Turbo
 • 1モデルの評価(70-100$) ✝
 ▪ GPT-4oの場合
 • 4-Turboの半額 ✝
 
 • 商用利用不可(CC BY-NC-SA 4.0)
 ◦ 詳細後述
 25 ※ https://github.com/CyberAgentAILab/LCTG-Bench ,
 ✝ 2024/07/02現在 
 LCTG Bench

  14. LCTG Benchの利用について
 • (商用利用不可で出していますが、、)割と色々使ってOK 
 • やっていいこと😊
 ◦ 研究利用
 ▪

    論文 / ジャーナルの引用大歓迎 🎉
 ◦ 本ベンチマークを使用した分析結果の共有 
 ▪ Qitta、Zennなどブログでの共有OK 
 ▪ 会社のプレスとして、「LCTG Benchを使って〇〇しました!」みたいなのもOK 
 • こちらも商用利用ではないという立て付け 
 
 • やっちゃいけないこと❌
 ◦ LCTG Benchのデータを用いた(商用利用の)モデル学習 
 ◦ LCTG Benchを用いた分析結果のレポートや記事そのものでお金を稼ぐこと 
 ◦ その他常識の範囲で何卒、、、
 27 LCTG Bench

  15. まとめ
 • 事業応用におけるLLM評価のニーズを探る中で、LLMの制御性に注目
 LCTG Benchを構築
 • LCTG Benchは現在Githubにて公開中
 ◦ 商用利用不可ですが、割と使えます!!!

    
 • Nejumiリーダーボード3にも提供中
 • (Pros&Cons生成など)内容を拡張した論文も、後日公開予定
 LCTG Bench
 28