Slide 1

Slide 1 text

LCTG Bench
 日本語LLMの制御性ベンチマークの紹介
 AI Shift / サイバーエージェント 
 栗原健太郎 
 2024/07/02 Tue 
 1

Slide 2

Slide 2 text

栗原健太郎 
 ● 略歴
 ○ 2023/03: 早稲田大学 河原研究室 修士課程卒業 
 ○ 2023/04: サイバーエージェント/AI Shift入社 
 ● 職
 ○ AIエンジニア / リサーチサイエンティスト 
 ● 専門
 ○ 自然言語処理 / 言語モデル性能評価(JGLUE)など 
 ● 趣味
 ○ ドラム, キャンプ, その他流行り物 
 
 
 2 For Engineer/ Researcher/ Business: @kkurihara_cs 
 For other: @kkurihara5732


Slide 3

Slide 3 text

これまでの日本語LLM評価の動き
 3

Slide 4

Slide 4 text

JGLUE[Kurihara+ 22]を用いたLLM評価の動き
 ● Nejumiリーダーボード
 ● llm-evaluation-harness
 日本語LLM評価の動き
 4

Slide 5

Slide 5 text

日本語データセットの拡大
 5 日本語LLM評価の動き


Slide 6

Slide 6 text

知識を問う問題
 ● JCommonsenseQA v2 [Kurihara+ 23]
 ○ v1よりも難易度がより高い多肢選択式問題 
 ○ 言語モデルを用いることで、v1よりも難易度の高い 選択肢群を取得
 
 ● JMMLU [Yin+ 24]
 ○ MMLU [Hendrycks+ 2021]を日本語に翻訳・修正 
 ○ 56種類もの豊富なタスク
 ■ 医療、法律、科学、CS etc 
 V1 V2 Human 0.988 0.997 TohokuBERT base 0.782 0.571 TohokuBERT large 0.822 0.617 Waseda RoBERTa base 0.849 0.551 Waseda RoBERTa large 0.901 0.807 6 日本語LLM評価の動き


Slide 7

Slide 7 text

LLM-as-a-Judge
 ● Japanese MT-Bench
 ○ 8カテゴリ, 80対話
 ○ GPT-4による評価, 1-10の整数値 
 
 ● Japanese ViqunaQA
 ○ 10カテゴリ, 80問
 ○ GPT-4によるペアワイズ(一対)比較 
 
 ● Rakuda Benchmark 現在は削除されている
 ○ OpenQA 40 questions
 ○ Pairwise comparison by GPT-3.5
 
 7 日本語LLM評価の動き


Slide 8

Slide 8 text

人手による評価
 ● (Japanese) Chat bot Arena
 ○ 人手による、ペアワイズ比較
 ○ コストは高いものの、人手評価という観点から信頼性が比較的高いとされている 
 ○ しかし、人の評価観点は意外と曖昧 
 
 
 
 
 
 8 日本語LLM評価の動き


Slide 9

Slide 9 text

ベンチマークを作るにあたってのモチベーション
 企業所属の研究者が作るべきベンチマークとは、どんなベンチマーク?
 
 [ポイント]
 1. 既存のデータセットを用いたLLM評価の多くは曖昧な点を持つ
 (特に生成の評価!)
 2. 既存のペアワイズ比較の多くが、どのような基準で比較されているかも曖 昧
 3. 事業会社におけるLLMの評価観点については、アカデミア以上に重要視し ている観点が存在するはず
 
 
 9 日本語LLM評価の動き


Slide 10

Slide 10 text

LCTG Bench


Slide 11

Slide 11 text

LCTG Bench構築の背景
 ● LLMの事業応用においては、生成の品質はもちろん気にするが、
 指示に対する制御性を気にする場面が多い
 ○ 広告文掲載における文字数などの入稿規定 
 ○ SEO観点からのキーワードの有無 
 ○ LLMをシステムに組み込む上でのフォーマットの制約 etc 
 
 ● LLMの制御性に焦点を当てた評価の枠組みは存在しない
 
 ● LLMの制御性に焦点を当てたベンチマークとして、
 LCTG Bench (LLM Controlled Text Generation Bench mark) を構築
 LCTG Bench
 11

Slide 12

Slide 12 text

LLMの制御性とは
 以下の条件で与えられた文章を要約して出力してください。 [条件] 70文字以上、180文字以下で要約すること 「フリーレン」という単語を用いる こと キャラクターという単語を用いず に要約すること keyがsummary, valueが生成結果で構成されるjsonで出力 せよ [文章] 小学館「週刊少年サンデー」にて連載中の『葬送のフリーレン』 (原作・山田鐘人、作画・アベツカサ)の TVアニメ化が決定し、 ・・・ LLM {"summary": "週刊少年サンデーで連載 中の「葬送のフリーレン」が ・・・ 公開されたビジュアルは吉岡誠子氏と長 澤礼子氏が共同で作成。 "} 70-180文字以内 か? 「フリーレン」という単 語を含むか? 「キャラクター」という単語を 含んでいないか? 適切なフォーマットか? 要約 12 LCTG Bench
 12

Slide 13

Slide 13 text

LCTG Benchの概要 1/2
 ● 構成
 ○ 3つの生成タスク
 ■ 要約, 広告文生成, Pros&Consの生成 
 ○ 制御性に関する4つの評価観点 
 ■ フォーマット, 文字数, キーワード, NGワード 
 ● タスク横断的に、同一の評価観点から評価することが可能
 ○ 「タスクによって同じLLMでも制御性能のパフォーマンスは異なるのでは?」という仮説に 答えることが可能
 Task Dataset FORMAT C-COUNT KEYWORD P-WORD Summarization ABEMA TIMES 120 120 120 120 Ad Text Generation CAMERA 150 150 150 150 Pros & Cons Generation — 150 150 150 150 LCTG Bench
 13

Slide 14

Slide 14 text

● LLMの生成の多様性を考慮して、
 プロンプトのみを用意。 
 正解の生成結果は用意しない。 
 
 ● 生成テキストが与えた条件を満たすか否 かを評価する。
 ○ 文字数
 ■ 70 <= len(output ) <= 180
 ○ キーワード / NGワード
 ■ “キーワード (NGワード)” (not) in output 
 ○ フォーマット
 ■ タスクと関係のない文を付与していないか 
 LCTG Benchの概要 2/2
 LCTG Bench
 14

Slide 15

Slide 15 text

Task①: 要約
 ● 高難易度かつビジネス的なニーズも高い生成タスク
 ● 条件に従いつつ、ニュース記事を要約するタスク
 「TVアニメ化」を入れて キャラクターという単語を用いずに要約すること キーワード 禁止ワード 文章の要約結果のみを出力し、要約結果の前後に説明 文などは付与しないでください。 フォーマット 文字数 LCTG Bench
 15

Slide 16

Slide 16 text

● 要約タスクと比較して、取り扱う文字数の範囲が少なめ。それゆえに、キー ワード / NGワードが占める重みも大きくなりそう。
 ● 与えられた説明文から、広告文タイトルを生成するタスク
 広告文のタイトルを 20~50文字で作成してください タイトルの中に「募集」という言葉は入れないでください 広告文のタイトルのみを出力し、広告文のタイトルの 前後に説明文などは付与しないでください。 Task②: 広告文生成
 キーワード 禁止ワード フォーマット 文字数 LCTG Bench
 16

Slide 17

Slide 17 text

● 特定のトピックについてのProsとConsを論述するタスク
 ● 要約, 広告文生成タスクと異なり、1から文を生成するタスクとして導入
 Task③: Pros&Cons生成
 存在という単語が含まれるように回答してください 280-380文字で回答してください メリットデメリットに関する回答の前後に「〇〇するメ リットとデメリットは以下です。」「以上が〇〇するメリッ トとデメリットです。」などの説明文を付与しないでくだ さい。 キーワード NGワード 文字数 フォーマット LCTG Bench
 17

Slide 18

Slide 18 text

LCTG Benchの構築手順
 1. Task instructionの作成
 2. Base textsの収集
 - 要約: ABEMA TIMES, 広告文生成: CAMERA [Mita+ 23](Pros & Cons 生成はbaseとなるデータ ソースは無し)
 1. Condition statementの収集
 - テンプレートの収集にクラウドソーシングを活用 
 - テンプレートに値を代入 
 - 代入する単語や数値はタスク毎に異なる方法で 決定
 LCTG Bench
 18

Slide 19

Slide 19 text

LCTG Benchを用いたLLMの性能評価実験 (設定) 1/2
 ● GPT-4などの多言語モデルを含む日本語LLMの制御性能を比較
 
 ● 制御性の評価だけではなく、生成されたテキストの品質の評価もGPT-4を 用いて実施
 →タスクの解答性能が著しく低いモデル発見のため(いわば足切り)
 LCTG Bench
 19

Slide 20

Slide 20 text

LCTG Benchを用いたLLMの性能評価実験 (設定) 2/2
 ● より頑健な評価を実施するための操作
 ○ LLMの生成の不安定さを考慮
 ■ 同じプロンプトに対して、3回生成を実施しそれぞれのスコアを取得&平均化 
 ○ タスクに関連した生成テキストの評価を実施するために 
 ■ タスクと関係のない部分のテキストを除去するために、GPT-4を活用 
 ■ つまり、フォーマットの条件を満たしていない生成テキストを、フォーマットの条件に準拠した 形に修正
 (フォーマットの条件を満たしている場合は、そもそも修正されない) 
 
 
 LLM 与えられた文章を投手を使用せず、要約いたしま す。 大谷翔平が「2番・DH」で先発出場。2点を追う7回に 今季初の3戦連続となる35号同点2ランを放った。… 与えられた文章を投手を使用せず、要約いたしま す。 大谷翔平が「2番・DH」で先発出場。2点を追う7回に 今季初の3戦連続となる35号同点2ランを放った。… 要約 前処理 NGワード NGワード 20 LCTG Bench
 20

Slide 21

Slide 21 text

評価結果
 ● GPT-4は全般的に日本語LLMと比 較して高性能
 ● 文字数の制御はモデルによらず、難 易度が高い
 ● 制御性能のパフォーマンスは、タス ク毎に異なっている
 ● 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能
 要約 広告文 Pros&Cons 21

Slide 22

Slide 22 text

評価結果
 
 22 ● GPT-4は全般的に日本語LLMと比 較して高性能
 ● 文字数の制御はモデルによらず、難 易度が高い
 ● 制御性能のパフォーマンスは、タス ク毎に異なっている
 ● 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能
 要約 広告文 Pros&Cons

Slide 23

Slide 23 text

評価結果
 
 23 ● GPT-4は全般的に日本語LLMと比 較して高性能
 ● 文字数の制御はモデルによらず、難 易度が高い
 ● 制御性能のパフォーマンスは、タス ク毎に異なっている
 ● 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能
 要約 広告文 Pros&Cons

Slide 24

Slide 24 text

評価結果
 
 24 ● GPT-4は全般的に日本語LLMと比 較して高性能
 ● 文字数の制御はモデルによらず、難 易度が高い
 ● 制御性能のパフォーマンスは、タス ク毎に異なっている
 ● 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能
 要約 広告文 Pros&Cons

Slide 25

Slide 25 text

LCTG Bench公開(2024/06/28)
 ● Github ※ にて掲載
 ○ Huggingface Hubにも掲載予定
 
 ● ⚠評価スクリプトを回す際に課 金が発生します⚠ (APIを使用する都合) 
 ○ 評価機によって値段は異なる
 ■ GPT-4-Turbo
 ● 1モデルの評価(70-100$) ✝
 ■ GPT-4oの場合
 ● 4-Turboの半額 ✝
 
 ● 商用利用不可(CC BY-NC-SA 4.0)
 ○ 詳細後述
 25 ※ https://github.com/CyberAgentAILab/LCTG-Bench ,
 ✝ 2024/07/02現在 
 LCTG Bench


Slide 26

Slide 26 text

Nejumiリーダーボード3にも提供
 26 https://wandb.ai/wandb-japan/llm-leaderboard3/reports/Nejumi-LLM-3--Vmlldzo3OTg2NjM2?accessToken=wpnwc9whr96 pxm40dfe4k3xq513f9jc4yhj7q6pnvj4jtayoefbc77qhzbsrztgz 
 LCTG Bench


Slide 27

Slide 27 text

LCTG Benchの利用について
 ● (商用利用不可で出していますが、、)割と色々使ってOK 
 ● やっていいこと😊
 ○ 研究利用
 ■ 論文 / ジャーナルの引用大歓迎 🎉
 ○ 本ベンチマークを使用した分析結果の共有 
 ■ Qitta、Zennなどブログでの共有OK 
 ■ 会社のプレスとして、「LCTG Benchを使って〇〇しました!」みたいなのもOK 
 ● こちらも商用利用ではないという立て付け 
 
 ● やっちゃいけないこと❌
 ○ LCTG Benchのデータを用いた(商用利用の)モデル学習 
 ○ LCTG Benchを用いた分析結果のレポートや記事そのものでお金を稼ぐこと 
 ○ その他常識の範囲で何卒、、、
 27 LCTG Bench


Slide 28

Slide 28 text

まとめ
 ● 事業応用におけるLLM評価のニーズを探る中で、LLMの制御性に注目
 LCTG Benchを構築
 ● LCTG Benchは現在Githubにて公開中
 ○ 商用利用不可ですが、割と使えます!!! 
 ● Nejumiリーダーボード3にも提供中
 ● (Pros&Cons生成など)内容を拡張した論文も、後日公開予定
 LCTG Bench
 28