$30 off During Our Annual Pro Sale. View Details »

SNLP2023: Can Large Language Models Be an Alternative to Human Evaluations?

Shota Sasaki
August 21, 2023

SNLP2023: Can Large Language Models Be an Alternative to Human Evaluations?

Shota Sasaki

August 21, 2023
Tweet

More Decks by Shota Sasaki

Other Decks in Research

Transcript

  1. Can Large Language Models Be
    an Alternative to Human Evaluations?
    Cheng-Han Chiang, Hung-yi Lee
    読み⼿:佐々⽊翔⼤ (CyberAgent)
    第15回最先端NLP勉強会
    2023年 8⽉ 27-28⽇
    1

    View Slide

  2. 背景:⼈⼿評価のメリット‧デメリット
    • メリット
    • ⾃動で判定できない評価軸で評価できる
    • e.g., 物語の⾯⽩さ、対話の良さ、など
    • デメリット
    • コストが⾼い
    • 再現性がない
    • 同じ評価者を⽤意できない
    • 同じ評価者であっても、同じ評価を下さない
    2

    View Slide

  3. 背景:LLMによる⼈⼿評価の代替
    • Large Language Model (LLM) = 強⼒な汎⽤能⼒をもつ
    • プロンプトによる指⽰に応じてタスクをこなす
    • Q: LLMで⼈間の評価者を代替できないか?
    • ⼈間と同じ/似た評価をできる?
    • どんな指⽰で機能する?
    3

    View Slide

  4. LLM Evaluation
    1. ⼈間の評価者に与える指⽰⽂と同じものを⼊⼒
    2. 出⼒⽂をparseする
    4

    View Slide

  5. LLM Evaluation
    1. ⼈間の評価者に与える指⽰⽂と同じものを⼊⼒
    2. 出⼒⽂をparseする
    5

    View Slide

  6. LLM Evaluation
    • 評価時に⼈/LLMに与える指⽰の内容
    • Task instruction
    • おおまかな指⽰
    • 注意書き
    • Sample
    • 評価対象のテキスト
    • Question
    • 具体的な出⼒形式
    6

    View Slide

  7. LLM Evaluation
    • 評価時に⼈/LLMに与える指⽰の内容
    • Task instruction
    • おおまかな指⽰
    • 注意書き
    • Sample
    • 評価対象のテキスト
    • Question
    • 具体的な出⼒形式
    7

    View Slide

  8. LLM Evaluation
    • 評価時に⼈/LLMに与える指⽰の内容
    • Task instruction
    • おおまかな指⽰
    • 注意書き
    • Sample
    • 評価対象のテキスト
    • Question
    • 具体的な出⼒形式
    8

    View Slide

  9. タスク1:物語⽣成
    • プロンプトに基づいて物語を⽣成するタスク
    • プロンプト:物語の設定、内容などを記述
    • WritingPrompts データセット[Fan+18]を使⽤
    • プロンプトと⼈⼿で書かれた物語のペア集合
    • subreddit WritingPrompts から収集
    • ⽣成モデル/⼈間の⽣成した物語200件ずつを評価
    9

    View Slide

  10. 実験設定:物語⽣成の評価軸
    • Grammaticality: ”How grammatically correct is the text of the story
    fragment?”
    • Cohesiveness: “How well do the sentences in the story fragment fit
    together?”
    • Likability: “How enjoyable do you find the story fragment?”
    • Relevance: “Now read the PROMPT based on which the story fragment
    was written. Prompt: [PROMPT]. How relevant is the story fragment to the
    prompt?”
    10

    View Slide

  11. 実験設定: 評価を⾏う⼈/LLM
    ⼈⼿評価
    • 英語の教師
    LLM評価
    • T0
    • text-curie-001 (curie)
    • text-davinci-003 (davinci)
    • ChatGPT
    11
    InstructGPTモデル
    davinciの⽅が強い

    View Slide

  12. Evaluator
    Grammaticality Cohesiveness Likability Relevance
    Mean IAA Mean IAA Mean IAA Mean IAA
    Human-written stories
    Human 3.76 0.33 4.29 0.32 3.78 0.08 3.35 0.05
    T0 2.55 0.16 2.98 0.11 3.18 0.12 2.93 0.02
    curie 3.19 0.07 2.82 0.01 2.85 0.11 3.06 0.11
    davinci 4.22 0.26 4.54 0.37 3.99 0.49 4.40 0.71
    ChatGPT 3.83 3.55 2.44 3.29
    GPT-2-generated stories
    Human 3.56 0.10 3.19 0.14 2.59 -0.21 2.38 -0.03
    T0 2.44 0.05 3.02 0.07 3.00 0.16 2.82 0.04
    curie 3.23 0.01 2.82 0.02 3.86 0.09 3.01 0.11
    davinci 4.07 0.35 4.26 0.42 3.84 0.52 4.02 0.69
    ChatGPT 2.98 2.48 1.59 2.02
    12
    実験結果 (1-1):評価スコア(1~5)の平均値
    • ⼈間の評価
    • Human-written > GPT-2-generated と評価
    • 各評価軸で⼀貫

    View Slide

  13. Evaluator
    Grammaticality Cohesiveness Likability Relevance
    Mean IAA Mean IAA Mean IAA Mean IAA
    Human-written stories
    Human 3.76 0.33 4.29 0.32 3.78 0.08 3.35 0.05
    T0 2.55 0.16 2.98 0.11 3.18 0.12 2.93 0.02
    curie 3.19 0.07 2.82 0.01 2.85 0.11 3.06 0.11
    davinci 4.22 0.26 4.54 0.37 3.99 0.49 4.40 0.71
    ChatGPT 3.83 3.55 2.44 3.29
    GPT-2-generated stories
    Human 3.56 0.10 3.19 0.14 2.59 -0.21 2.38 -0.03
    T0 2.44 0.05 3.02 0.07 3.00 0.16 2.82 0.04
    curie 3.23 0.01 2.82 0.02 3.86 0.09 3.01 0.11
    davinci 4.07 0.35 4.26 0.42 3.84 0.52 4.02 0.69
    ChatGPT 2.98 2.48 1.59 2.02
    13
    実験結果 (1-1):評価スコア(1~5)の平均値
    • T0, curieの評価
    • Human-written vs GPT-2-generated に差がない
    → ⼈間の評価と異なる傾向

    View Slide

  14. Evaluator
    Grammaticality Cohesiveness Likability Relevance
    Mean IAA Mean IAA Mean IAA Mean IAA
    Human-written stories
    Human 3.76 0.33 4.29 0.32 3.78 0.08 3.35 0.05
    T0 2.55 0.16 2.98 0.11 3.18 0.12 2.93 0.02
    curie 3.19 0.07 2.82 0.01 2.85 0.11 3.06 0.11
    davinci 4.22 0.26 4.54 0.37 3.99 0.49 4.40 0.71
    ChatGPT 3.83 3.55 2.44 3.29
    GPT-2-generated stories
    Human 3.56 0.10 3.19 0.14 2.59 -0.21 2.38 -0.03
    T0 2.44 0.05 3.02 0.07 3.00 0.16 2.82 0.04
    curie 3.23 0.01 2.82 0.02 3.86 0.09 3.01 0.11
    davinci 4.07 0.35 4.26 0.42 3.84 0.52 4.02 0.69
    ChatGPT 2.98 2.48 1.59 2.02
    14
    実験結果 (1-1):評価スコア(1~5)の平均値
    • davinci, ChatGPTの評価
    • Human-written > GPT-2-generated と評価
    → ⼈間の評価と同様の傾向

    View Slide

  15. Evaluator
    Grammaticality Cohesiveness Likability Relevance
    Mean IAA Mean IAA Mean IAA Mean IAA
    Human-written stories
    Human 3.76 0.33 4.29 0.32 3.78 0.08 3.35 0.05
    T0 2.55 0.16 2.98 0.11 3.18 0.12 2.93 0.02
    curie 3.19 0.07 2.82 0.01 2.85 0.11 3.06 0.11
    davinci 4.22 0.26 4.54 0.37 3.99 0.49 4.40 0.71
    ChatGPT 3.83 3.55 2.44 3.29
    GPT-2-generated stories
    Human 3.56 0.10 3.19 0.14 2.59 -0.21 2.38 -0.03
    T0 2.44 0.05 3.02 0.07 3.00 0.16 2.82 0.04
    curie 3.23 0.01 2.82 0.02 3.86 0.09 3.01 0.11
    davinci 4.07 0.35 4.26 0.42 3.84 0.52 4.02 0.69
    ChatGPT 2.98 2.48 1.59 2.02
    15
    実験結果 (1-1):評価スコア(1~5)の平均値
    • davinci > ChatGPT という傾向
    • 同じLLMを⼀貫して利⽤すれば問題ない

    View Slide

  16. 実験結果 (1-2):インスタンスごとの評価スコアの相関
    16
    Human
    written
    GPT-2
    generated
    Grammaticality 0.14 0.12
    Cohesiveness 0.18 0.14
    Likability 0.19 0.22
    Relevance 0.38 0.43
    ∗ 𝜏 の値と相関の強さ [Botsch+11]
    [0, 0.1): very weak correlation
    [0.1, 0.2): weak correlation
    [0.2, 0.3): moderate correlation
    [0.3, 1.0): strong correlation
    • text-davinci-003と⼈間の評価のインスタンスごとの
    相関(Kendall’s 𝜏)を測る
    • 結果
    • 弱〜強相関
    • Grammaticalityが最も弱い相関
    • 評価軸がはっきりしてない
    • Relevanceが最も強い相関

    View Slide

  17. 実験結果 (1-3):Instructionを変更
    17
    Setup
    Grammaticality Cohesiveness Likability Relevance
    Human GPT-2 Human GPT-2 Human GPT-2 Human GPT-2
    (1) Original 4.22 4.07 4.54 4.26 3.99 3.84 4.40 4.02
    (2) + persona 4.29 4.01 4.60 4.27 4.05 3.87 4.55 4.24
    (3) + explain 4.24 4.05 4.61 4.32 4.15 3.98 4.35 4.03
    • + persona
    • “(You are a human worker hired to rate the story fragment.)”という⽂を追加
    • ペルソナを与えると異なる⽂を出⼒する [Zeng+22]
    • + explain
    • “Please also explain your decision.”という⽂を追加
    • 説明をお願いすると評価が変化するか?
    • Zero-shot chain-of-thought [Kojima+22] に着想を得た
    • text-davinci-003 が評価を⾏う
    • Human-written > GPT-2-generated という評価傾向は変わらず












    View Slide

  18. 実験結果 (1-4):LLMのパラメータ𝑇を変化させる
    18
    Setup
    Grammaticality Cohesiveness Likability Relevance
    Human GPT-2 Human GPT-2 Human GPT-2 Human GPT-2
    (1) T = 1.0 4.22 4.07 4.54 4.26 3.99 3.84 4.40 4.02
    (2) T = 0.7 4.18 4.06 4.52 4.23 3.96 3.82 4.36 3.95
    (3) T = 0.3 4.13 3.99 4.48 4.14 3.95 3.82 4.34 3.93
    (4) T = 0 4.07 3.99 4.49 4.09 3.95 3.82 4.32 3.92
    •text-davinci-003 が評価を⾏う
    • Human-written > GPT-2-generated という評価傾向は変わらず
    → LLMは物語⽣成の評価に使えそう
















    View Slide

  19. 議論
    • 評価の再現性
    • ⼈⼿評価は再現性が低い
    • 同じ評価者を集めるのが困難
    • LLM評価は再現性が⾼い
    • LLMはモデルを揃えられる
    • ただしLLMが更新される可能性もある (e.g., ChatGPT)
    • 他の評価サンプルの影響
    • ⼈⼿評価:前に評価したサンプルの影響を受ける
    • ratingの相対的な調整を⾏うことも
    • LLM評価::他のサンプルに依存せず評価できる
    19

    View Slide

  20. 議論
    • 評価コスト(費⽤、時間)
    • ⼈⼿評価=⾼い、LLM評価=低い
    • 物語200個の評価コスト
    • 英語の教師を雇う → US$140
    • 当時最⾼性能のInstructGPTモデル → US$5以下
    • 有害なコンテンツの評価
    • 評価者が有害なコンテンツ(e.g., violent, sexual, hateful, biased material)
    に晒される危険性
    • LLM評価でリスク軽減できる
    20

    View Slide

  21. Limitation
    • LLMは不正確な知識を持つ [Cao+21]
    • LLMの応答にはバイアスがある
    • 安全性、無害性
    • ポジティブ、楽観的 (upbeat)
    • 「↑を学習しても依然としてharmful」[Ganguli+22]
    21
    • Limitationを理解して利⽤していくのが⼤事
    • ⼈⼿評価とLLM評価のpros, consを理解して使い分けるべき
    • システムの開発段階の評価にはLLM評価
    • デプロイ前に⼈⼿評価
    ⼈間も同じでは?

    View Slide