$30 off During Our Annual Pro Sale. View Details »

SCOTT: Self-Consistent Chain-of-Thought Distillation

Hiroki_Iida
August 27, 2023

SCOTT: Self-Consistent Chain-of-Thought Distillation

Hiroki_Iida

August 27, 2023
Tweet

More Decks by Hiroki_Iida

Other Decks in Science

Transcript

  1. SCOTT: Self-Consistent Chain-of-Thought
    Distillation
    Author: Peifeng Wang, Zhengyang Wang, Zheng Li, Yifan Gao, Bing Yin, Xiang Ren
    ACL2023 Outstanding Paper
    紹介者: 東工大-岡崎研D4 / (株) レトリバ 飯田 大貴
    断りのない限り本スライドの図は当該論文からの引用です
    著者実装 https://github.com/wangpf3/consistent-CoT-distillation

    View Slide

  2. 論文概要
    2
    n 特定のタスクに対して、より信頼性の高い論理推論を行うモデルを蒸留を通じて得
    られるSCOTTという手法を提案
    n SCOTTは、通常よりも正答に特有の論拠を生成するContrastive Decodingと
    誤った論拠から誤った回答を生成させるよう学習させるCounterfactual Reasoning
    からなる手法
    n SCOTTを用いることで、より論拠に追従するモデルを得た

    View Slide

  3. 背景
    3
    n Large Language Model (LLM) は、chain-of-thought (CoT) プロンプトによって論理推論
    能力を発現させることが明らかになってきた
    Wei et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models NeuIPS 2022 より

    View Slide

  4. 背景
    4
    n しかし、CoTプロンプトは予測とそれを導出する論拠が一貫性をもつことを保証し
    ないので、論拠によってモデルの振る舞いを正当化することには使えない
    寒い日に息は何色になる?
    白色です。なぜならば、
    水蒸気がエアロゾルと
    くっついて水滴になるから
    なぜ、寒い日に息が
    白くなる?
    白色です。なぜならば、
    息が白いからです

    View Slide

  5. 動機
    5
    n より回答に沿った論拠を提示できるようにして信頼性を高めたい!
    n 推論コストを抑えるため Small Language Model (Small-LM)で実現したい!
    →既存手法の多くは蒸留を用いる
    既存の蒸留方法の課題
    1. 教師であるLLMの論拠が間違っている可能性がある

    View Slide

  6. 動機
    6
    n より信頼性のあるCoT-reasoningを行えるようにしたい!
    n 蒸留を用いて、Small Language Model (Small-LM)で実現する
    →既存手法の多くは蒸留を用いる
    既存の蒸留方法の課題
    1. 教師であるLLMの論理展開が間違っている可能性がある
    2. Small-LMは論拠を無視しQAの相関のみを学習する可能性が
    ある (Reasoning-shortcut)

    View Slide

  7. 提案手法:SCOTT
    7
    n QAペアからContrastive Decodingを用いて回答を説明する論拠Rを生成
    n 生成した(Q, R, A)のトリプルを教師データとして、Counterfactual Reasoningを使用し
    てQを入力としてR,Aを生成するSmall LMを学習
    q
    r->a
    q
    a
    r

    View Slide

  8. 提案手法 : Contrastive Decoding
    8
    n 目的 : 誤った論拠を減らす
    n 手段 : 回答が正解の時だけ有効なトークンを生成
    p: プロンプト
    q:
    a*: gold answer (正答)
    a’: a perturbed answer
    A: 選択肢
    !!
    = argmax log * !!
    +, -, .∗, !#!
    .
    !!
    = argmax log * !!
    +, -, .∗, !#!
    + 1 !!
    .∗ .
    1 !!
    .∗ = log $ !!
    +, -, 2, .∗, !#!
    $ !!
    +, -, 2, .%, !#!
    .
    正解の時に生成されるトークンから正解ではなくても
    生成されるトークンを割り引く。流暢性を確保する
    ためにGreedy Decodingの生成確率を考慮

    View Slide

  9. 提案手法 : Counterfactual reasoning
    9
    n 目的: Reasoning shortcutを減らす
    n 方法:誤った論拠r‘を用いて誤った回答a’を生成するよ
    うに学習することで、論拠を間違えたら、回答を間違え
    るように学習する
    ! = !!"#$%"&
    + !#'%($)*!"#$%"&
    ,
    !!"#$%"&
    = − &
    +
    log * ++
    ,, +,+
    ,
    !#'%($)*!"#$%"&
    = − &
    +
    log * ++
    ,, --, +,+
    .
    factualはrとaの両方が学習対象。
    counterfactualはa のみが学習対象。

    View Slide

  10. メカニズムの考察 by 紹介者
    10
    <Factualでの学習>
    n Rが有効な情報ではない→RとAの相関がデータ上小さい
    →QとAの相関でモデルが学習される→Reasoning shortcut
    <Counterfactualによる補正>
    n Q=q->A=a’を学習することでQ=q->A=aではないことを学習
    させる。これでReasoning shortcutを抑制する。
    n この時、R=r’を条件づけておくことで、論拠によって回
    答に差が出ることを学習。但し、誤った論拠自体は学習
    したくないので、学習は回答部分のみ
    n また、論拠によって回答に差が出ることから、より論拠
    に依拠したモデルになることを期待
    Factualのみの場合
    Counterfactualありの場合

    View Slide

  11. 評価指標: Leakage-adjusted Simulatability (LAS)
    11
    n LAS: 人間やモデルによる実行可能性によって評価.
    l モデルを用いる場合は、以下のようなモデルを学習する
    n Simulatability: 論拠が加わった場合に正答a*を回答できているか。
    l ACC(qr->a*) – ACC(q->a*)
    n Faithfulness: 生徒モデルの回答a”が論拠で変化しているか
    l ACC(qr->a”) – ACC(q->a”)
    Hose et al. Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial Explanations of Their Behavior in Natural Language? Findings of EMNLP2020より
    q r

    View Slide

  12. 結果: Simulatability
    12
    n CDを用いることで、LASが上昇。生成する論拠が正答可能性に影響を与えており、
    生徒モデルが生成する論拠が回答と同じトピックになっている
    n GreedyはHumanより低い値となる場合がある。Greedyでは論拠が正答に基づいてい
    ない場合があり、LLMが生成する論拠が回答のサポートになっていない場合が多い
    ことを裏付けている
    Teacher: GPT-neox20b, Student: T5-3b
    Human: 人間が論拠を生成
    Greedy: 調製項G(a)を用いない場合
    CD-Empty: Contrastive Decoding
    a’を空にした場合
    CD-Wrong: Contrastive Decoding
    a’を正答ではない選択肢にした場合

    View Slide

  13. 結果: 論拠の人手評価
    13
    n CDによって、論拠が新情報を与える割合、回答をサポートしている割合が増加
    n また、Wrong Answerを用いることでさらに改善。LASによる評価結果と同じ傾向
    Strategy QAを用いた論拠の人手評価。3人のアノテータのFleiss Kappa=0.26

    View Slide

  14. 結果: Faithfulness
    14
    n CoTのLASが低い。生成された論拠がモデルの回答に影響を与えていない
    n Contrastive Decodingを用いることで、高いLASを示す。Simulatabilityと合わせて、
    Contrastive Decodingがより信頼性の高いモデルの学習に寄与している。
    n Counterfactual reasoningを用いることで、上記がさらに補強される。
    CSQA StrategyQA
    CREAK QASC

    View Slide

  15. 結果: Accuracy
    15
    n 蒸留する手法はどれも同じぐらい良いので、精度を下げずに論拠の信頼性を上げている
    n Humanの論拠で学習したモデルが若干良い。これは論拠がnoisyであることが原因と思わ
    れる。なぜならば、モデルが論拠を無視してQ->A関係を学習しがちなので、疑似相関に
    なっているから。(詳細後述)
    l 予測においては、ドメイン内であれば相関関係のみで精度が上がるという従来の知見と同等
    CSQA StrategyQA
    CREAK QASC

    View Slide

  16. モデルサイズの影響
    16
    n モデルが大きいと正答率は高い
    n モデルが大きいとLASは下がる。特にGreedy
    n よって、正答するにはモデルサイズが必要だが、
    モデルサイズが大きいと論拠無視しがち

    View Slide

  17. 論拠の操作 :誤った論拠による精度低下
    17
    n 人間が生成した論拠では変化なし。生徒モデル
    が論拠を無視しがち
    n CDはGreedyより精度低下が大きい。Contrastive
    Decodingで論拠の変化で回答が変化するように
    なった
    n Counterfactual reasoningでその傾向は強まる

    View Slide

  18. 論拠の操作 :正しい論拠による精度向上
    18
    n 生徒モデルの学習に使用した論拠を正しい論拠
    として実験
    n 人手のものはモデルが生成した教師より精度向
    上幅が小さい。人手の教師を与えても論拠生成
    の信頼性はあまり向上しない
    n CDはGreedyより精度向上幅が大きい。さらに
    Counterfactual reasoningでその傾向は強まる。
    SCOTTが論拠生成の信頼性を向上させている

    View Slide

  19. まとめ
    19
    n 特定のタスクに対して、より信頼性の高い論理推論を行うモデルを蒸留を通じて得
    られるSCOTTという手法を提案
    n SCOTTは、通常よりも正答に特有の論拠を生成するContrastive Decodingと
    反実仮想的な学習として、誤った論拠から誤った回答を生成させるCounterfactual
    Reasoningからなる手法
    n SCOTTを用いることで、より論拠に追従するモデルを得た。

    View Slide

  20. Appendix
    21

    View Slide

  21. Contrastive decodingの事例
    22

    View Slide