Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SCOTT: Self-Consistent Chain-of-Thought Distill...

Hiroki_Iida
August 27, 2023

SCOTT: Self-Consistent Chain-of-Thought Distillation

Hiroki_Iida

August 27, 2023
Tweet

More Decks by Hiroki_Iida

Other Decks in Science

Transcript

  1. SCOTT: Self-Consistent Chain-of-Thought Distillation Author: Peifeng Wang, Zhengyang Wang, Zheng

    Li, Yifan Gao, Bing Yin, Xiang Ren ACL2023 Outstanding Paper 紹介者: 東工大-岡崎研D4 / (株) レトリバ 飯田 大貴 断りのない限り本スライドの図は当該論文からの引用です 著者実装 https://github.com/wangpf3/consistent-CoT-distillation
  2. 背景 3 n Large Language Model (LLM) は、chain-of-thought (CoT) プロンプトによって論理推論

    能力を発現させることが明らかになってきた Wei et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models NeuIPS 2022 より
  3. 動機 5 n より回答に沿った論拠を提示できるようにして信頼性を高めたい! n 推論コストを抑えるため Small Language Model (Small-LM)で実現したい!

    →既存手法の多くは蒸留を用いる 既存の蒸留方法の課題 1. 教師であるLLMの論拠が間違っている可能性がある
  4. 動機 6 n より信頼性のあるCoT-reasoningを行えるようにしたい! n 蒸留を用いて、Small Language Model (Small-LM)で実現する →既存手法の多くは蒸留を用いる

    既存の蒸留方法の課題 1. 教師であるLLMの論理展開が間違っている可能性がある 2. Small-LMは論拠を無視しQAの相関のみを学習する可能性が ある (Reasoning-shortcut)
  5. 提案手法 : Contrastive Decoding 8 n 目的 : 誤った論拠を減らす n

    手段 : 回答が正解の時だけ有効なトークンを生成 p: プロンプト q: <question> a*: gold answer (正答) a’: a perturbed answer A: 選択肢 !! = argmax log * !! +, -, .∗, !#! . !! = argmax log * !! +, -, .∗, !#! + 1 !! .∗ . 1 !! .∗ = log $ !! +, -, 2, .∗, !#! $ !! +, -, 2, .%, !#! . 正解の時に生成されるトークンから正解ではなくても 生成されるトークンを割り引く。流暢性を確保する ためにGreedy Decodingの生成確率を考慮
  6. 提案手法 : Counterfactual reasoning 9 n 目的: Reasoning shortcutを減らす n

    方法:誤った論拠r‘を用いて誤った回答a’を生成するよ うに学習することで、論拠を間違えたら、回答を間違え るように学習する ! = !!"#$%"& + !#'%($)*!"#$%"& , !!"#$%"& = − & + log * ++ ,, +,+ , !#'%($)*!"#$%"& = − & + log * ++ ,, --, +,+ . factualはrとaの両方が学習対象。 counterfactualはa のみが学習対象。
  7. メカニズムの考察 by 紹介者 10 <Factualでの学習> n Rが有効な情報ではない→RとAの相関がデータ上小さい →QとAの相関でモデルが学習される→Reasoning shortcut <Counterfactualによる補正>

    n Q=q->A=a’を学習することでQ=q->A=aではないことを学習 させる。これでReasoning shortcutを抑制する。 n この時、R=r’を条件づけておくことで、論拠によって回 答に差が出ることを学習。但し、誤った論拠自体は学習 したくないので、学習は回答部分のみ n また、論拠によって回答に差が出ることから、より論拠 に依拠したモデルになることを期待 Factualのみの場合 Counterfactualありの場合
  8. 評価指標: Leakage-adjusted Simulatability (LAS) 11 n LAS: 人間やモデルによる実行可能性によって評価. l モデルを用いる場合は、以下のようなモデルを学習する

    n Simulatability: 論拠が加わった場合に正答a*を回答できているか。 l ACC(qr->a*) – ACC(q->a*) n Faithfulness: 生徒モデルの回答a”が論拠で変化しているか l ACC(qr->a”) – ACC(q->a”) Hose et al. Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial Explanations of Their Behavior in Natural Language? Findings of EMNLP2020より q r