SCOTT: Self-Consistent Chain-of-Thought Distillation

SCOTT: Self-Consistent Chain-of-Thought Distillation Author: Peifeng Wang, Zhengyang Wang, Zheng
Li, Yifan Gao, Bing Yin, Xiang Ren ACL2023 Outstanding Paper 紹介者：東工大-岡崎研D4 / (株) レトリバ飯田大貴断りのない限り本スライドの図は当該論文からの引用です著者実装 https://github.com/wangpf3/consistent-CoT-distillation

論文概要 2 n 特定のタスクに対して、より信頼性の高い論理推論を行うモデルを蒸留を通じて得られるSCOTTという手法を提案 n SCOTTは、通常よりも正答に特有の論拠を生成するContrastive Decodingと誤った論拠から誤った回答を生成させるよう学習させるCounterfactual Reasoning
からなる手法 n SCOTTを用いることで、より論拠に追従するモデルを得た

背景 3 n Large Language Model (LLM) は、chain-of-thought (CoT) プロンプトによって論理推論
能力を発現させることが明らかになってきた Wei et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models NeuIPS 2022 より

背景 4 n しかし、CoTプロンプトは予測とそれを導出する論拠が一貫性をもつことを保証しないので、論拠によってモデルの振る舞いを正当化することには使えない寒い日に息は何色になる？白色です。なぜならば、水蒸気がエアロゾルとくっついて水滴になるからなぜ、寒い日に息が
白くなる？白色です。なぜならば、息が白いからです

動機 5 n より回答に沿った論拠を提示できるようにして信頼性を高めたい！ n 推論コストを抑えるため Small Language Model (Small-LM)で実現したい！
→既存手法の多くは蒸留を用いる既存の蒸留方法の課題 1. 教師であるLLMの論拠が間違っている可能性がある

動機 6 n より信頼性のあるCoT-reasoningを行えるようにしたい！ n 蒸留を用いて、Small Language Model (Small-LM)で実現する →既存手法の多くは蒸留を用いる
既存の蒸留方法の課題 1. 教師であるLLMの論理展開が間違っている可能性がある 2. Small-LMは論拠を無視しQAの相関のみを学習する可能性がある (Reasoning-shortcut)

提案手法：SCOTT 7 n QAペアからContrastive Decodingを用いて回答を説明する論拠Rを生成 n 生成した(Q, R, A)のトリプルを教師データとして、Counterfactual Reasoningを使用し
てQを入力としてR,Aを生成するSmall LMを学習 q r->a q a r

提案手法 : Contrastive Decoding 8 n 目的 : 誤った論拠を減らす n
手段 : 回答が正解の時だけ有効なトークンを生成 p: プロンプト q: <question> a*: gold answer (正答) a’: a perturbed answer A: 選択肢 !! = argmax log * !! +, -, .∗, !#! . !! = argmax log * !! +, -, .∗, !#! + 1 !! .∗ . 1 !! .∗ = log $ !! +, -, 2, .∗, !#! $ !! +, -, 2, .%, !#! . 正解の時に生成されるトークンから正解ではなくても生成されるトークンを割り引く。流暢性を確保するためにGreedy Decodingの生成確率を考慮

提案手法 : Counterfactual reasoning 9 n 目的: Reasoning shortcutを減らす n
方法：誤った論拠r‘を用いて誤った回答a’を生成するように学習することで、論拠を間違えたら、回答を間違えるように学習する ! = !!"#$%"& + !#'%($)*!"#$%"& , !!"#$%"& = − & + log * ++ ,, +,+ , !#'%($)*!"#$%"& = − & + log * ++ ,, --, +,+ . factualはrとaの両方が学習対象。 counterfactualはa のみが学習対象。

メカニズムの考察 by 紹介者 10 ＜Factualでの学習＞ n Rが有効な情報ではない→RとAの相関がデータ上小さい →QとAの相関でモデルが学習される→Reasoning shortcut ＜Counterfactualによる補正＞
n Q=q->A=a’を学習することでQ=q->A=aではないことを学習させる。これでReasoning shortcutを抑制する。 n この時、R=r’を条件づけておくことで、論拠によって回答に差が出ることを学習。但し、誤った論拠自体は学習したくないので、学習は回答部分のみ n また、論拠によって回答に差が出ることから、より論拠に依拠したモデルになることを期待 Factualのみの場合 Counterfactualありの場合

評価指標: Leakage-adjusted Simulatability (LAS) 11 n LAS: 人間やモデルによる実行可能性によって評価. l モデルを用いる場合は、以下のようなモデルを学習する
n Simulatability: 論拠が加わった場合に正答a*を回答できているか。 l ACC(qr->a*) – ACC(q->a*) n Faithfulness: 生徒モデルの回答a”が論拠で変化しているか l ACC(qr->a”) – ACC(q->a”) Hose et al. Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial Explanations of Their Behavior in Natural Language? Findings of EMNLP2020より q r

結果: Simulatability 12 n CDを用いることで、LASが上昇。生成する論拠が正答可能性に影響を与えており、生徒モデルが生成する論拠が回答と同じトピックになっている n GreedyはHumanより低い値となる場合がある。Greedyでは論拠が正答に基づいていない場合があり、LLMが生成する論拠が回答のサポートになっていない場合が多いことを裏付けている
Teacher: GPT-neox20b, Student: T5-3b Human: 人間が論拠を生成 Greedy: 調製項G(a)を用いない場合 CD-Empty: Contrastive Decoding a’を空にした場合 CD-Wrong: Contrastive Decoding a’を正答ではない選択肢にした場合

結果: 論拠の人手評価 13 n CDによって、論拠が新情報を与える割合、回答をサポートしている割合が増加 n また、Wrong Answerを用いることでさらに改善。LASによる評価結果と同じ傾向 Strategy QAを用いた論拠の人手評価。3人のアノテータのFleiss
Kappa=0.26

結果: Faithfulness 14 n CoTのLASが低い。生成された論拠がモデルの回答に影響を与えていない n Contrastive Decodingを用いることで、高いLASを示す。Simulatabilityと合わせて、 Contrastive Decodingがより信頼性の高いモデルの学習に寄与している。
n Counterfactual reasoningを用いることで、上記がさらに補強される。 CSQA StrategyQA CREAK QASC

結果: Accuracy 15 n 蒸留する手法はどれも同じぐらい良いので、精度を下げずに論拠の信頼性を上げている n Humanの論拠で学習したモデルが若干良い。これは論拠がnoisyであることが原因と思われる。なぜならば、モデルが論拠を無視してQ->A関係を学習しがちなので、疑似相関になっているから。（詳細後述） l
予測においては、ドメイン内であれば相関関係のみで精度が上がるという従来の知見と同等 CSQA StrategyQA CREAK QASC

モデルサイズの影響 16 n モデルが大きいと正答率は高い n モデルが大きいとLASは下がる。特にGreedy n よって、正答するにはモデルサイズが必要だが、モデルサイズが大きいと論拠無視しがち

論拠の操作 :誤った論拠による精度低下 17 n 人間が生成した論拠では変化なし。生徒モデルが論拠を無視しがち n CDはGreedyより精度低下が大きい。Contrastive Decodingで論拠の変化で回答が変化するようになった
n Counterfactual reasoningでその傾向は強まる

論拠の操作 :正しい論拠による精度向上 18 n 生徒モデルの学習に使用した論拠を正しい論拠として実験 n 人手のものはモデルが生成した教師より精度向上幅が小さい。人手の教師を与えても論拠生成の信頼性はあまり向上しない
n CDはGreedyより精度向上幅が大きい。さらに Counterfactual reasoningでその傾向は強まる。 SCOTTが論拠生成の信頼性を向上させている

まとめ 19 n 特定のタスクに対して、より信頼性の高い論理推論を行うモデルを蒸留を通じて得られるSCOTTという手法を提案 n SCOTTは、通常よりも正答に特有の論拠を生成するContrastive Decodingと反実仮想的な学習として、誤った論拠から誤った回答を生成させるCounterfactual Reasoningからなる手法
n SCOTTを用いることで、より論拠に追従するモデルを得た。

Appendix 21

Contrastive decodingの事例 22

SCOTT: Self-Consistent Chain-of-Thought Distill...

SCOTT: Self-Consistent Chain-of-Thought Distillation

Hiroki_Iida

More Decks by Hiroki_Iida

Other Decks in Science

Featured

Transcript