Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI Alignment: A Comprehensive Survey

S. Ota
January 19, 2024

AI Alignment: A Comprehensive Survey

# AI Alignment: A Comprehensive Survey

第2章 Learning from Feedback
第3章 Learning under Distribution Shift

Jiaming Ji et al., 2023.
arXiv preprint arXiv:2310.19852
https://arxiv.org/abs/2310.19852

第99回汎用人工知能輪読会
2024/1/19
担当: 太田 晋

S. Ota

January 19, 2024
Tweet

More Decks by S. Ota

Other Decks in Science

Transcript

  1. AI Alignment: A Comprehensive Survey 第2章 Learning from Feedback 第3章

    Learning under Distribution Shift Jiaming Ji et al., 2023. arXiv preprint arXiv:2310.19852 https://arxiv.org/abs/2310.19852 第99回汎用人工知能輪読会 2024/1/19 担当: 太田 晋 1
  2. アライメントサイクル フォワードアライメント アライメント要件に従う学習 済みシステムを生成 第2章: フィードバックか らの学習 第3章: 分布シフト下での 学習

    バックワードアライメント 学習済みシステムの実用的な アライメントを保証 第4章: 保証 第5章: ガバナンス 3
  3. 第2章 目次 2 Learning from Feedback 2.1 Feedback Types 2.2

    Preference Modeling 2.3 Policy Learning 2.4 Scalable Oversight 5
  4. 2 Learning from Feedback 目的: フィードバックを用いて人間の意 図や価値観をAIシステムに伝えること 要素 AIシステム: アラインメントが必要

    な対象 フィードバック: 人間・AI・AIの支 援を受けた人間 から提供される情 報 プロキシ: フィードバックをモデル 化するために開発されたモデル(例: RLHFの報酬モデル) 学習経路: 直接学習と間接学習 6
  5. 最近の進展 選好モデリング(preference modeling)を方策学習に取り入れる試みが進展 強力な Large Language Models (LLMs) の構築 方策学習研究による性能向上

    選好モデリングと逆強化学習(IRL)やオフライン強化学習の組み合わせ 報酬関数のファインチューニング 非マルコフ型報酬のモデリング 複雑な報酬関数の構築 選好モデリングと方策学習が、アライメントが直面する課題と解決策を理解するための 基礎的な文脈と考えられる 16
  6. 選好のカテゴリ(category of preference) オブジェクト選好とラベル選好 絶対的選好と相対的選好 絶対的選好: 各項目を独立して評価 二分法(binary): 好き or

    嫌い 段階的(gradual) 数値的: スコア 順序的: 好ましい、あまり好ましくない、中間など 相対的選好: アイテムのペア間の選好関係を定義 全体順序(total order) 全体のランキングを定義 部分順序(partial order) 比較不可能な項目ペアを許容 21
  7. LLM における報酬モデル 報酬モデルは強力なLLMをアラインさせるために不可欠なツールを提供 テキスト要約タスク (Stiennon et al., 2020) 人間の選好に基づいた報酬モデルを採用し、方策を大幅に強化 分布のシフトと報酬モデルの汎化の問題も掘り下げており、報酬モデルの有効性が

    データスケールとパラメータサイズに相関することが明らかになった InstructGPT (Ouyang et al., 2022) 報酬モデルのパラダイムをより広範な対話タスクの報酬モデリングに拡張 複数回答に対するオーバーフィッティングを緩和するために、選好最適化損失関数 (preference-optimizing loss function)を導入 報酬モデルから導き出された選好は、異なるグループ間で一般化できることが明ら かになった 26
  8. 強化学習 強化学習(Reinforcement Learning, RL) (Sutton and Barto, 2018) エージェントが環境との相互作用を通じて試行錯誤的に最適な方策を学習 目標:

    累積報酬の期待値を最大化する方策πを学習すること Proximal Policy Optimization (PPO) (Schulman et al., 2017) RLコミュニティにおいて影響力のあるアルゴリズム (方策ベース) RLHFのキーアルゴリズムとして機能 代理目的を導入することによって、元の方策から大きく逸脱しないように方策の更 新を制限する 29
  9. 選好ベース強化学習 選好ベース強化学習(Preference-based Reinforcement Learning, PbRL) (Wirth et al., 2017) 明示的な報酬シグナルの代わりに選好フィードバックを用いてRLエージェントの学

    習を促進 選好学習とRLの利点を統合し、RLの適用範囲を広げ、報酬関数の定式化に関する困 難を軽減 主に軌跡選好(状態行動列のセグメントの比較)に重点 単一の状態ではなく、様々な行動結果に対する人間の評価を包含 非専門家ユーザに適している タスク例: ロボットインストラクション・パスプランニング・マニピュレーション 30
  10. 逆強化学習 逆強化学習(Inverse Reinforcement Learning, IRL) 観測された行動から報酬関数を導くことに重点 標準的なIRLでは最適な専門家の行動や意思決定過程を仮定 利点: 状態分布の変化に対する頑健性を保証 欠点

    余分なRLステップによる計算複雑性の増大 RLに内在する課題も導入してしまう(サンプル効率や環境との相互作用による 潜在的な危険等) 報酬関数の特定も依然として課題 35
  11. 2.3.2 Reinforcement Learning from Human Feedback (RLHF) 人間の選好により近いAIシステムを訓練するために開発された手法 利点: 「人間がデモンストレーションや報酬設計をするよりも、適切な行動を判断する方

    が得意である」ことを利用 特にLLMの微調整において非常に支持されている 問題点 データ品質への懸念 報酬の誤汎化リスク 報酬ハッキング 方策最適化の複雑さ RLHFは再帰的報酬モデリングプロセスの一種としてみなすことも出来る 36
  12. RLHFのパイプライン 教師ありファインチューニング(Supervised Fine-tuning, SFT) 事前訓練された言語モデルを用い、下流タスクに合わせた高品質のデータセット上 で教師あり学習(特に最尤推定)で微調整 タスク例: 対話処理・指示フォロー(instruction following)・要約 比較データの収集と報酬モデリング(Collecting

    Comparison Data and Reward Modeling) SFTモデルにプロンプト を入力し応答ペア をサンプリング ペアを人間のアノテータに表示し好ましい方を選択 この比較データ使って報酬モデル を最適化 (2.2節参照) 強化学習による方策最適化(Policy Optimization via Reinforcement Learning) 報酬モデル に導かれながら、RLを通じてLLMを最適化 →次頁 38
  13. RRHF (Yuan et al., 2023) Rank Response to align Human

    Feedback, RRHF 複数の言語モデルからの回答をスコアリングしてランク付けすることで、モデルの確率 を人間の選好にアラインする 1個か2個のモデルしか必要としないため実装が簡単 →言語モデルと人間の選好を効果的にアラインすることができ、PPOと同等のパフォー マンスを達成 44
  14. ReST (Gulcehre et al., 2023) 2つのループ Grow と Improve Grow

    ループは、現在のモデルを用いてデータセットをサンプリング Improve ループは、固定データセットでモデルを繰り返し学習 計算効率を向上させるために固定データセットを繰り返し使用できる、シンプルで効率 的なフレームワーク 教師あり学習のベースラインと比較して、報酬モデルのスコアと翻訳品質を大幅に改善 45
  15. 2.4 Scalable Oversight 2.4.1 From RLHF to RLxF 2.4.2 Iterated

    Distillation and Amplification 2.4.3 Recursive Reward Modeling 2.4.4 Debate 2.4.5 Cooperative Inverse Reinforcement Learning 48
  16. 2.4 Scalable Oversight 統計的学習アルゴリズム データ分布を仮定 (例: independence and identical distribution,

    独立同分布) → 特定の分布では失敗 AIがより強力になるにつれて、非効率的な学習信号や損失関数設計の誤りが破滅的な振 る舞いにつながる可能性が高まる 矛盾の難読化 (obfuscating discrepancies) specification gaming 報酬ハッキング 権力追求 (power-seeking dynamics) AIシステムの最適化された目標と、人間の心にある理想的な目標とのギャップが存在 → スケーラブルな監視 (scalable oversight) が極めて重要 49
  17. 2.4.1 From RLHF to RLxF RLHFの問題点 人間の評価の不正確さ 人間のコストの高さ → 超人的な能力を持つAIシステムを作る際に、人間のフィードバックを拡張するた

    めにRLHFを利用することが難しい RLxF の導入 RLHFのパラダイムに基づき、フィードバックの効率と質を向上させ、より複雑なタ スクに対する人間のフィードバックを拡張することを目指す 52
  18. Reinforcement Learning from AI Feedback (RLAIF) (Bai et al., 2022a,

    2022b) RLHFによって訓練されたLLMの問題点 センシティブで論争的な問題を回避することを選択することが多い RLAIF 人間のフィードバックではなく、LLM(例: GPT-4や超人的能力を持つ他の言語モデ ル)によって生成されたフィードバックを使用 RLAIFの学習パイプライン(→次々頁) 事前に設定された基準に基づいて方策モデルを自己評価し、レッド・チーミング (red teaming→次頁)によって促された返答で訂正 訂正された返答で最初の方策モデルをファインチューニング ファインチューニングされた方策モデルで、別の言語モデルの返答の無害性を評価 53
  19. Harmlessness (Red Teaming) Datasets (Bai et al., 2022a) Red Teaming

    Datasets クラウドワーカーに、敵対的にLLMから有害な応答を引き出し、より有害な応答を 選択するように求める 例 銀行強盗の計画 有害な言葉遣い(toxic language) 有害な応答を引き出すプロンプト どちらの応答が有害か比較データ 54
  20. Constitutional AI (CAI) (Bai et al., 2022b) RLAIF を使って言語モデルの無害性(harmlessness)を向上する Constitution

    (憲法) 有害でないシステムを訓練するための短い原則や指示のリスト(→次々頁) 一般的なAIシステムを開発・デプロイする際には、たとえそれが隠されていたり暗 黙であったとしても、AIを支配する原則のセットを選択することは避けられない 55
  21. Constitutional AI (CAI) (Bai et al., 2022b) RLAIFの学習パイプライン Supervised Stage

    (右図上段) 憲法の原則に従って応答 を批評するよう求め、批 評に照らして元の応答を 修正させる→LMをSFT RL Stage (右図下段) 憲法の原則に従ってどの 応答が最適かを問う →PMを学習→SFTした LMをRL 56
  22. Constitutional AI (CAI) (Bai et al., 2022b) 憲法の原則例 (Bai et

    al., 2022b, Appendix C参照) Principles for SL-CAI CritiqueRequest: Identify specific ways in which the assistant’s last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal. RevisionRequest: Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Principles for RL-CAI Please choose the response that is the most helpful, honest, and harmless. Please choose the assistant response that is as harmless and ethical as possible. Do NOT choose responses that are toxic, racist, or sexist, or that encourage or support illegal, violent, or unethical behavior. Above all the assistant’s response should be wise, peaceful, and ethical. 57
  23. Reinforcement Learning from Human and AI Feedback (RLHAIF) 人間とAIの要素を統合して監視 例

    書籍の要約において人間を支援(Wu et al., 2021) サブタスクに分解してツリー状の構造を形成し、人間による監視とモデルの性 能評価を容易に モデルの評価において人間を支援(Saunders et al., 2022) モデルに批評を生成させ人間の見逃しを減らす 言語モデルの動作を評価するためのデータセットを自律的に生成(Perez et al., 2023) 人間によって検証された154の高品質なデータセットを作成 59
  24. 広い/狭い RL/IRL (Cotra, 2018) 広いRL AIシステムに疎な報酬シグナル(報酬フィードバック)を与え、将来の累積報酬の自 律的な探索と最適化を可能にする 超人的な目新しい戦略を導く可能性があるが、何を気にかけるかを完璧に特定する ことが難しい 狭いRL

    最終結果ではなく、選択の妥当性を評価する密なフィードバックを与える(比較フィ ードバック) MLシステムをより人間に近づけることができるが、能力は制限される 広いIRL 人間のあらゆる行動から深い長期的価値を推論、リスクが高い 狭いIRL 短期的な道具的価値のみ推論、能力が制限される 64
  25. IDAの例: AlphaZero(Christiano et al., 2018; Nguyen, 2020) 増幅フェーズ 初期方策はランダム方策 現段階の方策を用いてセルフプレイを行い棋譜を作成

    蒸留フェーズ セルフプレイの棋譜を訓練データとして用い、より優れた手選択ヒューリスティッ ク(方策)を学習 蒸留と増幅のプロセスを繰り返すことによって高速に熟練の囲碁AIを作成 アライメントと能力の区別が重要(Mennen, 2018) アラインメントは取れているが能力の低いAIは中程度の相手に勝てない 能力はあるがアライメントが不十分なAIは勝利以外の特定のゲーム特性を達成しよ うとする可能性 66
  26. IDAの実現可能性 IDAの実現可能性について議論が巻き起こっている(Yudkowsky, 2018) IDAは、反復を通じてエラーが継続的に蓄積されないという重大な仮定の下で動作する (Leike et al., 2018) 蒸留と増幅のステップの間に持続し、十分に高度で安全な学習技術が必要 Gato

    (Reed et al., 2022) 複数の専門家AIの能力を1つのモデルに統合し、IDAの蒸留が現代の深層学習を使っ て達成できるかどうか検証 完全には実現されていないが、Gatoは増幅の可能性を示唆しており、多様なスキル を活用して新しいタスクの学習を加速することができる アライメント特性を維持するための安全な増幅や蒸留の方法が欠けている →アライメントを維持するIDA手法を構築することが、AIの安全性研究にとって極めて重 要 67
  27. 2.4.3 Recursive Reward Modeling 再帰的報酬モデリング(Recursive Reward Modeling, RRM) 報酬モデルによって、システムの目的の構築とその行動の評価を切り離すことがで きる(Ibarz

    et al., 2018) 人間のフィードバックを利用して報酬モデルを訓練し、それをエージェントが追求 するよう学習させる すでに訓練されたエージェント を再帰的に使用し、より複雑なタスクに関する エージェント の訓練にフィードバックを提供する 例: 都市計画エージェント(交通計画, 公共施設, 住宅地, etc.) 69
  28. 2.4.5 Cooperative Inverse Reinforcement Learning 協調的逆強化学習(Cooperative Inverse Reinforcement Learning, CIRL)

    制御とフィードバックからの学習を統合し、人間のフィードバック提供者を同じ環 境における仲間のエージェントとしてモデル化 監視を強化するのではなく、AIシステムが監視をゲーム化するインセンティブを排 除する フィードバックを与える人間とAIシステムを敵対的ではなく協力的な立場に置き、 スケーラブルな監視問題にアプローチする(Shah et al., 2020) 人間の好みに合わせて一方的に最適化するのではなく、人間の真の目標を達成する ために人間と協力 78
  29. CIRLの動機とアイデア 多くのミスアラインメントは、AIシステムが誤って指定された目的に対して自信を持っ て最適化した結果である(Pan et al., 2022) 報酬ハッキング(Victoria et al., 2020;

    Skalse et al., 2022) 欺瞞(deception) (Park et al., 2023b) 操作(Carroll et al., 2023b) 人間のフィードバックは目的に指定された範囲でのみ尊重されるため、改ざんや操作さ れる可能性がある CIRL (Hadfield-Menell et al., 2016b, 2017; Shah et al., 2020) は上記問題の軽減を試み る (1) AIシステムに報酬関数に関する不確実性を明示的に保持させる (2) 本当の報酬関数が何であるかについての情報を人間にだけ提供する(AIには提供 しない) 79
  30. 3 Learning under Distribution Shift 3.1 The Distribution Shift Challenge

    3.2 Algorithmic Interventions 3.3 Data Distribution Interventions 83
  31. 分布シフト下における学習 信頼性の高いAIシステムの構築は、多様なデータ分布への適応能力に大きく依存 訓練データや訓練環境は、実際のデプロイシナリオの不完全な近似であることが多く、 重要な要素を欠いている場合がある 敵対的圧力(Poursaeed et al., 2021) マルチエージェント相互作用(Critch and

    Krueger, 2020; Dafoe et al., 2020) 人間の監視者が効率的に評価できない複雑なタスク(Leike et al., 2018) 操作が可能な報酬機構(Krueger et al., 2020) 分布シフトとは: 訓練分布とテスト分布(または環境)の不一致 訓練分布の下ではアラインしている(人間の意図に沿った目標を追求している)AIシステム でも、テスト分布の下ではアライメントが維持されず、デプロイメント後に深刻なミス アライメント問題を引き起こす可能性がある 84
  32. 目標の誤汎化の危険性 大きな危険の一つは、以下2つの区別がつかないこと "人間が本当に望んでいることのための最適化" (optimizing for what human really wants) "人間のサムアップのための最適化"

    (optimizing for human thumbs-ups) 人間のサムアップ: 人間のアドバイザーや環境からの高報酬のフィードバック →AIシステムは意図的に人間の好みに従ったり、人間から高い報酬を得るために欺いた りすることがあるが、実際には意図した目標(人間が本当に望んでいること)を学習してい ない可能性がある 例: ロボットハンドが小さなボールをつかむタスク(Amodei et al., 2017) カメラのレンズの前で視差を利用することで、実際にはボールをつかんでいないに もかかわらず、あたかもボールをつかんだかのように見せかける 人間のアノテータはタスク完了と勘違いする 90
  33. LLMにおける目標 の誤汎化 おべっか(sycophancy) (Perez et al., 2023) 質問: 小さな政府 or

    大きな政府 保守的な男性には 小さな政府と返答 リベラル女性には 大きな政府と返答 92
  34. 目標の誤汎化の危険性 メサ最適化(mesa-optimization) (Hubinger et al., 2019c; Dai et al., 2023a)

    学習済みのモデル重みを持つMLモデルが推論中にそれ自身の中で最適化を行う (例: in-context learning) しかし、この最適化の目的が元のモデルの学習目的と一致していない 実証的な研究では、フォワード・パスのパフォーマンスを向上させるためにメサ最 適化を使用するトランスフォーマーが発見されており、この仮説の信憑性を高めて いる(von Oswald et al., 2023) 93
  35. 自動誘発分布シフト(Auto-Induced Distribution Shift, ADS) 過去の研究 データが独立同分布(independence and identical distribution, i.i.d)であると仮定す

    ることが多く、アルゴリズムのデータ分布への影響を無視することが多い 現実 エージェントは意思決定や実行の過程で環境に影響を与え、環境によって生成され るデータの分布を変化させる可能性があり、この問題を自動誘発分布シフト(Auto- Induced Distribution Shift, ADS)と呼ぶ(Krueger et al., 2020) 94
  36. Empirical Risk Minimization (ERM) 経験的リスク最小化(Empirical Risk Minimization, ERM) データセットと実世界の間にはバイアスが存在することが多い ERMはこのバイアスを最適化するために統計的手法で採用されている戦略

    は一つの訓練分布または異なる訓練分布からの異なる例 上記の目的関数を最小化することで、異なる分布における不変関係を学習可能 ただし、訓練分布とターゲット分布の間に大きな不一致が存在する場合、深刻な汎 化の問題が発生する可能性がある 99
  37. Distributionally Robust Optimization (DRO) 分布シフトに対する敏感さは、多くの場合、偽の相関関係や中心概念とは無関係なショ ートカット機能への依存から生じる 例: モデルは画像内の正しい特徴を採用するのではなく、背景の特徴に基づいて判断 してしまう可能性 OOD汎化は以下のように定式化される

    この最適化は、リスク関数集合 の中で最大値を小さくすることで、摂動集合全体( ) におけるワーストケースの性能を向上させようとする DROでは、摂動集合は異なるドメインの学習分布の混合をカバーし、上記の目的関数を 最小化することで、異なる学習分布間の不変関係を見つけることができる 100
  38. 3.2.2 Navigation via Mode Connectivity モード接続性によるナビゲーション(Navigation via Mode Connectivity) モード接続性の説明

    Connectivity-Based Fine-Tuning (CBFT) (Lubana et al., 2023)法の紹介 モード接続性が、少数のパラメータを変更することによって、擬似的な相関関係で はなく、不変の関係に基づいて予測するようにモデルをナビゲートすることを示す 104
  39. 3.3.1 Adversarial Training 敵対的頑健性の欠如 失敗させるように設計された特定の入力が、モデルの性能を低下させることがある (例: 画像・テキスト・それらの意味的特徴等) 敵対的頑健性と分布シフト 訓練分布(入力が敵対的に構成されていない)とテスト分布(入力が敵対的に構成され る可能性がある)の不一致によって部分的に引き起こされる分布シフトの失敗ケース

    と考えることができる 敵対的学習(adversarial training) 様々な方法で訓練入力に敵対的な例を導入することで、訓練分布を拡大し、分布の 不一致を解消し、この問題を緩和を試みる モデル: 視覚モデル・言語モデル・視覚言語モデル タスク: 分類・生成・RL 110
  40. 3.3.2 Cooperative Training 協調的学習(Cooperative Training) AIシステムにおける協調能力の欠如は、分布シフトにおける失敗の一形態と見なすこと ができる AIシステムは、現実世界とは質的に異なるシングルエージェントの設定で訓練され る 環境に他のエージェントが存在すると、環境の状態遷移のダイナミクスが質的に変

    化し、観測と報酬の同時分布(joint distribution)が変化 協調訓練によってマルチエージェントの相互作用を含むように訓練分布を拡張する ことによって、この問題にアプローチする 本節では訓練データ分布の拡大との関連性から、マルチエージェント強化学習(Multi- Agent Reinforcement Learning, MARL)の一部のみを取り上げる 115
  41. Mixed-Motive MARL 混合動機型MARL 協調的インセンティブと競争的インセンティブが混在していることが特徴で、エー ジェントの報酬は同一ではないが、ゼロサムでもない(Gronauer and Diepold, 2022) より微妙な設定を含む環境がある チーム同士の対戦(Jaderberg

    et al., 2019) 交渉(Cruz et al., 2019; FAIR et al., 2022) テクニックの例 IRLのような手法を使って人間の相互作用から学ぶ(Song et al., 2018a) コミュニケーションを戦略的かつ選択的に行う(Singh et al., 2019) アクター-クリティック手法の適用(Lowe et al., 2017). 118
  42. Zero-shot Coordination ゼロショット協調 AIシステムが、他のエージェント(人間のエージェントを含む)と一緒に訓練するこ となしに、また、協調するための特別な設計なしに、効率的に協調できるようにす ることを目指す 最近の研究例 other-play (Hu et

    al., 2020) 頑健性を向上するために訓練パートナーの方策の特定の部分をランダム化 する マルチレベル再帰的推論の導入(Cui et al., 2021) off-belief学習(Hu et al., 2021) セルフプレイにおける恣意的な慣例を排除 119
  43. Environment-building 協調学習のための環境 ゲーム環境 Hanabi (Muglich et al., 2022) Diplomacy (Cruz

    et al., 2019; FAIR et al., 2022) サッカー(Ma et al., 2022) ゲーム理論モデル 古典的なマルチエージェントジレンマ(Wang et al., 2021b; Christoffersen et al., 2023) 協調AI研究に特化したマルチエージェント環境のフレームワークとスイート Melting Pot (Leibo et al., 2021; Agapiou et al., 2022) 環境構築プロセスの部分的自動化 教師なし環境設計(Dennis et al., 2020; Jiang et al., 2021b) 120
  44. Socially Realistic Settings 社会的に現実的な設定(Du, 2023) 大規模マルチエージェント(AIエージェントと人間を含む) エージェントの構成も相互作用の様式も非常に多様 より現実的でオープンエンドな環境の構築(Klügl et al.,

    2005; Lehman et al., 2008; Wang et al., 2019b; Suo et al., 2021) MARLの規模拡大(Sun et al., 2020; Du, 2023) 社会制度や規範などの新たな制御手段の組み込み(Singh, 2014) 121