Slide 1

Slide 1 text

AI Alignment: A Comprehensive Survey 第2章 Learning from Feedback 第3章 Learning under Distribution Shift Jiaming Ji et al., 2023. arXiv preprint arXiv:2310.19852 https://arxiv.org/abs/2310.19852 第99回汎用人工知能輪読会 2024/1/19 担当: 太田 晋 1

Slide 2

Slide 2 text

北京大学のグループが中心 2023年10月にarXivに投稿 (2024/1/2にv3が投稿) arXiv preprint arXiv:2310.19852 https://arxiv.org/abs/2310.19852 2

Slide 3

Slide 3 text

アライメントサイクル フォワードアライメント アライメント要件に従う学習 済みシステムを生成 第2章: フィードバックか らの学習 第3章: 分布シフト下での 学習 バックワードアライメント 学習済みシステムの実用的な アライメントを保証 第4章: 保証 第5章: ガバナンス 3

Slide 4

Slide 4 text

担当部分 第2章: フィードバックからの学習 第3章: 分布シフト下での学習 4

Slide 5

Slide 5 text

第2章 目次 2 Learning from Feedback 2.1 Feedback Types 2.2 Preference Modeling 2.3 Policy Learning 2.4 Scalable Oversight 5

Slide 6

Slide 6 text

2 Learning from Feedback 目的: フィードバックを用いて人間の意 図や価値観をAIシステムに伝えること 要素 AIシステム: アラインメントが必要 な対象 フィードバック: 人間・AI・AIの支 援を受けた人間 から提供される情 報 プロキシ: フィードバックをモデル 化するために開発されたモデル(例: RLHFの報酬モデル) 学習経路: 直接学習と間接学習 6

Slide 7

Slide 7 text

2.1 Feedback Types フィードバックの定義 人間の意図に沿うようにAIシステムに与えられる情報 3種類のフィードバック形式 報酬 (reward) デモンストレーション (demonstration) 比較 (comparison) 7

Slide 8

Slide 8 text

報酬フィードバック 定義 AIシステムの1つの出力に対する独立した絶対評価 スカラースコア 行動調整における直接的なガイダンス 通常は、事前に設計されたルールベースの関数から発生 例 健康な状態を維持 前方移動の推奨 制御の労力を最小化 接触強度の調整 8

Slide 9

Slide 9 text

報酬フィードバックの利点と欠点 利点 設計者が最適な振る舞い(behavior)を定義する必要がない 最適な方策(policy)の探索が可能 欠点 AIシステムの出力を評価する完璧なルールを作ることが困難 AIシステムの出力それぞれに直接スコアを割り当てることが困難 報酬設計の困難さ タスクの内在的な難しさに起因 報酬設計の欠陥や不完全さは設計者の意図とずれた危険な行動を引き起こす可能性 (例: ネガティブな副作用・報酬ハッキング) アライメントにおける報酬フィードバックの最も重要な限界 フィードバックの改ざんに相当する操作を除外することが難しい 9

Slide 10

Slide 10 text

デモンストレーションフィードバック 定義 特定の目的を達成する間に記録された専門家アドバイザーの行動データ 例 ビデオ・ウェアラブルデバイス・共同作業・遠隔操作 専門家とAIのダイナミクスが同一であれば、状態行動対(state-action pairs)の軌道 (trajectory)として直接構成可能 例: 人間の専門家がロボットハンドで物体を操作するタスク ビデオを録画 ビデオのフレーム毎にロボットの状態をアノテート 状態行動対のデータセットが得られる 専門家の行動を模倣するエージェントの方策を学習 10

Slide 11

Slide 11 text

デモンストレーションフィードバックの利点と欠点 利点 アドバイザーの専門知識と経験を直接活用 形式化された知識表現を必要としない 欠点 アドバイザーの専門領域を超えるタスクで失敗する可能性 実世界のノイズによる影響 アドバイザーのデモンストレーションが部分最適解である可能性 人間のアドバイザーが不正確で誤りを犯しがちなため矛盾を含む可能性 大量で広範囲なデモンストレーションを収集することが必要(コスト増加) 11

Slide 12

Slide 12 text

比較フィードバック 定義 AIシステムの出力のセットをランク付けし、システムをより情報に基づいた決定 (informed decisions)へと導く相対評価 例 選好学習(preference learning, 優先度学習?) 複数項目を比較することでアドバイザーの好みを判別 12

Slide 13

Slide 13 text

比較フィードバックの利点と欠点 利点 正確な評価が難しいタスクや目的に対応可能 欠点 大量の比較データが必要という内在的な限界がある 13

Slide 14

Slide 14 text

フィードバック形式共通の特徴 様々なフィードバック形式は全て、「人間による、隠れた報酬関数を伝えようとする試 み」とみなせる Jeon et al. は、この立場を提案・形式化し、フィードバックプロセスの根底にあるパラ メータ化された報酬関数 Ψ(・;θ) を定義することで、幅広いフィードバックの種類を統 一 これにより、例えば、フィードバックの種類に依らず、θに対してベイズ推論を行うこと も可能 14

Slide 15

Slide 15 text

2つの疑問 模倣学習(IL)と強化学習(RL)に基づく手法は、重要な能力を持つAIシステムの構築に成功 VPT: https://openai.com/research/vpt GPT-4V: https://openai.com/research/gpt-4v-system-card 2つの疑問 どのように報酬関数を定義すれば、より複雑な振る舞い(例: 対話における様々なサ ブタスク)を学習させることが出来るか? どのように人間の価値観を表現すれば、システムの制御可能性と倫理性を保証し、 人間によりよくアラインさせることが出来るか? 15

Slide 16

Slide 16 text

最近の進展 選好モデリング(preference modeling)を方策学習に取り入れる試みが進展 強力な Large Language Models (LLMs) の構築 方策学習研究による性能向上 選好モデリングと逆強化学習(IRL)やオフライン強化学習の組み合わせ 報酬関数のファインチューニング 非マルコフ型報酬のモデリング 複雑な報酬関数の構築 選好モデリングと方策学習が、アライメントが直面する課題と解決策を理解するための 基礎的な文脈と考えられる 16

Slide 17

Slide 17 text

2.2 Preference Modeling 複雑なタスク(例: 対話)では、正確なルー ルに基づく報酬を構築することが困難 デモンストレーションに基づく手法は、 膨大な専門家の人的資源が必要 比較フィードバックに基づく選好モデリ ングは、AIシステムのファインチューニ ングにおいて非常に有望な手法 17

Slide 18

Slide 18 text

Preference Elicitation Preference Elicitation (選好誘出?) 最適化目標に関するより多くの知識を得るために、専門家の選好データを取得しな がら、システムダイナミクスを繰り返し探索すること 選好の粒度(granularity of preference)と選好のカテゴリ(category of preference)を 決める必要がある 本稿では逐次的な意思決定問題に適用するが、導き出された洞察は広範なAIシステ ムに適用可能 18

Slide 19

Slide 19 text

選好の粒度(granularity of preference) 行動・状態・軌跡の3つの選好 行動選好: 特定の状態における好ましい行動 状態選好: 状態間の選好関係を表現 軌跡選好: 状態行動対の系列を表現(包括的な戦略情報) 19

Slide 20

Slide 20 text

選好の粒度(granularity of preference) 注意点 行動選好は、軌跡選好に変換する際に、評価者の専門知識の必要性や潜在的な情報 損失が生じる可能性 状態選好は、軌跡選好に変換する際に、状態到達可能性と独立性を仮定する必要が ある 軌跡選好は、内在的な長期的効用を評価し、専門家の判断にそれほど依存しない (depends less on expert judgment) 長い軌跡セグメントがセグメント単位でより有益な比較をもたらす (Christiano et al., 2017) 20

Slide 21

Slide 21 text

選好のカテゴリ(category of preference) オブジェクト選好とラベル選好 絶対的選好と相対的選好 絶対的選好: 各項目を独立して評価 二分法(binary): 好き or 嫌い 段階的(gradual) 数値的: スコア 順序的: 好ましい、あまり好ましくない、中間など 相対的選好: アイテムのペア間の選好関係を定義 全体順序(total order) 全体のランキングを定義 部分順序(partial order) 比較不可能な項目ペアを許容 21

Slide 22

Slide 22 text

報酬モデル(reward model) 報酬モデリングは、比較フィードバックをスカラー報酬の形に変換し、方策学習を容易 にする RLエージェントが同じ状態で行った行動のペア を考える 選好が潜在的な報酬モデル から現れると仮定(ただし直接アクセスは不可) Bradly-Terry Model (BTモデル)において、人間の選好の分布 は 22

Slide 23

Slide 23 text

参考: シグモイド関数 https://www.ailab.ics.keio.ac.jp/b4_induction_training/docs/ml/3.logistic_regression.html 23

Slide 24

Slide 24 text

報酬モデル(reward model) 報酬モデルをパラメータ化し最尤法によってパラメータを最適化 状態行動対は人間によってラベル付けされた比較データセットからサンプリング 24

Slide 25

Slide 25 text

報酬モデル(reward model) まとめ 報酬モデルは、人間のユーザーが評価を通じて特定の選好をシステムに伝えることを可 能にする それにより、目的を明示的に定義する複雑なタスクを回避することが出来る 25

Slide 26

Slide 26 text

LLM における報酬モデル 報酬モデルは強力なLLMをアラインさせるために不可欠なツールを提供 テキスト要約タスク (Stiennon et al., 2020) 人間の選好に基づいた報酬モデルを採用し、方策を大幅に強化 分布のシフトと報酬モデルの汎化の問題も掘り下げており、報酬モデルの有効性が データスケールとパラメータサイズに相関することが明らかになった InstructGPT (Ouyang et al., 2022) 報酬モデルのパラダイムをより広範な対話タスクの報酬モデリングに拡張 複数回答に対するオーバーフィッティングを緩和するために、選好最適化損失関数 (preference-optimizing loss function)を導入 報酬モデルから導き出された選好は、異なるグループ間で一般化できることが明ら かになった 26

Slide 27

Slide 27 text

2.3 Policy Learning 2.3.1 Background 強化学習(RL) 選好ベース強化学習(PbRL) 模倣学習(IL) 逆強化学習(IRL) 2.3.2 Reinforcement Learning from Human Feedback (RLHF) 27

Slide 28

Slide 28 text

方策学習 (policy learning) 目的 特定のタスクにおけるモデルのパフォーマンスを向上させること アライメントにおける方策学習の重要性 アライメントに関連する多くの課題が方策学習に現れている (1.3節参照) 方策学習はアライメントにとって重要な背景を提供し、その手法はアライメントの 目標をさらに前進させることが可能 28

Slide 29

Slide 29 text

強化学習 強化学習(Reinforcement Learning, RL) (Sutton and Barto, 2018) エージェントが環境との相互作用を通じて試行錯誤的に最適な方策を学習 目標: 累積報酬の期待値を最大化する方策πを学習すること Proximal Policy Optimization (PPO) (Schulman et al., 2017) RLコミュニティにおいて影響力のあるアルゴリズム (方策ベース) RLHFのキーアルゴリズムとして機能 代理目的を導入することによって、元の方策から大きく逸脱しないように方策の更 新を制限する 29

Slide 30

Slide 30 text

選好ベース強化学習 選好ベース強化学習(Preference-based Reinforcement Learning, PbRL) (Wirth et al., 2017) 明示的な報酬シグナルの代わりに選好フィードバックを用いてRLエージェントの学 習を促進 選好学習とRLの利点を統合し、RLの適用範囲を広げ、報酬関数の定式化に関する困 難を軽減 主に軌跡選好(状態行動列のセグメントの比較)に重点 単一の状態ではなく、様々な行動結果に対する人間の評価を包含 非専門家ユーザに適している タスク例: ロボットインストラクション・パスプランニング・マニピュレーション 30

Slide 31

Slide 31 text

選好ベース強化学習 PbRL の一般例 weighted pairwise disagreement loss 複数の潜在的に相反する選好のバランスをとり、一つの最適方策を特定 31

Slide 32

Slide 32 text

選好ベース強化学習の利点と欠点 利点 任意の報酬設計・報酬シェイピング・報酬エンジニアリング・事前定義された目的 トレードオフ(predefined objective trade-off)を回避 専門家の知識に依存しない 選好をモデル化することで訓練ループを人間から切り離す 欠点 時間的遅延による信用割り当て(credit assignment)問題 現実的な選好空間の探索(practical exploration of preference space) 膨大なデータの必要性 学習済み先行モデルを再学習に利用出来ない 32

Slide 33

Slide 33 text

模倣学習 模倣学習(Imitation Learning, IL) 特定のタスクの中で人間の行動をエミュレートすることに焦点とし、デモンストレ ーションから学習 観測と行動の間のマッピングを学習 デモンストレーションを観測することによって方策を改良 環境からの報酬シグナルを必要としない 広いILの目的: 人間の欲望や意図を複製し、人間の意思決定プロセスのレプリカを効果的 に作成すること 狭いILの目的: 与えられたタスクの中で特定の人間の行動を再現すること 33

Slide 34

Slide 34 text

模倣学習 Behavioral Cloning (BC) デモンストレーションから直接学習するシンプルな教師あり学習 専門家の方策に近づけることを目的として方策パラメータ を最適化 欠点: 訓練分布とテスト分布の違いから生じるOOD(Out-of-Distribution)問題に直面 34

Slide 35

Slide 35 text

逆強化学習 逆強化学習(Inverse Reinforcement Learning, IRL) 観測された行動から報酬関数を導くことに重点 標準的なIRLでは最適な専門家の行動や意思決定過程を仮定 利点: 状態分布の変化に対する頑健性を保証 欠点 余分なRLステップによる計算複雑性の増大 RLに内在する課題も導入してしまう(サンプル効率や環境との相互作用による 潜在的な危険等) 報酬関数の特定も依然として課題 35

Slide 36

Slide 36 text

2.3.2 Reinforcement Learning from Human Feedback (RLHF) 人間の選好により近いAIシステムを訓練するために開発された手法 利点: 「人間がデモンストレーションや報酬設計をするよりも、適切な行動を判断する方 が得意である」ことを利用 特にLLMの微調整において非常に支持されている 問題点 データ品質への懸念 報酬の誤汎化リスク 報酬ハッキング 方策最適化の複雑さ RLHFは再帰的報酬モデリングプロセスの一種としてみなすことも出来る 36

Slide 37

Slide 37 text

RLHF RLHFはロボットタスク等にも適用されている (Christiano et al., 2017) RLHFの重要な応用例の一つがLLM RLHFで訓練されたLLMは、教師あり学習や自己教師あり学習アプローチで訓練さ れたモデルと比較して、より創造的で人間的なアライメントが可能 RLHFは単にLLMが人間の指示に従うことを可能にすることだけでなく、親切 (helpful)・無害(harmless)・誠実(honest)などを与え、アライメントを改善するこ とが出来る 今後の課題 人間によるアノテーションへの依存を減らす 反復的RLHF手法を適用し報酬モデルの有効性を向上 37

Slide 38

Slide 38 text

RLHFのパイプライン 教師ありファインチューニング(Supervised Fine-tuning, SFT) 事前訓練された言語モデルを用い、下流タスクに合わせた高品質のデータセット上 で教師あり学習(特に最尤推定)で微調整 タスク例: 対話処理・指示フォロー(instruction following)・要約 比較データの収集と報酬モデリング(Collecting Comparison Data and Reward Modeling) SFTモデルにプロンプト を入力し応答ペア をサンプリング ペアを人間のアノテータに表示し好ましい方を選択 この比較データ使って報酬モデル を最適化 (2.2節参照) 強化学習による方策最適化(Policy Optimization via Reinforcement Learning) 報酬モデル に導かれながら、RLを通じてLLMを最適化 →次頁 38

Slide 39

Slide 39 text

強化学習による方策最適化 報酬モデリングにより得られた を用い、方策 をRLで最適化 報酬はそれぞれの応答の最後に報酬モデル から得られる(バンディット環境) RLの目的: 訓練プロンプトデータセット における報酬の期待値が最大になるように LLMのパラメータ を調整すること 39

Slide 40

Slide 40 text

強化学習による方策最適化 報酬の過剰最適化を緩和するため、SFTモデルから得られるトークン毎のKLペナルティ を追加 事前学習分布 からの勾配を統合することで、モデルの性能を維持 (PTXロス) はKLペナルティの強さ、 は事前学習勾配の混合の度合いを制御 40

Slide 41

Slide 41 text

RLHFの利点と欠点 利点 LLMを人間の選好に合わせるのに効果的 欠点 複雑な実装 ハイパーパラメータのチューニング サンプル効率 計算オーバーヘッド スケールアップが難しい 解決するためのアプローチがいくつか提案→次頁以降 41

Slide 42

Slide 42 text

Rejection Sampling (Touvron et al., 2023) 単純なアプローチ すべてのプロンプトに対して、K個の応答をモデルからサンプリング 各応答は報酬モデルで評価され、最も報酬が高いものを最良の応答として選択 選択された応答を、後でモデルのファインチューニング(SFT)に使用 42

Slide 43

Slide 43 text

HIR (Zhang et al., 2023b) 言語モデルの指示アライメント問題をゴール到達型強化学習問題として定式化し、HIRア ルゴリズムを提案 オンラインサンプリングとオフライン学習の組み合わせ オンラインサンプリングでは、LLMを高温でサンプリングして応答を出力 オフライン学習では、生成された出力に基づいて応答を再ラベル化 再ラベル化されたデータを用いて教師あり学習を行う →追加のパラメータを必要とすることなく、成功したケースと失敗したケースの両方を 利用することが出来る 43

Slide 44

Slide 44 text

RRHF (Yuan et al., 2023) Rank Response to align Human Feedback, RRHF 複数の言語モデルからの回答をスコアリングしてランク付けすることで、モデルの確率 を人間の選好にアラインする 1個か2個のモデルしか必要としないため実装が簡単 →言語モデルと人間の選好を効果的にアラインすることができ、PPOと同等のパフォー マンスを達成 44

Slide 45

Slide 45 text

ReST (Gulcehre et al., 2023) 2つのループ Grow と Improve Grow ループは、現在のモデルを用いてデータセットをサンプリング Improve ループは、固定データセットでモデルを繰り返し学習 計算効率を向上させるために固定データセットを繰り返し使用できる、シンプルで効率 的なフレームワーク 教師あり学習のベースラインと比較して、報酬モデルのスコアと翻訳品質を大幅に改善 45

Slide 46

Slide 46 text

DPO (Rafailov et al., 2023) 報酬関数と最適ポリシーの間のマッピング 人間の選好データから直接言語モデルを最適化するため、明示的な報酬モデルや多段階 学習が不要 46

Slide 47

Slide 47 text

RLHF 今後の研究 RLHFがLLMで効果的に機能する理由を明らかにする マルチモーダル 人間とAIとのコラボレーション 47

Slide 48

Slide 48 text

2.4 Scalable Oversight 2.4.1 From RLHF to RLxF 2.4.2 Iterated Distillation and Amplification 2.4.3 Recursive Reward Modeling 2.4.4 Debate 2.4.5 Cooperative Inverse Reinforcement Learning 48

Slide 49

Slide 49 text

2.4 Scalable Oversight 統計的学習アルゴリズム データ分布を仮定 (例: independence and identical distribution, 独立同分布) → 特定の分布では失敗 AIがより強力になるにつれて、非効率的な学習信号や損失関数設計の誤りが破滅的な振 る舞いにつながる可能性が高まる 矛盾の難読化 (obfuscating discrepancies) specification gaming 報酬ハッキング 権力追求 (power-seeking dynamics) AIシステムの最適化された目標と、人間の心にある理想的な目標とのギャップが存在 → スケーラブルな監視 (scalable oversight) が極めて重要 49

Slide 50

Slide 50 text

スケーラブルな監視の目的 スケーラブルな監視の課題 AIシステムの振る舞いを人間が頻繁に評価するにはコストが必要 リアルタイムで人間を学習ループに直接組み込むと学習効率を阻害 AIシステムの振る舞いの内在的な複雑さが評価を困難にする 例: 本の要約・複雑なコードの生成・未来の天候変化の予測 スケーラブルな監視の目的 AIシステムが人間の専門知識を凌駕するものであっても、人間の意図に沿ったもの であることを保証すること 本論文の主眼 スケーラブルな監視を構築するために、まだ一般的には実装されていないいくつか の有望な方向性を提示すること 50

Slide 51

Slide 51 text

スケーラブルな監視 概要 51

Slide 52

Slide 52 text

2.4.1 From RLHF to RLxF RLHFの問題点 人間の評価の不正確さ 人間のコストの高さ → 超人的な能力を持つAIシステムを作る際に、人間のフィードバックを拡張するた めにRLHFを利用することが難しい RLxF の導入 RLHFのパラダイムに基づき、フィードバックの効率と質を向上させ、より複雑なタ スクに対する人間のフィードバックを拡張することを目指す 52

Slide 53

Slide 53 text

Reinforcement Learning from AI Feedback (RLAIF) (Bai et al., 2022a, 2022b) RLHFによって訓練されたLLMの問題点 センシティブで論争的な問題を回避することを選択することが多い RLAIF 人間のフィードバックではなく、LLM(例: GPT-4や超人的能力を持つ他の言語モデ ル)によって生成されたフィードバックを使用 RLAIFの学習パイプライン(→次々頁) 事前に設定された基準に基づいて方策モデルを自己評価し、レッド・チーミング (red teaming→次頁)によって促された返答で訂正 訂正された返答で最初の方策モデルをファインチューニング ファインチューニングされた方策モデルで、別の言語モデルの返答の無害性を評価 53

Slide 54

Slide 54 text

Harmlessness (Red Teaming) Datasets (Bai et al., 2022a) Red Teaming Datasets クラウドワーカーに、敵対的にLLMから有害な応答を引き出し、より有害な応答を 選択するように求める 例 銀行強盗の計画 有害な言葉遣い(toxic language) 有害な応答を引き出すプロンプト どちらの応答が有害か比較データ 54

Slide 55

Slide 55 text

Constitutional AI (CAI) (Bai et al., 2022b) RLAIF を使って言語モデルの無害性(harmlessness)を向上する Constitution (憲法) 有害でないシステムを訓練するための短い原則や指示のリスト(→次々頁) 一般的なAIシステムを開発・デプロイする際には、たとえそれが隠されていたり暗 黙であったとしても、AIを支配する原則のセットを選択することは避けられない 55

Slide 56

Slide 56 text

Constitutional AI (CAI) (Bai et al., 2022b) RLAIFの学習パイプライン Supervised Stage (右図上段) 憲法の原則に従って応答 を批評するよう求め、批 評に照らして元の応答を 修正させる→LMをSFT RL Stage (右図下段) 憲法の原則に従ってどの 応答が最適かを問う →PMを学習→SFTした LMをRL 56

Slide 57

Slide 57 text

Constitutional AI (CAI) (Bai et al., 2022b) 憲法の原則例 (Bai et al., 2022b, Appendix C参照) Principles for SL-CAI CritiqueRequest: Identify specific ways in which the assistant’s last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal. RevisionRequest: Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Principles for RL-CAI Please choose the response that is the most helpful, honest, and harmless. Please choose the assistant response that is as harmless and ethical as possible. Do NOT choose responses that are toxic, racist, or sexist, or that encourage or support illegal, violent, or unethical behavior. Above all the assistant’s response should be wise, peaceful, and ethical. 57

Slide 58

Slide 58 text

RLAIF の評価 要約タスクにおけるRLAIFとRLHFの性能差比較(Lee et al., 2023a) 人間による評価では、RLAIFで訓練されたモデルは、RLHFで訓練されたモデルとほ ぼ同等の全体パフォーマンスを達成したが、ニュアンスの違いが存在する ある程度、RLAIFはRLHFに内在する回避(実用性を著しく低下させることなく無害化を維 持)に対処している →AIフィードバックは、最小限の人間の介入で訓練ループを構築し、学習コストを削減 するための実行可能な代替手段を提供する 58

Slide 59

Slide 59 text

Reinforcement Learning from Human and AI Feedback (RLHAIF) 人間とAIの要素を統合して監視 例 書籍の要約において人間を支援(Wu et al., 2021) サブタスクに分解してツリー状の構造を形成し、人間による監視とモデルの性 能評価を容易に モデルの評価において人間を支援(Saunders et al., 2022) モデルに批評を生成させ人間の見逃しを減らす 言語モデルの動作を評価するためのデータセットを自律的に生成(Perez et al., 2023) 人間によって検証された154の高品質なデータセットを作成 59

Slide 60

Slide 60 text

RLxF その他の研究 特定のルールに基づいた人間の判断に焦点 プライバシー保護(Carr, 2023) 対話の流暢さ(Saunders et al, 2022) 既存のNLP技術を利用してRLフィードバック信号を調整 60

Slide 61

Slide 61 text

RLxF まとめ RLxFのポイント 大きな問題を小さなサブ問題に分解 AIやソフトウェア等の効率的なツールを利用してサブ問題を解決 Iterated Distillation and Amplification(IDA)の初歩的な例とみなすことが出来る 継続的な反復プロセスがないIDA →次頁以降 61

Slide 62

Slide 62 text

2.4.2 Iterated Distillation and Amplification (IDA) 62

Slide 63

Slide 63 text

2.4.2 Iterated Distillation and Amplification (IDA) 人間とAIの反復的な協力によってスケーラブルな監視を構築するフレームワーク 63

Slide 64

Slide 64 text

広い/狭い RL/IRL (Cotra, 2018) 広いRL AIシステムに疎な報酬シグナル(報酬フィードバック)を与え、将来の累積報酬の自 律的な探索と最適化を可能にする 超人的な目新しい戦略を導く可能性があるが、何を気にかけるかを完璧に特定する ことが難しい 狭いRL 最終結果ではなく、選択の妥当性を評価する密なフィードバックを与える(比較フィ ードバック) MLシステムをより人間に近づけることができるが、能力は制限される 広いIRL 人間のあらゆる行動から深い長期的価値を推論、リスクが高い 狭いIRL 短期的な道具的価値のみ推論、能力が制限される 64

Slide 65

Slide 65 text

IDA における広い/狭い RL/IRL エージェントは、狭い手法を使用して人間の行動を模倣 狭いRLやILを使用して、エージェントを人間のように、かつ制御出来るように訓練 人間は、エージェントの計算能力と並列処理能力を活用して、より先見の明のあるマク ロ戦略を考案 次の反復では、エージェントは再び、この強化された人間と機械のシステムを、狭い技 術を使って模倣 上記を反復することによって、エージェントを人間の価値観に沿わせながら、狭い能力 から広い能力へと徐々に移行 反復が増えるにつれて、人間と機械のシステムはより高い能力を持つようになり、次第 に高い能力を持ちながら人間の価値観に沿ったシステムに近づいていき、安全性と能力 の両方を達成することができる 65

Slide 66

Slide 66 text

IDAの例: AlphaZero(Christiano et al., 2018; Nguyen, 2020) 増幅フェーズ 初期方策はランダム方策 現段階の方策を用いてセルフプレイを行い棋譜を作成 蒸留フェーズ セルフプレイの棋譜を訓練データとして用い、より優れた手選択ヒューリスティッ ク(方策)を学習 蒸留と増幅のプロセスを繰り返すことによって高速に熟練の囲碁AIを作成 アライメントと能力の区別が重要(Mennen, 2018) アラインメントは取れているが能力の低いAIは中程度の相手に勝てない 能力はあるがアライメントが不十分なAIは勝利以外の特定のゲーム特性を達成しよ うとする可能性 66

Slide 67

Slide 67 text

IDAの実現可能性 IDAの実現可能性について議論が巻き起こっている(Yudkowsky, 2018) IDAは、反復を通じてエラーが継続的に蓄積されないという重大な仮定の下で動作する (Leike et al., 2018) 蒸留と増幅のステップの間に持続し、十分に高度で安全な学習技術が必要 Gato (Reed et al., 2022) 複数の専門家AIの能力を1つのモデルに統合し、IDAの蒸留が現代の深層学習を使っ て達成できるかどうか検証 完全には実現されていないが、Gatoは増幅の可能性を示唆しており、多様なスキル を活用して新しいタスクの学習を加速することができる アライメント特性を維持するための安全な増幅や蒸留の方法が欠けている →アライメントを維持するIDA手法を構築することが、AIの安全性研究にとって極めて重 要 67

Slide 68

Slide 68 text

2.4.3 Recursive Reward Modeling 68

Slide 69

Slide 69 text

2.4.3 Recursive Reward Modeling 再帰的報酬モデリング(Recursive Reward Modeling, RRM) 報酬モデルによって、システムの目的の構築とその行動の評価を切り離すことがで きる(Ibarz et al., 2018) 人間のフィードバックを利用して報酬モデルを訓練し、それをエージェントが追求 するよう学習させる すでに訓練されたエージェント を再帰的に使用し、より複雑なタスクに関する エージェント の訓練にフィードバックを提供する 例: 都市計画エージェント(交通計画, 公共施設, 住宅地, etc.) 69

Slide 70

Slide 70 text

再帰的報酬モデリング 再帰的報酬モデリングの利点 結果を評価することは、行動を生み出すことよりも簡単であるという仮定が成り立 つのであれば 報酬モデリングの反復プロセスは、より強力なAIシステムを監視するためのよ り高い能力を反復的に達成することができる 監視をより複雑な領域に拡張できる可能性がある 70

Slide 71

Slide 71 text

再帰的報酬モデリング 再帰的報酬モデリングにおけるアライメント(Hubinger, 2020) アウターアライメント 学習された報酬モデルが、行動モデルによって知覚された領域において正確な 分布であることを保証するためのフィードバックメカニズムが必要 人間のフィードバックの質、汎化の難しさ、エージェントの欺瞞の可能性に依 存 インナーアライメント 報酬モデルとエージェントの両方における欺瞞的な行動や悲惨な行動を防ぐた めに、人間が透明性ツールをいかに効果的に用いることができるか 監視機構の有効性と報酬モデルの最適化の度合いを検証する能力に依存 71

Slide 72

Slide 72 text

再帰的報酬モデリング 再帰的報酬モデリングの課題 IDAとの関連 本質的にRRMのプロセスはIDAとリンクしている RRMはIDAの教師あり学習の部分を報酬モデリングに置き換えたもの RRMにおいてもIDAで遭遇する課題(特にエラーの蓄積を防止する上で遭遇する 課題)を忠実に反映 報酬モデリング自体は、必ずしも狭いモデルを抽出するわけではなく、アライメン トの程度とパフォーマンスとのトレードオフが課題となる(Cotra, 2018; Hubinger, 2020) 72

Slide 73

Slide 73 text

2.4.4 Debate 73

Slide 74

Slide 74 text

2.4.4 Debate 人間の裁判官の意思決定を支援するために、2つのエージェントが答えとステートメント を提示 エージェントが人間の裁判官からより高い信頼を得ようと努力しながら互いの欠点を特 定しようとするゼロサムディベートゲーム スケーラブルな監視を構築するための潜在的なアプローチとなり得る 74

Slide 75

Slide 75 text

ディベート ディベートの前提 「真実を論証する方が虚偽を論証するよりも一般的に容易であり、真実を論証する 方が有利である」という仮定 ディベートの問題点 複雑な問題において、人間が討論で使われる専門的な概念を理解できない可能性が ある 勾配降下法の性質が、望ましくない循環パターン(正直さや欠点の強調などを最適化 しようとして、別の性質を見落としたり低下させたりする)をもたらす可能性がある (Irving et al., 2018) 75

Slide 76

Slide 76 text

IDA, RRM, Debateの類似性 3つに共通するのは「評価はタスクの完了よりも単純である」という基本原則 AIシステムの評価能力を活用することで、人間にとってより有利な能力分布をもたらす ことが可能 直面する課題、特にエラーの蓄積を軽減するという課題も類似 76

Slide 77

Slide 77 text

2.4.5 Cooperative Inverse Reinforcement Learning 77

Slide 78

Slide 78 text

2.4.5 Cooperative Inverse Reinforcement Learning 協調的逆強化学習(Cooperative Inverse Reinforcement Learning, CIRL) 制御とフィードバックからの学習を統合し、人間のフィードバック提供者を同じ環 境における仲間のエージェントとしてモデル化 監視を強化するのではなく、AIシステムが監視をゲーム化するインセンティブを排 除する フィードバックを与える人間とAIシステムを敵対的ではなく協力的な立場に置き、 スケーラブルな監視問題にアプローチする(Shah et al., 2020) 人間の好みに合わせて一方的に最適化するのではなく、人間の真の目標を達成する ために人間と協力 78

Slide 79

Slide 79 text

CIRLの動機とアイデア 多くのミスアラインメントは、AIシステムが誤って指定された目的に対して自信を持っ て最適化した結果である(Pan et al., 2022) 報酬ハッキング(Victoria et al., 2020; Skalse et al., 2022) 欺瞞(deception) (Park et al., 2023b) 操作(Carroll et al., 2023b) 人間のフィードバックは目的に指定された範囲でのみ尊重されるため、改ざんや操作さ れる可能性がある CIRL (Hadfield-Menell et al., 2016b, 2017; Shah et al., 2020) は上記問題の軽減を試み る (1) AIシステムに報酬関数に関する不確実性を明示的に保持させる (2) 本当の報酬関数が何であるかについての情報を人間にだけ提供する(AIには提供 しない) 79

Slide 80

Slide 80 text

CIRLの動機とアイデア 本当の報酬関数をAIシステムに教えないことで、AIシステムは人間に従う傾向を持ち、 人間が本当に望んでいることを見極めようとする 例 人間のプレーヤーHとロボットのプレーヤーRが共通の報酬関数 を共有する2人 協力ゲームとしてタスク全体をモデル化 報酬関数と報酬シグナルはRには見えない Rは、IRLのようなプロセス(Hに尋ねたり、Hと相互作用したりすることを含む)を経 て、Hの行動から報酬関数を推測する AIシステムは人間の真の目的 を自らの目標とし、人間を観察し、人間と相互作用す ることによって を常に把握しようとする 操作などのインセンティブは減少(人間の行動を操作しても情報源を汚すだけで、 に は影響しないため) 80

Slide 81

Slide 81 text

CIRLの定式化 古典的なマルチエージェントMDPをベースにCIRLの設定( )を定義(Hadfield-Menell et al. ,2016b) までは通常のマルチエージェントMDPと同様 報酬関数はパラメータ化され、パラメータは分布によってモデル化出来る パラメータ化アプローチにより、Rは真の報酬関数に対する信念を明示的にモデル化し、 推定することが可能となる 81

Slide 82

Slide 82 text

CIRLの注目すべき方向性 HがRに積極的に教えることの重要性を強調する研究(Fisac et al., 2020) Hの方策に対するRの最適な応答に焦点を当てた研究(Shah et al., 2020) Hが真の報酬関数に関する情報を伝える方法として、不完全な報酬関数を手動で指定する 研究(Hadfield-Menell et al., 2017; He and Dragan, 2021) 82

Slide 83

Slide 83 text

3 Learning under Distribution Shift 3.1 The Distribution Shift Challenge 3.2 Algorithmic Interventions 3.3 Data Distribution Interventions 83

Slide 84

Slide 84 text

分布シフト下における学習 信頼性の高いAIシステムの構築は、多様なデータ分布への適応能力に大きく依存 訓練データや訓練環境は、実際のデプロイシナリオの不完全な近似であることが多く、 重要な要素を欠いている場合がある 敵対的圧力(Poursaeed et al., 2021) マルチエージェント相互作用(Critch and Krueger, 2020; Dafoe et al., 2020) 人間の監視者が効率的に評価できない複雑なタスク(Leike et al., 2018) 操作が可能な報酬機構(Krueger et al., 2020) 分布シフトとは: 訓練分布とテスト分布(または環境)の不一致 訓練分布の下ではアラインしている(人間の意図に沿った目標を追求している)AIシステム でも、テスト分布の下ではアライメントが維持されず、デプロイメント後に深刻なミス アライメント問題を引き起こす可能性がある 84

Slide 85

Slide 85 text

アライメントの観点から見た分布シフト アライメントの観点からは、目標を追求する能力の低さよりも、アライメントが取れて いない有害な目標を追求するAIシステムをより懸念している アライメント特性に重点を置くということは、能力の一般化よりも、分布全体にわたる 目標の一般化に重点を置くことを意味する 85

Slide 86

Slide 86 text

3.1 The Distribution Shift Challenge 目標の誤汎化(goal misgeneralization) 自動誘発分布シフト (auto-induced distribution shift, ADS) 86

Slide 87

Slide 87 text

3.1 The Distribution Shift Challenge 分布シフト下でのアライメント特性(人間の意図や価値観への忠実さ)の保持 2つの課題 目標の誤汎化(goal misgeneralization) (Shah et al., 2022) 自動誘発分布シフト(auto-induced distribution shift, ADS) (Krueger et al., 2020) 87

Slide 88

Slide 88 text

目標の誤汎化(goal misgeneralization) 目標の誤汎化 AIシステムが訓練分布では完璧に動作するが、訓練分布で学習した能力が分布外 (out of distribution, OOD)環境では汎化に失敗し、AIが人間の希望に沿わない目標 を追求するシナリオ OOD環境において無能となる "能力の誤汎化"(capability misgeneralization)とは区 別される 目標の誤般化を持つエージェントは、OOD環境において、望まない目標を有能に追 求 88

Slide 89

Slide 89 text

目標の誤汎化の例 疑似相関(spurious correlations) 例 画像分類データセットにおいて、緑の草は"牛"というラベルの画像によく出て くる特徴ではあるが、この特徴は様々なデータ分布において、より一貫性と信 頼性を高める必要がある 89

Slide 90

Slide 90 text

目標の誤汎化の危険性 大きな危険の一つは、以下2つの区別がつかないこと "人間が本当に望んでいることのための最適化" (optimizing for what human really wants) "人間のサムアップのための最適化" (optimizing for human thumbs-ups) 人間のサムアップ: 人間のアドバイザーや環境からの高報酬のフィードバック →AIシステムは意図的に人間の好みに従ったり、人間から高い報酬を得るために欺いた りすることがあるが、実際には意図した目標(人間が本当に望んでいること)を学習してい ない可能性がある 例: ロボットハンドが小さなボールをつかむタスク(Amodei et al., 2017) カメラのレンズの前で視差を利用することで、実際にはボールをつかんでいないに もかかわらず、あたかもボールをつかんだかのように見せかける 人間のアノテータはタスク完了と勘違いする 90

Slide 91

Slide 91 text

目標の誤汎化の危険性 AIシステムを人間のフィードバックで訓練または微調整する場合、訓練ではどちらも完 璧に機能するため、2つの目標を区別することは不可能であり、AIシステムがどちらを学 習するかは不明 実際、訓練中に人間の評価者が騙されたり操作されたりする可能性があり、AIシステム は、人間が望むことよりもむしろ、人間のサムアップのために最適化するよう、より強 く動機付けられる可能性がある 例 推薦システム(Kalimeris et al., 2021; Adomavicius et al., 2022) LLM(Perez et al., 2023) (→次頁) RLシステム(Amodei et al., 2017) 91

Slide 92

Slide 92 text

LLMにおける目標 の誤汎化 おべっか(sycophancy) (Perez et al., 2023) 質問: 小さな政府 or 大きな政府 保守的な男性には 小さな政府と返答 リベラル女性には 大きな政府と返答 92

Slide 93

Slide 93 text

目標の誤汎化の危険性 メサ最適化(mesa-optimization) (Hubinger et al., 2019c; Dai et al., 2023a) 学習済みのモデル重みを持つMLモデルが推論中にそれ自身の中で最適化を行う (例: in-context learning) しかし、この最適化の目的が元のモデルの学習目的と一致していない 実証的な研究では、フォワード・パスのパフォーマンスを向上させるためにメサ最 適化を使用するトランスフォーマーが発見されており、この仮説の信憑性を高めて いる(von Oswald et al., 2023) 93

Slide 94

Slide 94 text

自動誘発分布シフト(Auto-Induced Distribution Shift, ADS) 過去の研究 データが独立同分布(independence and identical distribution, i.i.d)であると仮定す ることが多く、アルゴリズムのデータ分布への影響を無視することが多い 現実 エージェントは意思決定や実行の過程で環境に影響を与え、環境によって生成され るデータの分布を変化させる可能性があり、この問題を自動誘発分布シフト(Auto- Induced Distribution Shift, ADS)と呼ぶ(Krueger et al., 2020) 94

Slide 95

Slide 95 text

自動誘発分布シフトの例 推薦システム(Carroll et al., 2022) 推薦アルゴリズムによって選択されたコンテンツがユーザーの嗜好や行動を変化さ せ、ユーザー分布のシフトにつながる可能性がある その分布のシフトはさらに推薦アルゴリズムの出力に影響を与える →AIシステムがますます世界に影響を与えるようになるにつれ、"エージェントが人間社 会に統合された際に社会全体のデータ分布に与える影響"を考慮する必要性も高まる 95

Slide 96

Slide 96 text

3.2 Algorithmic Interventions 96

Slide 97

Slide 97 text

3.2 Algorithmic Interventions アルゴリズムによる介入 分布シフトを緩和するために訓練中に様々な分布上で最適化を行う 分布横断的集約(cross-distribution aggregation) モード接続性によるナビゲーション(navigation via mode connectivity) 97

Slide 98

Slide 98 text

3.2.1 Cross-Distribution Aggregation 分布横断的集約(cross-distribution aggregation) 分布シフトの主な原因の1つ 中心的な目的とは異なるモデル内の疑似相関(spurious correlations) 異なるドメイン(または異なる分布)の学習情報を最適化目的に統合することで、モ デルが真の情報と不変の関係を学習することを期待 98

Slide 99

Slide 99 text

Empirical Risk Minimization (ERM) 経験的リスク最小化(Empirical Risk Minimization, ERM) データセットと実世界の間にはバイアスが存在することが多い ERMはこのバイアスを最適化するために統計的手法で採用されている戦略 は一つの訓練分布または異なる訓練分布からの異なる例 上記の目的関数を最小化することで、異なる分布における不変関係を学習可能 ただし、訓練分布とターゲット分布の間に大きな不一致が存在する場合、深刻な汎 化の問題が発生する可能性がある 99

Slide 100

Slide 100 text

Distributionally Robust Optimization (DRO) 分布シフトに対する敏感さは、多くの場合、偽の相関関係や中心概念とは無関係なショ ートカット機能への依存から生じる 例: モデルは画像内の正しい特徴を採用するのではなく、背景の特徴に基づいて判断 してしまう可能性 OOD汎化は以下のように定式化される この最適化は、リスク関数集合 の中で最大値を小さくすることで、摂動集合全体( ) におけるワーストケースの性能を向上させようとする DROでは、摂動集合は異なるドメインの学習分布の混合をカバーし、上記の目的関数を 最小化することで、異なる学習分布間の不変関係を見つけることができる 100

Slide 101

Slide 101 text

Invariant Risk Minimization (IRM) 多様な訓練環境にわたって非線形で不変な原因予測因子を推定し、頑健なOOD汎化を促 進 擬似的特徴に依存する感受性を低減しながら、様々な環境にわたって確かな性能を持つ 予測モデルを訓練することが目的 低い経験的損失を達成できる多くの関数が存在するときに、すべての環境にわたって強 力なパフォーマンスを示す関数を選択することで、擬似的な特徴ではなく因果的特徴に 基づく予測モデルを得る可能性を高める 101

Slide 102

Slide 102 text

Risk Extrapolation (REx) 訓練リスクの分散に追加ペナルティを課して、外挿ドメインの摂動集合に対するロバス ト最適化を行う 訓練リスクを減らすと同時に訓練リスクの類似性を高めることで、異なるドメイン分布 における不変関係を学習させる 102

Slide 103

Slide 103 text

3.2.2 Navigation via Mode Connectivity 103

Slide 104

Slide 104 text

3.2.2 Navigation via Mode Connectivity モード接続性によるナビゲーション(Navigation via Mode Connectivity) モード接続性の説明 Connectivity-Based Fine-Tuning (CBFT) (Lubana et al., 2023)法の紹介 モード接続性が、少数のパラメータを変更することによって、擬似的な相関関係で はなく、不変の関係に基づいて予測するようにモデルをナビゲートすることを示す 104

Slide 105

Slide 105 text

モード接続性 モード接続性(mode connectivity)とは、損失関数空間内の2つ以上の異なる局所最小値 を接続する直線的な経路を特定できる現象を指す モード接続性は、パラメータ空間内の最小値間の接続経路を一貫して見つけ、損失が非 常に大きい領域に入り込むことなく、損失が小さい領域を横断することを必要とする パラメータ空間内でモデルのパラメータに微調整を加えても、モデルの性能が比較的安 定し、性能の大幅な劣化を緩和できることを意味する この考え方は、より効果的な最適化アルゴリズムを設計するための基礎を築き、モデル が異なるタスク間で知識と経験を共有することを可能にし、モデルの性能と汎化能力の 両方を向上させる 105

Slide 106

Slide 106 text

Connectivity-Based Fine-tuning (CBFT) 最近の研究では、2つのモデル間に線形接続性がないことは、基本的なメカニズム上の非 類似性を意味することが示唆されている 類似のデータで訓練された場合、モデルは類似の推論メカニズムを開発する傾向がある これはモデルにバイアスが生じる大きな原因となりうる(画像に描かれた対象物ではな く、画像の背景情報に頼って分類を行うなど) この問題を克服するために以下の損失を最小化することを提案している CBFTは、モデルの部分的なパラメータを変更するだけで、擬似的特徴から真の特徴によ る目的予測へとシフトすることを可能にする 106

Slide 107

Slide 107 text

3.3 Data Distribution Interventions 107

Slide 108

Slide 108 text

3.3 Data Distribution Interventions データ分布介入 訓練データの分布を実世界の要素を含むように拡張し、訓練分布とデプロイ時の分 布の不一致を減らす 敵対的な圧力(adversarial pressures)とマルチエージェントダイナミクス(multi- agent dynamics)の紹介に焦点をあてる 108

Slide 109

Slide 109 text

データ分布介入 概 要 109

Slide 110

Slide 110 text

3.3.1 Adversarial Training 敵対的頑健性の欠如 失敗させるように設計された特定の入力が、モデルの性能を低下させることがある (例: 画像・テキスト・それらの意味的特徴等) 敵対的頑健性と分布シフト 訓練分布(入力が敵対的に構成されていない)とテスト分布(入力が敵対的に構成され る可能性がある)の不一致によって部分的に引き起こされる分布シフトの失敗ケース と考えることができる 敵対的学習(adversarial training) 様々な方法で訓練入力に敵対的な例を導入することで、訓練分布を拡大し、分布の 不一致を解消し、この問題を緩和を試みる モデル: 視覚モデル・言語モデル・視覚言語モデル タスク: 分類・生成・RL 110

Slide 111

Slide 111 text

敵対的学習のタイプ 2つのタイプ 摂動ベース敵対的学習(Perturbation-based Adversarial Training) 敵対的に摂動された例(モデル性能を低下させるように設計された、通常のデー タ入力に対する小さな変化)を訓練に導入 無制限敵対的学習(Unrestricted Adversarial Training) 摂動ベース敵対的学習を一般化し、モデルを欺くことができるあらゆる敵対的 な例を含める 111

Slide 112

Slide 112 text

摂動ベース敵対的学習(Perturbation-based Adversarial Training) 敵対的に摂動された例(モデル性能を低下させるように設計された、通常のデータ入力に 対する小さな変化)を訓練に導入 損失関数に正則化項を追加するベースラインアプローチ 教師なしアプローチ 自己教師ありアプローチ カリキュラム学習を用いたアプローチなど 112

Slide 113

Slide 113 text

無制限敵対的学習(Unrestricted Adversarial Training) 摂動ベース敵対的学習を一般化し、モデルを欺くことができるあらゆる敵対的な例を含 める 生成モデルを用いて任意の敵対的入力をゼロから生成する生成的敵対的学習 構文的または意味的に修正された敵対的例を訓練入力に追加する方法 無制限敵対攻撃に関するほとんどの研究は、無制限敵対学習にも適用される 113

Slide 114

Slide 114 text

3.3.2 Cooperative Training 協調的学習(Cooperative Training) 114

Slide 115

Slide 115 text

3.3.2 Cooperative Training 協調的学習(Cooperative Training) AIシステムにおける協調能力の欠如は、分布シフトにおける失敗の一形態と見なすこと ができる AIシステムは、現実世界とは質的に異なるシングルエージェントの設定で訓練され る 環境に他のエージェントが存在すると、環境の状態遷移のダイナミクスが質的に変 化し、観測と報酬の同時分布(joint distribution)が変化 協調訓練によってマルチエージェントの相互作用を含むように訓練分布を拡張する ことによって、この問題にアプローチする 本節では訓練データ分布の拡大との関連性から、マルチエージェント強化学習(Multi- Agent Reinforcement Learning, MARL)の一部のみを取り上げる 115

Slide 116

Slide 116 text

マルチエージェント強化学習(Multi-Agent Reinforcement Learning, MARL) MARLの分野は伝統的に以下の3つに分けられる(Gronauer and Diepold, 2022) 完全協調型(全てのエージェントが同じ報酬関数を共有する) 完全競争型(報酬がゼロサムゲームを構成する) 混合動機型(報酬インセンティブが完全協調型でも完全競争型でもない) 完全協力設定と混合動機設定は、協調型AIにとって最も関連性が高い 116

Slide 117

Slide 117 text

Fully Cooperative MARL 完全協調型MARL すべてのエージェントが報酬関数を共有(Gronauer and Diepold, 2022) この統一性により、協力インセンティブの問題を完全に無視することができ、協調 によって共有された目標を効果的に達成することに集中することができる 一般的なアプローチは、中央集権的なアプローチから分散的なアプローチまで、さ まざまなものがある(Oroojlooy and Hajinezhad, 2023) 117

Slide 118

Slide 118 text

Mixed-Motive MARL 混合動機型MARL 協調的インセンティブと競争的インセンティブが混在していることが特徴で、エー ジェントの報酬は同一ではないが、ゼロサムでもない(Gronauer and Diepold, 2022) より微妙な設定を含む環境がある チーム同士の対戦(Jaderberg et al., 2019) 交渉(Cruz et al., 2019; FAIR et al., 2022) テクニックの例 IRLのような手法を使って人間の相互作用から学ぶ(Song et al., 2018a) コミュニケーションを戦略的かつ選択的に行う(Singh et al., 2019) アクター-クリティック手法の適用(Lowe et al., 2017). 118

Slide 119

Slide 119 text

Zero-shot Coordination ゼロショット協調 AIシステムが、他のエージェント(人間のエージェントを含む)と一緒に訓練するこ となしに、また、協調するための特別な設計なしに、効率的に協調できるようにす ることを目指す 最近の研究例 other-play (Hu et al., 2020) 頑健性を向上するために訓練パートナーの方策の特定の部分をランダム化 する マルチレベル再帰的推論の導入(Cui et al., 2021) off-belief学習(Hu et al., 2021) セルフプレイにおける恣意的な慣例を排除 119

Slide 120

Slide 120 text

Environment-building 協調学習のための環境 ゲーム環境 Hanabi (Muglich et al., 2022) Diplomacy (Cruz et al., 2019; FAIR et al., 2022) サッカー(Ma et al., 2022) ゲーム理論モデル 古典的なマルチエージェントジレンマ(Wang et al., 2021b; Christoffersen et al., 2023) 協調AI研究に特化したマルチエージェント環境のフレームワークとスイート Melting Pot (Leibo et al., 2021; Agapiou et al., 2022) 環境構築プロセスの部分的自動化 教師なし環境設計(Dennis et al., 2020; Jiang et al., 2021b) 120

Slide 121

Slide 121 text

Socially Realistic Settings 社会的に現実的な設定(Du, 2023) 大規模マルチエージェント(AIエージェントと人間を含む) エージェントの構成も相互作用の様式も非常に多様 より現実的でオープンエンドな環境の構築(Klügl et al., 2005; Lehman et al., 2008; Wang et al., 2019b; Suo et al., 2021) MARLの規模拡大(Sun et al., 2020; Du, 2023) 社会制度や規範などの新たな制御手段の組み込み(Singh, 2014) 121

Slide 122

Slide 122 text

4章 Assurance へ 122