AI Alignment: A Comprehensive Survey

Slide 1

Slide 1 text

AI Alignment: A Comprehensive Survey 第2章 Learning from Feedback 第3章 Learning under Distribution Shift Jiaming Ji et al., 2023. arXiv preprint arXiv:2310.19852 https://arxiv.org/abs/2310.19852 第99回汎用人工知能輪読会 2024/1/19 担当: 太田晋 1

Slide 2

Slide 2 text

北京大学のグループが中心 2023年10月にarXivに投稿 (2024/1/2にv3が投稿) arXiv preprint arXiv:2310.19852 https://arxiv.org/abs/2310.19852 2

Slide 3

Slide 3 text

アライメントサイクルフォワードアライメントアライメント要件に従う学習済みシステムを生成第2章: フィードバックからの学習第3章: 分布シフト下での学習バックワードアライメント学習済みシステムの実用的なアライメントを保証第4章: 保証第5章: ガバナンス 3

Slide 4

Slide 4 text

担当部分第2章: フィードバックからの学習第3章: 分布シフト下での学習 4

Slide 5

Slide 5 text

第２章目次 2 Learning from Feedback 2.1 Feedback Types 2.2 Preference Modeling 2.3 Policy Learning 2.4 Scalable Oversight 5

Slide 6

Slide 6 text

2 Learning from Feedback 目的: フィードバックを用いて人間の意図や価値観をAIシステムに伝えること要素 AIシステム: アラインメントが必要な対象フィードバック: 人間・AI・AIの支援を受けた人間から提供される情報プロキシ: フィードバックをモデル化するために開発されたモデル(例: RLHFの報酬モデル) 学習経路: 直接学習と間接学習 6

Slide 7

Slide 7 text

2.1 Feedback Types フィードバックの定義人間の意図に沿うようにAIシステムに与えられる情報 3種類のフィードバック形式報酬 (reward) デモンストレーション (demonstration) 比較 (comparison) 7

Slide 8

Slide 8 text

報酬フィードバック定義 AIシステムの1つの出力に対する独立した絶対評価スカラースコア行動調整における直接的なガイダンス通常は、事前に設計されたルールベースの関数から発生例健康な状態を維持前方移動の推奨制御の労力を最小化接触強度の調整 8

Slide 9

Slide 9 text

報酬フィードバックの利点と欠点利点設計者が最適な振る舞い(behavior)を定義する必要がない最適な方策(policy)の探索が可能欠点 AIシステムの出力を評価する完璧なルールを作ることが困難 AIシステムの出力それぞれに直接スコアを割り当てることが困難報酬設計の困難さタスクの内在的な難しさに起因報酬設計の欠陥や不完全さは設計者の意図とずれた危険な行動を引き起こす可能性 (例: ネガティブな副作用・報酬ハッキング) アライメントにおける報酬フィードバックの最も重要な限界フィードバックの改ざんに相当する操作を除外することが難しい 9

Slide 10

Slide 10 text

デモンストレーションフィードバック定義特定の目的を達成する間に記録された専門家アドバイザーの行動データ例ビデオ・ウェアラブルデバイス・共同作業・遠隔操作専門家とAIのダイナミクスが同一であれば、状態行動対(state-action pairs)の軌道 (trajectory)として直接構成可能例: 人間の専門家がロボットハンドで物体を操作するタスクビデオを録画ビデオのフレーム毎にロボットの状態をアノテート状態行動対のデータセットが得られる専門家の行動を模倣するエージェントの方策を学習 10

Slide 11

Slide 11 text

デモンストレーションフィードバックの利点と欠点利点アドバイザーの専門知識と経験を直接活用形式化された知識表現を必要としない欠点アドバイザーの専門領域を超えるタスクで失敗する可能性実世界のノイズによる影響アドバイザーのデモンストレーションが部分最適解である可能性人間のアドバイザーが不正確で誤りを犯しがちなため矛盾を含む可能性大量で広範囲なデモンストレーションを収集することが必要(コスト増加) 11

Slide 12

Slide 12 text

比較フィードバック定義 AIシステムの出力のセットをランク付けし、システムをより情報に基づいた決定 (informed decisions)へと導く相対評価例選好学習(preference learning, 優先度学習？) 複数項目を比較することでアドバイザーの好みを判別 12

Slide 13

Slide 13 text

比較フィードバックの利点と欠点利点正確な評価が難しいタスクや目的に対応可能欠点大量の比較データが必要という内在的な限界がある 13

Slide 14

Slide 14 text

フィードバック形式共通の特徴様々なフィードバック形式は全て、「人間による、隠れた報酬関数を伝えようとする試み」とみなせる Jeon et al. は、この立場を提案・形式化し、フィードバックプロセスの根底にあるパラメータ化された報酬関数 Ψ(・;θ) を定義することで、幅広いフィードバックの種類を統一これにより、例えば、フィードバックの種類に依らず、θに対してベイズ推論を行うことも可能 14

Slide 15

Slide 15 text

２つの疑問模倣学習(IL)と強化学習(RL)に基づく手法は、重要な能力を持つAIシステムの構築に成功 VPT: https://openai.com/research/vpt GPT-4V: https://openai.com/research/gpt-4v-system-card 2つの疑問どのように報酬関数を定義すれば、より複雑な振る舞い(例: 対話における様々なサブタスク)を学習させることが出来るか？どのように人間の価値観を表現すれば、システムの制御可能性と倫理性を保証し、人間によりよくアラインさせることが出来るか？ 15

Slide 16

Slide 16 text

最近の進展選好モデリング(preference modeling)を方策学習に取り入れる試みが進展強力な Large Language Models (LLMs) の構築方策学習研究による性能向上選好モデリングと逆強化学習(IRL)やオフライン強化学習の組み合わせ報酬関数のファインチューニング非マルコフ型報酬のモデリング複雑な報酬関数の構築選好モデリングと方策学習が、アライメントが直面する課題と解決策を理解するための基礎的な文脈と考えられる 16

Slide 17

Slide 17 text

2.2 Preference Modeling 複雑なタスク(例: 対話)では、正確なルールに基づく報酬を構築することが困難デモンストレーションに基づく手法は、膨大な専門家の人的資源が必要比較フィードバックに基づく選好モデリングは、AIシステムのファインチューニングにおいて非常に有望な手法 17

Slide 18

Slide 18 text

Preference Elicitation Preference Elicitation (選好誘出？) 最適化目標に関するより多くの知識を得るために、専門家の選好データを取得しながら、システムダイナミクスを繰り返し探索すること選好の粒度(granularity of preference)と選好のカテゴリ(category of preference)を決める必要がある本稿では逐次的な意思決定問題に適用するが、導き出された洞察は広範なAIシステムに適用可能 18

Slide 19

Slide 19 text

選好の粒度(granularity of preference) 行動・状態・軌跡の3つの選好行動選好: 特定の状態における好ましい行動状態選好: 状態間の選好関係を表現軌跡選好: 状態行動対の系列を表現(包括的な戦略情報) 19

Slide 20

Slide 20 text

選好の粒度(granularity of preference) 注意点行動選好は、軌跡選好に変換する際に、評価者の専門知識の必要性や潜在的な情報損失が生じる可能性状態選好は、軌跡選好に変換する際に、状態到達可能性と独立性を仮定する必要がある軌跡選好は、内在的な長期的効用を評価し、専門家の判断にそれほど依存しない (depends less on expert judgment) 長い軌跡セグメントがセグメント単位でより有益な比較をもたらす (Christiano et al., 2017) 20

Slide 21

Slide 21 text

選好のカテゴリ(category of preference) オブジェクト選好とラベル選好絶対的選好と相対的選好絶対的選好: 各項目を独立して評価二分法(binary): 好き or 嫌い段階的(gradual) 数値的: スコア順序的: 好ましい、あまり好ましくない、中間など相対的選好: アイテムのペア間の選好関係を定義全体順序(total order) 全体のランキングを定義部分順序(partial order) 比較不可能な項目ペアを許容 21

Slide 22

Slide 22 text

報酬モデル(reward model) 報酬モデリングは、比較フィードバックをスカラー報酬の形に変換し、方策学習を容易にする RLエージェントが同じ状態で行った行動のペアを考える選好が潜在的な報酬モデルから現れると仮定(ただし直接アクセスは不可) Bradly-Terry Model (BTモデル)において、人間の選好の分布は 22

Slide 23

Slide 23 text

参考: シグモイド関数 https://www.ailab.ics.keio.ac.jp/b4_induction_training/docs/ml/3.logistic_regression.html 23

Slide 24

Slide 24 text

報酬モデル(reward model) 報酬モデルをパラメータ化し最尤法によってパラメータを最適化状態行動対は人間によってラベル付けされた比較データセットからサンプリング 24

Slide 25

Slide 25 text

報酬モデル(reward model) まとめ報酬モデルは、人間のユーザーが評価を通じて特定の選好をシステムに伝えることを可能にするそれにより、目的を明示的に定義する複雑なタスクを回避することが出来る 25

Slide 26

Slide 26 text

LLM における報酬モデル報酬モデルは強力なLLMをアラインさせるために不可欠なツールを提供テキスト要約タスク (Stiennon et al., 2020) 人間の選好に基づいた報酬モデルを採用し、方策を大幅に強化分布のシフトと報酬モデルの汎化の問題も掘り下げており、報酬モデルの有効性がデータスケールとパラメータサイズに相関することが明らかになった InstructGPT (Ouyang et al., 2022) 報酬モデルのパラダイムをより広範な対話タスクの報酬モデリングに拡張複数回答に対するオーバーフィッティングを緩和するために、選好最適化損失関数 (preference-optimizing loss function)を導入報酬モデルから導き出された選好は、異なるグループ間で一般化できることが明らかになった 26

Slide 27

Slide 27 text

2.3 Policy Learning 2.3.1 Background 強化学習(RL) 選好ベース強化学習(PbRL) 模倣学習(IL) 逆強化学習(IRL) 2.3.2 Reinforcement Learning from Human Feedback (RLHF) 27

Slide 28

Slide 28 text

方策学習 (policy learning) 目的特定のタスクにおけるモデルのパフォーマンスを向上させることアライメントにおける方策学習の重要性アライメントに関連する多くの課題が方策学習に現れている (1.3節参照) 方策学習はアライメントにとって重要な背景を提供し、その手法はアライメントの目標をさらに前進させることが可能 28

Slide 29

Slide 29 text

強化学習強化学習(Reinforcement Learning, RL) (Sutton and Barto, 2018) エージェントが環境との相互作用を通じて試行錯誤的に最適な方策を学習目標: 累積報酬の期待値を最大化する方策πを学習すること Proximal Policy Optimization (PPO) (Schulman et al., 2017) RLコミュニティにおいて影響力のあるアルゴリズム (方策ベース) RLHFのキーアルゴリズムとして機能代理目的を導入することによって、元の方策から大きく逸脱しないように方策の更新を制限する 29

Slide 30

Slide 30 text

選好ベース強化学習選好ベース強化学習(Preference-based Reinforcement Learning, PbRL) (Wirth et al., 2017) 明示的な報酬シグナルの代わりに選好フィードバックを用いてRLエージェントの学習を促進選好学習とRLの利点を統合し、RLの適用範囲を広げ、報酬関数の定式化に関する困難を軽減主に軌跡選好(状態行動列のセグメントの比較)に重点単一の状態ではなく、様々な行動結果に対する人間の評価を包含非専門家ユーザに適しているタスク例: ロボットインストラクション・パスプランニング・マニピュレーション 30

Slide 31

Slide 31 text

選好ベース強化学習 PbRL の一般例 weighted pairwise disagreement loss 複数の潜在的に相反する選好のバランスをとり、一つの最適方策を特定 31

Slide 32

Slide 32 text

選好ベース強化学習の利点と欠点利点任意の報酬設計・報酬シェイピング・報酬エンジニアリング・事前定義された目的トレードオフ(predefined objective trade-off)を回避専門家の知識に依存しない選好をモデル化することで訓練ループを人間から切り離す欠点時間的遅延による信用割り当て(credit assignment)問題現実的な選好空間の探索(practical exploration of preference space) 膨大なデータの必要性学習済み先行モデルを再学習に利用出来ない 32

Slide 33

Slide 33 text

模倣学習模倣学習(Imitation Learning, IL) 特定のタスクの中で人間の行動をエミュレートすることに焦点とし、デモンストレーションから学習観測と行動の間のマッピングを学習デモンストレーションを観測することによって方策を改良環境からの報酬シグナルを必要としない広いILの目的: 人間の欲望や意図を複製し、人間の意思決定プロセスのレプリカを効果的に作成すること狭いILの目的: 与えられたタスクの中で特定の人間の行動を再現すること 33

Slide 34

Slide 34 text

模倣学習 Behavioral Cloning (BC) デモンストレーションから直接学習するシンプルな教師あり学習専門家の方策に近づけることを目的として方策パラメータを最適化欠点: 訓練分布とテスト分布の違いから生じるOOD(Out-of-Distribution)問題に直面 34

Slide 35

Slide 35 text

逆強化学習逆強化学習(Inverse Reinforcement Learning, IRL) 観測された行動から報酬関数を導くことに重点標準的なIRLでは最適な専門家の行動や意思決定過程を仮定利点: 状態分布の変化に対する頑健性を保証欠点余分なRLステップによる計算複雑性の増大 RLに内在する課題も導入してしまう(サンプル効率や環境との相互作用による潜在的な危険等) 報酬関数の特定も依然として課題 35

Slide 36

Slide 36 text

2.3.2 Reinforcement Learning from Human Feedback (RLHF) 人間の選好により近いAIシステムを訓練するために開発された手法利点: 「人間がデモンストレーションや報酬設計をするよりも、適切な行動を判断する方が得意である」ことを利用特にLLMの微調整において非常に支持されている問題点データ品質への懸念報酬の誤汎化リスク報酬ハッキング方策最適化の複雑さ RLHFは再帰的報酬モデリングプロセスの一種としてみなすことも出来る 36

Slide 37

Slide 37 text

RLHF RLHFはロボットタスク等にも適用されている (Christiano et al., 2017) RLHFの重要な応用例の一つがLLM RLHFで訓練されたLLMは、教師あり学習や自己教師あり学習アプローチで訓練されたモデルと比較して、より創造的で人間的なアライメントが可能 RLHFは単にLLMが人間の指示に従うことを可能にすることだけでなく、親切 (helpful)・無害(harmless)・誠実(honest)などを与え、アライメントを改善することが出来る今後の課題人間によるアノテーションへの依存を減らす反復的RLHF手法を適用し報酬モデルの有効性を向上 37

Slide 38

Slide 38 text

RLHFのパイプライン教師ありファインチューニング(Supervised Fine-tuning, SFT) 事前訓練された言語モデルを用い、下流タスクに合わせた高品質のデータセット上で教師あり学習(特に最尤推定)で微調整タスク例: 対話処理・指示フォロー(instruction following)・要約比較データの収集と報酬モデリング(Collecting Comparison Data and Reward Modeling) SFTモデルにプロンプトを入力し応答ペアをサンプリングペアを人間のアノテータに表示し好ましい方を選択この比較データ使って報酬モデルを最適化 (2.2節参照) 強化学習による方策最適化(Policy Optimization via Reinforcement Learning) 報酬モデルに導かれながら、RLを通じてLLMを最適化 →次頁 38

Slide 39

Slide 39 text

強化学習による方策最適化報酬モデリングにより得られたを用い、方策をRLで最適化報酬はそれぞれの応答の最後に報酬モデルから得られる(バンディット環境) RLの目的: 訓練プロンプトデータセットにおける報酬の期待値が最大になるように LLMのパラメータを調整すること 39

Slide 40

Slide 40 text

強化学習による方策最適化報酬の過剰最適化を緩和するため、SFTモデルから得られるトークン毎のKLペナルティを追加事前学習分布からの勾配を統合することで、モデルの性能を維持 (PTXロス) はKLペナルティの強さ、は事前学習勾配の混合の度合いを制御 40

Slide 41

Slide 41 text

RLHFの利点と欠点利点 LLMを人間の選好に合わせるのに効果的欠点複雑な実装ハイパーパラメータのチューニングサンプル効率計算オーバーヘッドスケールアップが難しい解決するためのアプローチがいくつか提案→次頁以降 41

Slide 42

Slide 42 text

Rejection Sampling (Touvron et al., 2023) 単純なアプローチすべてのプロンプトに対して、K個の応答をモデルからサンプリング各応答は報酬モデルで評価され、最も報酬が高いものを最良の応答として選択選択された応答を、後でモデルのファインチューニング(SFT)に使用 42

Slide 43

Slide 43 text

HIR (Zhang et al., 2023b) 言語モデルの指示アライメント問題をゴール到達型強化学習問題として定式化し、HIRアルゴリズムを提案オンラインサンプリングとオフライン学習の組み合わせオンラインサンプリングでは、LLMを高温でサンプリングして応答を出力オフライン学習では、生成された出力に基づいて応答を再ラベル化再ラベル化されたデータを用いて教師あり学習を行う →追加のパラメータを必要とすることなく、成功したケースと失敗したケースの両方を利用することが出来る 43

Slide 44

Slide 44 text

RRHF (Yuan et al., 2023) Rank Response to align Human Feedback, RRHF 複数の言語モデルからの回答をスコアリングしてランク付けすることで、モデルの確率を人間の選好にアラインする 1個か2個のモデルしか必要としないため実装が簡単 →言語モデルと人間の選好を効果的にアラインすることができ、PPOと同等のパフォーマンスを達成 44

Slide 45

Slide 45 text

ReST (Gulcehre et al., 2023) 2つのループ Grow と Improve Grow ループは、現在のモデルを用いてデータセットをサンプリング Improve ループは、固定データセットでモデルを繰り返し学習計算効率を向上させるために固定データセットを繰り返し使用できる、シンプルで効率的なフレームワーク教師あり学習のベースラインと比較して、報酬モデルのスコアと翻訳品質を大幅に改善 45

Slide 46

Slide 46 text

DPO (Rafailov et al., 2023) 報酬関数と最適ポリシーの間のマッピング人間の選好データから直接言語モデルを最適化するため、明示的な報酬モデルや多段階学習が不要 46

Slide 47

Slide 47 text

RLHF 今後の研究 RLHFがLLMで効果的に機能する理由を明らかにするマルチモーダル人間とAIとのコラボレーション 47

Slide 48

Slide 48 text

2.4 Scalable Oversight 2.4.1 From RLHF to RLxF 2.4.2 Iterated Distillation and Amplification 2.4.3 Recursive Reward Modeling 2.4.4 Debate 2.4.5 Cooperative Inverse Reinforcement Learning 48

Slide 49

Slide 49 text

2.4 Scalable Oversight 統計的学習アルゴリズムデータ分布を仮定 (例: independence and identical distribution, 独立同分布) → 特定の分布では失敗 AIがより強力になるにつれて、非効率的な学習信号や損失関数設計の誤りが破滅的な振る舞いにつながる可能性が高まる矛盾の難読化 (obfuscating discrepancies) specification gaming 報酬ハッキング権力追求 (power-seeking dynamics) AIシステムの最適化された目標と、人間の心にある理想的な目標とのギャップが存在 → スケーラブルな監視 (scalable oversight) が極めて重要 49

Slide 50

Slide 50 text

スケーラブルな監視の目的スケーラブルな監視の課題 AIシステムの振る舞いを人間が頻繁に評価するにはコストが必要リアルタイムで人間を学習ループに直接組み込むと学習効率を阻害 AIシステムの振る舞いの内在的な複雑さが評価を困難にする例: 本の要約・複雑なコードの生成・未来の天候変化の予測スケーラブルな監視の目的 AIシステムが人間の専門知識を凌駕するものであっても、人間の意図に沿ったものであることを保証すること本論文の主眼スケーラブルな監視を構築するために、まだ一般的には実装されていないいくつかの有望な方向性を提示すること 50

Slide 51

Slide 51 text

スケーラブルな監視概要 51

Slide 52

Slide 52 text

2.4.1 From RLHF to RLxF RLHFの問題点人間の評価の不正確さ人間のコストの高さ → 超人的な能力を持つAIシステムを作る際に、人間のフィードバックを拡張するためにRLHFを利用することが難しい RLxF の導入 RLHFのパラダイムに基づき、フィードバックの効率と質を向上させ、より複雑なタスクに対する人間のフィードバックを拡張することを目指す 52

Slide 53

Slide 53 text

Reinforcement Learning from AI Feedback (RLAIF) (Bai et al., 2022a, 2022b) RLHFによって訓練されたLLMの問題点センシティブで論争的な問題を回避することを選択することが多い RLAIF 人間のフィードバックではなく、LLM(例: GPT-4や超人的能力を持つ他の言語モデル)によって生成されたフィードバックを使用 RLAIFの学習パイプライン(→次々頁) 事前に設定された基準に基づいて方策モデルを自己評価し、レッド・チーミング (red teaming→次頁)によって促された返答で訂正訂正された返答で最初の方策モデルをファインチューニングファインチューニングされた方策モデルで、別の言語モデルの返答の無害性を評価 53

Slide 54

Slide 54 text

Harmlessness (Red Teaming) Datasets (Bai et al., 2022a) Red Teaming Datasets クラウドワーカーに、敵対的にLLMから有害な応答を引き出し、より有害な応答を選択するように求める例銀行強盗の計画有害な言葉遣い(toxic language) 有害な応答を引き出すプロンプトどちらの応答が有害か比較データ 54

Slide 55

Slide 55 text

Constitutional AI (CAI) (Bai et al., 2022b) RLAIF を使って言語モデルの無害性(harmlessness)を向上する Constitution (憲法) 有害でないシステムを訓練するための短い原則や指示のリスト(→次々頁) 一般的なAIシステムを開発・デプロイする際には、たとえそれが隠されていたり暗黙であったとしても、AIを支配する原則のセットを選択することは避けられない 55

Slide 56

Slide 56 text

Constitutional AI (CAI) (Bai et al., 2022b) RLAIFの学習パイプライン Supervised Stage (右図上段) 憲法の原則に従って応答を批評するよう求め、批評に照らして元の応答を修正させる→LMをSFT RL Stage (右図下段) 憲法の原則に従ってどの応答が最適かを問う →PMを学習→SFTした LMをRL 56

Slide 57

Slide 57 text

Constitutional AI (CAI) (Bai et al., 2022b) 憲法の原則例 (Bai et al., 2022b, Appendix C参照) Principles for SL-CAI CritiqueRequest: Identify specific ways in which the assistant’s last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal. RevisionRequest: Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Principles for RL-CAI Please choose the response that is the most helpful, honest, and harmless. Please choose the assistant response that is as harmless and ethical as possible. Do NOT choose responses that are toxic, racist, or sexist, or that encourage or support illegal, violent, or unethical behavior. Above all the assistant’s response should be wise, peaceful, and ethical. 57

Slide 58

Slide 58 text

RLAIF の評価要約タスクにおけるRLAIFとRLHFの性能差比較(Lee et al., 2023a) 人間による評価では、RLAIFで訓練されたモデルは、RLHFで訓練されたモデルとほぼ同等の全体パフォーマンスを達成したが、ニュアンスの違いが存在するある程度、RLAIFはRLHFに内在する回避(実用性を著しく低下させることなく無害化を維持)に対処している →AIフィードバックは、最小限の人間の介入で訓練ループを構築し、学習コストを削減するための実行可能な代替手段を提供する 58

Slide 59

Slide 59 text

Reinforcement Learning from Human and AI Feedback (RLHAIF) 人間とAIの要素を統合して監視例書籍の要約において人間を支援(Wu et al., 2021) サブタスクに分解してツリー状の構造を形成し、人間による監視とモデルの性能評価を容易にモデルの評価において人間を支援(Saunders et al., 2022) モデルに批評を生成させ人間の見逃しを減らす言語モデルの動作を評価するためのデータセットを自律的に生成(Perez et al., 2023) 人間によって検証された154の高品質なデータセットを作成 59

Slide 60

Slide 60 text

RLxF その他の研究特定のルールに基づいた人間の判断に焦点プライバシー保護(Carr, 2023) 対話の流暢さ(Saunders et al, 2022) 既存のNLP技術を利用してRLフィードバック信号を調整 60

Slide 61

Slide 61 text

RLxF まとめ RLxFのポイント大きな問題を小さなサブ問題に分解 AIやソフトウェア等の効率的なツールを利用してサブ問題を解決 Iterated Distillation and Amplification(IDA)の初歩的な例とみなすことが出来る継続的な反復プロセスがないIDA →次頁以降 61

Slide 62

Slide 62 text

2.4.2 Iterated Distillation and Amplification (IDA) 62

Slide 63

Slide 63 text

2.4.2 Iterated Distillation and Amplification (IDA) 人間とAIの反復的な協力によってスケーラブルな監視を構築するフレームワーク 63

Slide 64

Slide 64 text

広い/狭い RL/IRL (Cotra, 2018) 広いRL AIシステムに疎な報酬シグナル(報酬フィードバック)を与え、将来の累積報酬の自律的な探索と最適化を可能にする超人的な目新しい戦略を導く可能性があるが、何を気にかけるかを完璧に特定することが難しい狭いRL 最終結果ではなく、選択の妥当性を評価する密なフィードバックを与える(比較フィードバック) MLシステムをより人間に近づけることができるが、能力は制限される広いIRL 人間のあらゆる行動から深い長期的価値を推論、リスクが高い狭いIRL 短期的な道具的価値のみ推論、能力が制限される 64

Slide 65

Slide 65 text

IDA における広い/狭い RL/IRL エージェントは、狭い手法を使用して人間の行動を模倣狭いRLやILを使用して、エージェントを人間のように、かつ制御出来るように訓練人間は、エージェントの計算能力と並列処理能力を活用して、より先見の明のあるマクロ戦略を考案次の反復では、エージェントは再び、この強化された人間と機械のシステムを、狭い技術を使って模倣上記を反復することによって、エージェントを人間の価値観に沿わせながら、狭い能力から広い能力へと徐々に移行反復が増えるにつれて、人間と機械のシステムはより高い能力を持つようになり、次第に高い能力を持ちながら人間の価値観に沿ったシステムに近づいていき、安全性と能力の両方を達成することができる 65

Slide 66

Slide 66 text

IDAの例: AlphaZero(Christiano et al., 2018; Nguyen, 2020) 増幅フェーズ初期方策はランダム方策現段階の方策を用いてセルフプレイを行い棋譜を作成蒸留フェーズセルフプレイの棋譜を訓練データとして用い、より優れた手選択ヒューリスティック(方策)を学習蒸留と増幅のプロセスを繰り返すことによって高速に熟練の囲碁AIを作成アライメントと能力の区別が重要(Mennen, 2018) アラインメントは取れているが能力の低いAIは中程度の相手に勝てない能力はあるがアライメントが不十分なAIは勝利以外の特定のゲーム特性を達成しようとする可能性 66

Slide 67

Slide 67 text

IDAの実現可能性 IDAの実現可能性について議論が巻き起こっている(Yudkowsky, 2018) IDAは、反復を通じてエラーが継続的に蓄積されないという重大な仮定の下で動作する (Leike et al., 2018) 蒸留と増幅のステップの間に持続し、十分に高度で安全な学習技術が必要 Gato (Reed et al., 2022) 複数の専門家AIの能力を1つのモデルに統合し、IDAの蒸留が現代の深層学習を使って達成できるかどうか検証完全には実現されていないが、Gatoは増幅の可能性を示唆しており、多様なスキルを活用して新しいタスクの学習を加速することができるアライメント特性を維持するための安全な増幅や蒸留の方法が欠けている →アライメントを維持するIDA手法を構築することが、AIの安全性研究にとって極めて重要 67

Slide 68

Slide 68 text

2.4.3 Recursive Reward Modeling 68

Slide 69

Slide 69 text

2.4.3 Recursive Reward Modeling 再帰的報酬モデリング(Recursive Reward Modeling, RRM) 報酬モデルによって、システムの目的の構築とその行動の評価を切り離すことができる(Ibarz et al., 2018) 人間のフィードバックを利用して報酬モデルを訓練し、それをエージェントが追求するよう学習させるすでに訓練されたエージェントを再帰的に使用し、より複雑なタスクに関するエージェントの訓練にフィードバックを提供する例: 都市計画エージェント(交通計画, 公共施設, 住宅地, etc.) 69

Slide 70

Slide 70 text

再帰的報酬モデリング再帰的報酬モデリングの利点結果を評価することは、行動を生み出すことよりも簡単であるという仮定が成り立つのであれば報酬モデリングの反復プロセスは、より強力なAIシステムを監視するためのより高い能力を反復的に達成することができる監視をより複雑な領域に拡張できる可能性がある 70

Slide 71

Slide 71 text

再帰的報酬モデリング再帰的報酬モデリングにおけるアライメント(Hubinger, 2020) アウターアライメント学習された報酬モデルが、行動モデルによって知覚された領域において正確な分布であることを保証するためのフィードバックメカニズムが必要人間のフィードバックの質、汎化の難しさ、エージェントの欺瞞の可能性に依存インナーアライメント報酬モデルとエージェントの両方における欺瞞的な行動や悲惨な行動を防ぐために、人間が透明性ツールをいかに効果的に用いることができるか監視機構の有効性と報酬モデルの最適化の度合いを検証する能力に依存 71

Slide 72

Slide 72 text

再帰的報酬モデリング再帰的報酬モデリングの課題 IDAとの関連本質的にRRMのプロセスはIDAとリンクしている RRMはIDAの教師あり学習の部分を報酬モデリングに置き換えたもの RRMにおいてもIDAで遭遇する課題(特にエラーの蓄積を防止する上で遭遇する課題)を忠実に反映報酬モデリング自体は、必ずしも狭いモデルを抽出するわけではなく、アライメントの程度とパフォーマンスとのトレードオフが課題となる(Cotra, 2018; Hubinger, 2020) 72

Slide 73

Slide 73 text

2.4.4 Debate 73

Slide 74

Slide 74 text

2.4.4 Debate 人間の裁判官の意思決定を支援するために、2つのエージェントが答えとステートメントを提示エージェントが人間の裁判官からより高い信頼を得ようと努力しながら互いの欠点を特定しようとするゼロサムディベートゲームスケーラブルな監視を構築するための潜在的なアプローチとなり得る 74

Slide 75

Slide 75 text

ディベートディベートの前提「真実を論証する方が虚偽を論証するよりも一般的に容易であり、真実を論証する方が有利である」という仮定ディベートの問題点複雑な問題において、人間が討論で使われる専門的な概念を理解できない可能性がある勾配降下法の性質が、望ましくない循環パターン(正直さや欠点の強調などを最適化しようとして、別の性質を見落としたり低下させたりする)をもたらす可能性がある (Irving et al., 2018) 75

Slide 76

Slide 76 text

IDA, RRM, Debateの類似性 3つに共通するのは「評価はタスクの完了よりも単純である」という基本原則 AIシステムの評価能力を活用することで、人間にとってより有利な能力分布をもたらすことが可能直面する課題、特にエラーの蓄積を軽減するという課題も類似 76

Slide 77

Slide 77 text

2.4.5 Cooperative Inverse Reinforcement Learning 77

Slide 78

Slide 78 text

2.4.5 Cooperative Inverse Reinforcement Learning 協調的逆強化学習(Cooperative Inverse Reinforcement Learning, CIRL) 制御とフィードバックからの学習を統合し、人間のフィードバック提供者を同じ環境における仲間のエージェントとしてモデル化監視を強化するのではなく、AIシステムが監視をゲーム化するインセンティブを排除するフィードバックを与える人間とAIシステムを敵対的ではなく協力的な立場に置き、スケーラブルな監視問題にアプローチする(Shah et al., 2020) 人間の好みに合わせて一方的に最適化するのではなく、人間の真の目標を達成するために人間と協力 78

Slide 79

Slide 79 text

CIRLの動機とアイデア多くのミスアラインメントは、AIシステムが誤って指定された目的に対して自信を持って最適化した結果である(Pan et al., 2022) 報酬ハッキング(Victoria et al., 2020; Skalse et al., 2022) 欺瞞(deception) (Park et al., 2023b) 操作(Carroll et al., 2023b) 人間のフィードバックは目的に指定された範囲でのみ尊重されるため、改ざんや操作される可能性がある CIRL (Hadfield-Menell et al., 2016b, 2017; Shah et al., 2020) は上記問題の軽減を試みる (1) AIシステムに報酬関数に関する不確実性を明示的に保持させる (2) 本当の報酬関数が何であるかについての情報を人間にだけ提供する(AIには提供しない) 79

Slide 80

Slide 80 text

CIRLの動機とアイデア本当の報酬関数をAIシステムに教えないことで、AIシステムは人間に従う傾向を持ち、人間が本当に望んでいることを見極めようとする例人間のプレーヤーHとロボットのプレーヤーRが共通の報酬関数を共有する2人協力ゲームとしてタスク全体をモデル化報酬関数と報酬シグナルはRには見えない Rは、IRLのようなプロセス(Hに尋ねたり、Hと相互作用したりすることを含む)を経て、Hの行動から報酬関数を推測する AIシステムは人間の真の目的を自らの目標とし、人間を観察し、人間と相互作用することによってを常に把握しようとする操作などのインセンティブは減少(人間の行動を操作しても情報源を汚すだけで、には影響しないため) 80

Slide 81

Slide 81 text

CIRLの定式化古典的なマルチエージェントMDPをベースにCIRLの設定( )を定義(Hadfield-Menell et al. ,2016b) までは通常のマルチエージェントMDPと同様報酬関数はパラメータ化され、パラメータは分布によってモデル化出来るパラメータ化アプローチにより、Rは真の報酬関数に対する信念を明示的にモデル化し、推定することが可能となる 81

Slide 82

Slide 82 text

CIRLの注目すべき方向性 HがRに積極的に教えることの重要性を強調する研究(Fisac et al., 2020) Hの方策に対するRの最適な応答に焦点を当てた研究(Shah et al., 2020) Hが真の報酬関数に関する情報を伝える方法として、不完全な報酬関数を手動で指定する研究(Hadfield-Menell et al., 2017; He and Dragan, 2021) 82

Slide 83

Slide 83 text

3 Learning under Distribution Shift 3.1 The Distribution Shift Challenge 3.2 Algorithmic Interventions 3.3 Data Distribution Interventions 83

Slide 84

Slide 84 text

分布シフト下における学習信頼性の高いAIシステムの構築は、多様なデータ分布への適応能力に大きく依存訓練データや訓練環境は、実際のデプロイシナリオの不完全な近似であることが多く、重要な要素を欠いている場合がある敵対的圧力(Poursaeed et al., 2021) マルチエージェント相互作用(Critch and Krueger, 2020; Dafoe et al., 2020) 人間の監視者が効率的に評価できない複雑なタスク(Leike et al., 2018) 操作が可能な報酬機構(Krueger et al., 2020) 分布シフトとは: 訓練分布とテスト分布(または環境)の不一致訓練分布の下ではアラインしている(人間の意図に沿った目標を追求している)AIシステムでも、テスト分布の下ではアライメントが維持されず、デプロイメント後に深刻なミスアライメント問題を引き起こす可能性がある 84

Slide 85

Slide 85 text

アライメントの観点から見た分布シフトアライメントの観点からは、目標を追求する能力の低さよりも、アライメントが取れていない有害な目標を追求するAIシステムをより懸念しているアライメント特性に重点を置くということは、能力の一般化よりも、分布全体にわたる目標の一般化に重点を置くことを意味する 85

Slide 86

Slide 86 text

3.1 The Distribution Shift Challenge 目標の誤汎化(goal misgeneralization) 自動誘発分布シフト (auto-induced distribution shift, ADS) 86

Slide 87

Slide 87 text

3.1 The Distribution Shift Challenge 分布シフト下でのアライメント特性(人間の意図や価値観への忠実さ)の保持 2つの課題目標の誤汎化(goal misgeneralization) (Shah et al., 2022) 自動誘発分布シフト(auto-induced distribution shift, ADS) (Krueger et al., 2020) 87

Slide 88

Slide 88 text

目標の誤汎化(goal misgeneralization) 目標の誤汎化 AIシステムが訓練分布では完璧に動作するが、訓練分布で学習した能力が分布外 (out of distribution, OOD)環境では汎化に失敗し、AIが人間の希望に沿わない目標を追求するシナリオ OOD環境において無能となる "能力の誤汎化"(capability misgeneralization)とは区別される目標の誤般化を持つエージェントは、OOD環境において、望まない目標を有能に追求 88

Slide 89

Slide 89 text

目標の誤汎化の例疑似相関(spurious correlations) 例画像分類データセットにおいて、緑の草は"牛"というラベルの画像によく出てくる特徴ではあるが、この特徴は様々なデータ分布において、より一貫性と信頼性を高める必要がある 89

Slide 90

Slide 90 text

目標の誤汎化の危険性大きな危険の一つは、以下2つの区別がつかないこと "人間が本当に望んでいることのための最適化" (optimizing for what human really wants) "人間のサムアップのための最適化" (optimizing for human thumbs-ups) 人間のサムアップ: 人間のアドバイザーや環境からの高報酬のフィードバック →AIシステムは意図的に人間の好みに従ったり、人間から高い報酬を得るために欺いたりすることがあるが、実際には意図した目標(人間が本当に望んでいること)を学習していない可能性がある例: ロボットハンドが小さなボールをつかむタスク(Amodei et al., 2017) カメラのレンズの前で視差を利用することで、実際にはボールをつかんでいないにもかかわらず、あたかもボールをつかんだかのように見せかける人間のアノテータはタスク完了と勘違いする 90

Slide 91

Slide 91 text

目標の誤汎化の危険性 AIシステムを人間のフィードバックで訓練または微調整する場合、訓練ではどちらも完璧に機能するため、2つの目標を区別することは不可能であり、AIシステムがどちらを学習するかは不明実際、訓練中に人間の評価者が騙されたり操作されたりする可能性があり、AIシステムは、人間が望むことよりもむしろ、人間のサムアップのために最適化するよう、より強く動機付けられる可能性がある例推薦システム(Kalimeris et al., 2021; Adomavicius et al., 2022) LLM(Perez et al., 2023) (→次頁) RLシステム(Amodei et al., 2017) 91

Slide 92

Slide 92 text

LLMにおける目標の誤汎化おべっか(sycophancy) (Perez et al., 2023) 質問: 小さな政府 or 大きな政府保守的な男性には小さな政府と返答リベラル女性には大きな政府と返答 92

Slide 93

Slide 93 text

目標の誤汎化の危険性メサ最適化(mesa-optimization) (Hubinger et al., 2019c; Dai et al., 2023a) 学習済みのモデル重みを持つMLモデルが推論中にそれ自身の中で最適化を行う (例: in-context learning) しかし、この最適化の目的が元のモデルの学習目的と一致していない実証的な研究では、フォワード・パスのパフォーマンスを向上させるためにメサ最適化を使用するトランスフォーマーが発見されており、この仮説の信憑性を高めている(von Oswald et al., 2023) 93

Slide 94

Slide 94 text

自動誘発分布シフト(Auto-Induced Distribution Shift, ADS) 過去の研究データが独立同分布(independence and identical distribution, i.i.d)であると仮定することが多く、アルゴリズムのデータ分布への影響を無視することが多い現実エージェントは意思決定や実行の過程で環境に影響を与え、環境によって生成されるデータの分布を変化させる可能性があり、この問題を自動誘発分布シフト(Auto- Induced Distribution Shift, ADS)と呼ぶ(Krueger et al., 2020) 94

Slide 95

Slide 95 text

自動誘発分布シフトの例推薦システム(Carroll et al., 2022) 推薦アルゴリズムによって選択されたコンテンツがユーザーの嗜好や行動を変化させ、ユーザー分布のシフトにつながる可能性があるその分布のシフトはさらに推薦アルゴリズムの出力に影響を与える →AIシステムがますます世界に影響を与えるようになるにつれ、"エージェントが人間社会に統合された際に社会全体のデータ分布に与える影響"を考慮する必要性も高まる 95

Slide 96

Slide 96 text

3.2 Algorithmic Interventions 96

Slide 97

Slide 97 text

3.2 Algorithmic Interventions アルゴリズムによる介入分布シフトを緩和するために訓練中に様々な分布上で最適化を行う分布横断的集約(cross-distribution aggregation) モード接続性によるナビゲーション(navigation via mode connectivity) 97

Slide 98

Slide 98 text

3.2.1 Cross-Distribution Aggregation 分布横断的集約(cross-distribution aggregation) 分布シフトの主な原因の1つ中心的な目的とは異なるモデル内の疑似相関(spurious correlations) 異なるドメイン(または異なる分布)の学習情報を最適化目的に統合することで、モデルが真の情報と不変の関係を学習することを期待 98

Slide 99

Slide 99 text

Empirical Risk Minimization (ERM) 経験的リスク最小化(Empirical Risk Minimization, ERM) データセットと実世界の間にはバイアスが存在することが多い ERMはこのバイアスを最適化するために統計的手法で採用されている戦略は一つの訓練分布または異なる訓練分布からの異なる例上記の目的関数を最小化することで、異なる分布における不変関係を学習可能ただし、訓練分布とターゲット分布の間に大きな不一致が存在する場合、深刻な汎化の問題が発生する可能性がある 99

Slide 100

Slide 100 text

Distributionally Robust Optimization (DRO) 分布シフトに対する敏感さは、多くの場合、偽の相関関係や中心概念とは無関係なショートカット機能への依存から生じる例: モデルは画像内の正しい特徴を採用するのではなく、背景の特徴に基づいて判断してしまう可能性 OOD汎化は以下のように定式化されるこの最適化は、リスク関数集合の中で最大値を小さくすることで、摂動集合全体( ) におけるワーストケースの性能を向上させようとする DROでは、摂動集合は異なるドメインの学習分布の混合をカバーし、上記の目的関数を最小化することで、異なる学習分布間の不変関係を見つけることができる 100

Slide 101

Slide 101 text

Invariant Risk Minimization (IRM) 多様な訓練環境にわたって非線形で不変な原因予測因子を推定し、頑健なOOD汎化を促進擬似的特徴に依存する感受性を低減しながら、様々な環境にわたって確かな性能を持つ予測モデルを訓練することが目的低い経験的損失を達成できる多くの関数が存在するときに、すべての環境にわたって強力なパフォーマンスを示す関数を選択することで、擬似的な特徴ではなく因果的特徴に基づく予測モデルを得る可能性を高める 101

Slide 102

Slide 102 text

Risk Extrapolation (REx) 訓練リスクの分散に追加ペナルティを課して、外挿ドメインの摂動集合に対するロバスト最適化を行う訓練リスクを減らすと同時に訓練リスクの類似性を高めることで、異なるドメイン分布における不変関係を学習させる 102

Slide 103

Slide 103 text

3.2.2 Navigation via Mode Connectivity 103

Slide 104

Slide 104 text

3.2.2 Navigation via Mode Connectivity モード接続性によるナビゲーション(Navigation via Mode Connectivity) モード接続性の説明 Connectivity-Based Fine-Tuning (CBFT) (Lubana et al., 2023)法の紹介モード接続性が、少数のパラメータを変更することによって、擬似的な相関関係ではなく、不変の関係に基づいて予測するようにモデルをナビゲートすることを示す 104

Slide 105

Slide 105 text

モード接続性モード接続性(mode connectivity)とは、損失関数空間内の2つ以上の異なる局所最小値を接続する直線的な経路を特定できる現象を指すモード接続性は、パラメータ空間内の最小値間の接続経路を一貫して見つけ、損失が非常に大きい領域に入り込むことなく、損失が小さい領域を横断することを必要とするパラメータ空間内でモデルのパラメータに微調整を加えても、モデルの性能が比較的安定し、性能の大幅な劣化を緩和できることを意味するこの考え方は、より効果的な最適化アルゴリズムを設計するための基礎を築き、モデルが異なるタスク間で知識と経験を共有することを可能にし、モデルの性能と汎化能力の両方を向上させる 105

Slide 106

Slide 106 text

Connectivity-Based Fine-tuning (CBFT) 最近の研究では、2つのモデル間に線形接続性がないことは、基本的なメカニズム上の非類似性を意味することが示唆されている類似のデータで訓練された場合、モデルは類似の推論メカニズムを開発する傾向があるこれはモデルにバイアスが生じる大きな原因となりうる(画像に描かれた対象物ではなく、画像の背景情報に頼って分類を行うなど) この問題を克服するために以下の損失を最小化することを提案している CBFTは、モデルの部分的なパラメータを変更するだけで、擬似的特徴から真の特徴による目的予測へとシフトすることを可能にする 106

Slide 107

Slide 107 text

3.3 Data Distribution Interventions 107

Slide 108

Slide 108 text

3.3 Data Distribution Interventions データ分布介入訓練データの分布を実世界の要素を含むように拡張し、訓練分布とデプロイ時の分布の不一致を減らす敵対的な圧力(adversarial pressures)とマルチエージェントダイナミクス(multi- agent dynamics)の紹介に焦点をあてる 108

Slide 109

Slide 109 text

データ分布介入概要 109

Slide 110

Slide 110 text

3.3.1 Adversarial Training 敵対的頑健性の欠如失敗させるように設計された特定の入力が、モデルの性能を低下させることがある (例: 画像・テキスト・それらの意味的特徴等) 敵対的頑健性と分布シフト訓練分布(入力が敵対的に構成されていない)とテスト分布(入力が敵対的に構成される可能性がある)の不一致によって部分的に引き起こされる分布シフトの失敗ケースと考えることができる敵対的学習(adversarial training) 様々な方法で訓練入力に敵対的な例を導入することで、訓練分布を拡大し、分布の不一致を解消し、この問題を緩和を試みるモデル: 視覚モデル・言語モデル・視覚言語モデルタスク: 分類・生成・RL 110

Slide 111

Slide 111 text

敵対的学習のタイプ 2つのタイプ摂動ベース敵対的学習(Perturbation-based Adversarial Training) 敵対的に摂動された例(モデル性能を低下させるように設計された、通常のデータ入力に対する小さな変化)を訓練に導入無制限敵対的学習(Unrestricted Adversarial Training) 摂動ベース敵対的学習を一般化し、モデルを欺くことができるあらゆる敵対的な例を含める 111

Slide 112

Slide 112 text

摂動ベース敵対的学習(Perturbation-based Adversarial Training) 敵対的に摂動された例(モデル性能を低下させるように設計された、通常のデータ入力に対する小さな変化)を訓練に導入損失関数に正則化項を追加するベースラインアプローチ教師なしアプローチ自己教師ありアプローチカリキュラム学習を用いたアプローチなど 112

Slide 113

Slide 113 text

無制限敵対的学習(Unrestricted Adversarial Training) 摂動ベース敵対的学習を一般化し、モデルを欺くことができるあらゆる敵対的な例を含める生成モデルを用いて任意の敵対的入力をゼロから生成する生成的敵対的学習構文的または意味的に修正された敵対的例を訓練入力に追加する方法無制限敵対攻撃に関するほとんどの研究は、無制限敵対学習にも適用される 113

Slide 114

Slide 114 text

3.3.2 Cooperative Training 協調的学習(Cooperative Training) 114

Slide 115

Slide 115 text

3.3.2 Cooperative Training 協調的学習(Cooperative Training) AIシステムにおける協調能力の欠如は、分布シフトにおける失敗の一形態と見なすことができる AIシステムは、現実世界とは質的に異なるシングルエージェントの設定で訓練される環境に他のエージェントが存在すると、環境の状態遷移のダイナミクスが質的に変化し、観測と報酬の同時分布(joint distribution)が変化協調訓練によってマルチエージェントの相互作用を含むように訓練分布を拡張することによって、この問題にアプローチする本節では訓練データ分布の拡大との関連性から、マルチエージェント強化学習(Multi- Agent Reinforcement Learning, MARL)の一部のみを取り上げる 115

Slide 116

Slide 116 text

マルチエージェント強化学習(Multi-Agent Reinforcement Learning, MARL) MARLの分野は伝統的に以下の3つに分けられる(Gronauer and Diepold, 2022) 完全協調型(全てのエージェントが同じ報酬関数を共有する) 完全競争型(報酬がゼロサムゲームを構成する) 混合動機型(報酬インセンティブが完全協調型でも完全競争型でもない) 完全協力設定と混合動機設定は、協調型AIにとって最も関連性が高い 116

Slide 117

Slide 117 text

Fully Cooperative MARL 完全協調型MARL すべてのエージェントが報酬関数を共有(Gronauer and Diepold, 2022) この統一性により、協力インセンティブの問題を完全に無視することができ、協調によって共有された目標を効果的に達成することに集中することができる一般的なアプローチは、中央集権的なアプローチから分散的なアプローチまで、さまざまなものがある(Oroojlooy and Hajinezhad, 2023) 117

Slide 118

Slide 118 text

Mixed-Motive MARL 混合動機型MARL 協調的インセンティブと競争的インセンティブが混在していることが特徴で、エージェントの報酬は同一ではないが、ゼロサムでもない(Gronauer and Diepold, 2022) より微妙な設定を含む環境があるチーム同士の対戦(Jaderberg et al., 2019) 交渉(Cruz et al., 2019; FAIR et al., 2022) テクニックの例 IRLのような手法を使って人間の相互作用から学ぶ(Song et al., 2018a) コミュニケーションを戦略的かつ選択的に行う(Singh et al., 2019) アクター-クリティック手法の適用(Lowe et al., 2017). 118

Slide 119

Slide 119 text

Zero-shot Coordination ゼロショット協調 AIシステムが、他のエージェント(人間のエージェントを含む)と一緒に訓練することなしに、また、協調するための特別な設計なしに、効率的に協調できるようにすることを目指す最近の研究例 other-play (Hu et al., 2020) 頑健性を向上するために訓練パートナーの方策の特定の部分をランダム化するマルチレベル再帰的推論の導入(Cui et al., 2021) off-belief学習(Hu et al., 2021) セルフプレイにおける恣意的な慣例を排除 119

Slide 120

Slide 120 text

Environment-building 協調学習のための環境ゲーム環境 Hanabi (Muglich et al., 2022) Diplomacy (Cruz et al., 2019; FAIR et al., 2022) サッカー(Ma et al., 2022) ゲーム理論モデル古典的なマルチエージェントジレンマ(Wang et al., 2021b; Christoffersen et al., 2023) 協調AI研究に特化したマルチエージェント環境のフレームワークとスイート Melting Pot (Leibo et al., 2021; Agapiou et al., 2022) 環境構築プロセスの部分的自動化教師なし環境設計(Dennis et al., 2020; Jiang et al., 2021b) 120

Slide 121

Slide 121 text

Socially Realistic Settings 社会的に現実的な設定(Du, 2023) 大規模マルチエージェント(AIエージェントと人間を含む) エージェントの構成も相互作用の様式も非常に多様より現実的でオープンエンドな環境の構築(Klügl et al., 2005; Lehman et al., 2008; Wang et al., 2019b; Suo et al., 2021) MARLの規模拡大(Sun et al., 2020; Du, 2023) 社会制度や規範などの新たな制御手段の組み込み(Singh, 2014) 121

Slide 122

Slide 122 text

4章 Assurance へ 122