実世界のタスクはラベル付けが自明でない(囲碁,物体操作) 従来は タスク | ドメイン毎にクリーンなデータを都度収集 (人手によるアノテーション,データクレンジング) 検索エンジンがあれば 賢い検索エンジンが必要なデータを整理し, 必要に応じてあとから取り出せればOK • 経験 𝝉𝝉 = ( 𝒔𝒔0 , 𝒂𝒂0 , 𝒔𝒔1 , 𝒂𝒂1 , … , {𝒔𝒔𝑇𝑇 , 𝒂𝒂𝑇𝑇 }) | 𝒔𝒔: 状態, 𝒂𝒂: 行動 (+ 報酬を含むこともある) • unlabeled, task-agnostic, suboptimal, noisy な過去の経験の集合を対象