Slide 6
Slide 6 text
① Prior Experience:ゴールの潜在表現𝑧𝑡
𝑔を学習
◼ 既知環境における教師あり学習(= オフライン学習)
◼ 9つの環境で5000サンプルの軌道を収集
◼ Variational Information Bottleneck [Alemi+ ICLR17] に基づきモデル化
◼ 目標:𝐿を最大化
6
𝑎𝑡
𝑔:最適な行動予測
𝑑𝑡
𝑔:ゴールまでの距離予測
𝑜𝑔
:ゴール地点の画像
𝑜𝑡
:現在の観測画像
𝐿 =
1
|𝒟|
Σ
(𝑜𝑡,𝑜𝑔,𝑎𝑡
𝑔,𝑑𝑡
𝑔)∈𝒟
𝔼
𝑝𝜙(𝑧𝑡
𝑔|𝑜𝑔,𝑜𝑡)
log 𝑞𝜃
𝑎
𝑡
𝑔, 𝑑
𝑡
𝑔 𝑧
𝑡
𝑔, 𝑜𝑡
− 𝛽KL(𝑝𝜃
(⋅ |𝑜𝑔
, 𝑜𝑡
)||𝑟(⋅))
𝒟:データセット
𝑟:事前分布