Slide 6
Slide 6 text
① Language Processing:次のサブゴールを予測
◼ 2つのBERT [Devlin+, NAACL19] transformerで構成
入力:① 指示文 𝐿 ② 過去のサブゴール 𝐻𝑘
= 𝑔𝑖
, 𝑖<𝑘
出力:次のサブゴール 𝑔𝑘
= (𝑡𝑦𝑝𝑒𝑘
, 𝑡𝑎𝑟𝑔𝑒𝑡𝑘
)
6
𝑔𝑖
, 𝑖<𝑘
は自然言語のフレーズに変換
e.g. PickupObject (Apple) → “pick up apple”
それぞれ、分布 𝑃 𝑡𝑦𝑝𝑒𝑘
𝐿, 𝐻𝑘
, 𝑃(𝑡𝑎𝑟𝑔𝑒𝑡𝑘
|𝐿, 𝐻𝑘
) からサンプリング
𝑡𝑦𝑝𝑒𝑘
:行動の種類(e.g. GotoLocation, PickupObject)
𝑡𝑎𝑟𝑔𝑒𝑡𝑘
:対象物体(e.g. Sink, Apple)
BERT