Slide 30
Slide 30 text
2020/10/30 -30-
模倣学習における目的は,動作を模倣すること
だったが,自動的に学習するといったことを実現
するためには,他の目的が必要になる.
例えば,タイガーの例でいえば真の目的は
min log p (eaten by tiger | a1 ~ aT)
となる.(タイガーに食べられてしまうこと確率を最
小化したい)
一般的に書くと
となる.ここで,Cはコスト関数
★
コスト関数の導入と記法
1 1
1
min ( , ) . . ( , )
T
t t t t t
t
c s a s t s f s a
− −
=
=