Slide 13
Slide 13 text
Training
• ڧԽֶश
• ɹΛɹɹɹɹɹ͔ΒαϯϓϦϯά
• ωοτϫʔΫ͕ܾఆͨ͠ΒɹɹɹɹɹɹɹΛ
࠷େԽͯ͠ɹɹΛߋ৽
• Policy Gradient MethodʹΑΓɹ Λߋ৽
• ޯɿɹɹɹɹɹɹɹɹɹɹɹɹɹɹʢɹใुʣ
z p(z|x; l
)
log p(y|z, x, e
)
e
l
J( l
) = E log p(z|x; l
) · r r
J( l
) = E log p(z|x; l
) log p(y|z, w; e
)