Upgrade to Pro — share decks privately, control downloads, hide ads and more …

これからの強化学習2.6

moyomot
May 19, 2017
200

 これからの強化学習2.6

moyomot

May 19, 2017
Tweet

Transcript

  1. INTRODUCTION ͜͜·ͰֶΜͩڧԽֶशͰղܾͰ͖ͳ͍໰୊ ▸ ڧԽֶशͰ͸ใु࿨ͷظ଴஋ʢϦλʔϯʣͷ࠷େԽΛ໨తͱ͢Δ ▸ ظ଴஋ͷ࠷େԽʢ࠷খԽʣ໰୊ͱͯ͠ఆࣜԽͰ͖ͳ͍έʔε͕͋Δ ▸ ى͜Δ֬཰͕௿͍͕ɺେ͖ͳଛࣦ͕ൃੜͯ͠͠·͏৔߹Ͱ͋ΓϢʔ βʔ͕ϦεΫճආʹڵຯͷ͋Δ৔߹ ▸

    େ͖ͳෛͷใु͕ൃੜ͢ΔϦεΫΛੵۃతʹճආ͢Δ࢓૊ΈͰͳ͍ ▸ גࣜ౤ࢿͷΑ͏ͳ৔߹͸খ͞ͳ֬཰Ͱى͜Δେ͖ͳଛࣦΛճආ͠ ͳ͕ΒऩӹΛߴΊΔΑ͏ʹ͢Δඞཁ͕͋Δ ▸ Ϧλʔϯʹظ଴஋Ҏ֎ͷ৘ใ͕ͳ͍ͨΊ
  2. INTRODUCTION ໨࣍ ▸ 2.6.1 ڧԽֶशͷ෮शʢׂѪʣ ▸ 2.6.2 ϦεΫߟྀܕڧԽֶश๏ ▸ ͋Δछͷ࠷ѱέʔεධՁ

    ▸ ޮ༻ؔ਺΍࣌ؒࠩ෼(TD)ޡࠩͷඇઢܗԽ ▸ ϦλʔϯҎ֎ͷϦεΫࢦඪͷಋೖ ▸ 2.6.3 ϦεΫߟྀܕڧԽֶशͷͨΊͷϦλʔϯ෼෍ਪఆ ▸ Ϧλʔϯͷ֬཰෼෍͕Θ͔Ε͹ Value-atRisk౳ɺ༷ʑͳϦεΫ ࢦඪΛࢉग़Ͱ͖ɺϦεΫࢦඪʹج͍ͮͨҙࢥܾఆ͕Մೳ ▸ 2.6.4 ͓ΘΓʹ
  3. 2.6.2 ϦεΫߟྀܕڧԽֶश๏ Qϋοτֶश maximinํࡦʹΑΔ֦ு Heger ▸ maximinͱ͸ ▸ ૝ఆ͞ΕΔ࠷খͷརӹ͕࠷େʹͳΔΑ͏ʹܾஅΛߦ͏ઓུ ▸

    ͱ͍͏ͷఆࣜԽ ▸ େଛ͢ΔϦεΫΛ࠷খݶʹ ▸ Q-learningͷTDֶशΛ࢖༻Ͱ͖ΔϝϦοτ ؔvs৿ຊ Aઓུ Bઓུ Aઓུ 100 -100 Bઓུ 10 -10
  4. Ϧλʔϯ෼෍ਪఆͷΞϓϩʔν ▸ γϛϡϨʔγϣϯΞϓϩʔν ▸ ঢ়ଶs, ߦಈaΛهԱͯ͠TΛे෼େ͖͘͢Ε͹ɺϦλʔϯͷඪຊ͕ଟ͘ू·ΓɺϦ λʔϯ෼෍ͷਪఆ͕Մೳ ▸ ܭࢉίετ͕๲େ ▸

    ղੳతΞϓϩʔν ▸ Ϧλʔϯ෼෍Λղੳతʹղ͘෼෍ϕϧϚϯํఔࣜ ▸ ෼෍ϕϧϚϯํఔࣜΛParticle SmoothingͰղ͘ɺϊϯύϥϝτϦοΫϦλʔϯ ෼෍ਪఆΞϧΰϦζϜ ▸ https://pdfs.semanticscholar.org/ 1ec2/6e05c2577154213e1668ddd374e4da663309.pdf 2.6.3 ϦεΫߟྀܕڧԽֶशͷͨΊͷϦλʔϯ෼෍ਪఆ