方策の長期性能に対する効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)

ํࡦͷ௕ظੑೳʹର͢Δ ޮ཰తͳΦϑϥΠϯධՁɾֶश Long-term Oﬀ-Policy Evaluation and Learning !5IF8FC$POG`ઌऔΓษڧձ ᜊ౻༏ଠ :VUB4BJUP

؆୯ʹࣗݾ঺հ ໊લɿᜊ౻ ༏ଠ !VTBJU ܦྺɿ๺ւಓੜ·Ε ౦޻େ ถίʔωϧ ςοΫاۀʹજೖ͠ݚڀ ݚڀྖҬɿػցֶश ҼՌਪ࿦
ਪનɾݕࡧγεςϜ ڞಉݚڀ౳ɿ$ZCFS"HFOU ιχʔ %.. -*/&Ϡϑʔ ϦΫϧʔτͳͲ ͦͷଞ 'PSCFT+BQBO6OEFS XJUIࠤʑ໦࿕ر౤खΒ 'PSCFT+BQBO6OEFSΞυόΠβϦʔϘʔυ ೔ຊΦʔϓϯΠϊϕʔγϣϯେ৆಺ֳ૯ཧେਉ৆ ଙਖ਼ٛҭӳࡒஂୈظੜ ધҪ৘ใՊֶৼڵࡒஂ঑ֶੜ 5XP4JHNB1I%'FMMPXTIJQ`3VOOFSVQ 5PQ ࢪࡦσβΠϯͷͨΊͷػցֶशೖ໳ ൓࣮Ծ૝ػցֶश ͷࣥච

˔ -POHUFSN0⒎1PMJDZ&WBMVBUJPO ˔ :VUB4BJUP )JNBO"CEPMMBIQPVSJ +FTTF"OEFSUPO #FO$BSUFSFUUF BOE.PVOJB-BMNBT
˔ Ͱͷ1I%SFTFBSDIJOUFSOதʹ ॻ͍ͨ࿦จ ˔ JOUFSOظؒ೥݄d݄ ౤ߘ݄ ˔ ࣮"#ςετσʔλ΋Ұ෦׆༻ ঺հ͢Δ࿦จ

ຊ೔ߟ͍͑ͨ໰୊ ೥຤ ݄ ݄ ݄ ݄ ϕʔεϥΠϯํࡦ چϩδοΫ Λ೥ॳ͔Βӡ༻
௕ظϝτϦοΫ ྦྷੵ$7ͳͲ ৽ํࡦ ৽ϩδοΫ Λӡ༻։࢝ ສ$7 ສ ສ

೥຤ ݄ ݄ ݄ ݄ ํࡦ΍ΞϧΰϦζϜͷ௕ظޮՌΛ΋ͬͱૣ͍࣌ظʹਪఆͰ͖Δ͔ʁ ϕʔεϥΠϯํࡦ͕ ऩूͨ͠ϩάσʔλ ϲ݄ͷ ୹ظ࣮ݧ
ະ؍ଌ ৽ํࡦ ৽ϩδοΫ Λӡ༻։࢝

༻͍Δه߸ l ະ஌ͷ෼෍ʹ͕ͨ͠͏ಛ௃ྔɾจ຺ l ߦಈͷΠϯσοΫε ਪનɺݕࡧɺ౤ༀɺ࣏ྍํ਑ l ํࡦɾϞσϧʢ৚݅෇͖ߦಈ෼෍ʣ l ϕʔεϥΠϯํࡦ
৽ํࡦ l ୹ظใु l ௕ظใु جຊͱͳΔσʔλੜ੒աఔ ୹ظใु෼෍ ํࡦҎ֎͸ະ஌ͷ෼෍

༻͍Δه߸ͱ۩ମྫͷରԠ ೥຤ ୹ظใु ϲ݄ྦྷੵ$7 ௕ظใु ϲ݄ྦྷੵ$7 ݄ ݄ ࠶ελʔτ ݄
݄ ͷ৔߹ ͋ΔϢʔβ ʹ͍ͭͯ ൒೥ؒʹߦ͏հೖͷ૊Έ߹Θͤ ࠓճ͸ใुͷ෼෍มԽ͸ߟ͑ͳ͍ Ծʹશ͘ಉ͡հೖΛͨ͠৔߹ɺ ظ଴஋ ͷҙຯͰ ൒೥ຖʹಘΒΕΔ݁Ռ͸౳͍͠ ൒೥ؒʹߦ͏հೖͷ૊Έ߹Θͤ

ղ͖͍ͨ౷ܭతਪఆ໰୊ ໨ඪɿ৽ํࡦͷ௕ظੑೳΛ؍ଌՄೳͳσʔλ͔Βਖ਼֬ʹਪఆ ΑΓ۩ମతʹɺզʑ͕ݚڀͱͯ͠ղ͖͍ͨ໰୊͸ɺ ্Ͱఆٛͨ͠௕ظੑೳΛΑΓਖ਼֬ʹਪఆͰ͖ΔਪఆྔΛߏங͢Δ͜ͱ ৽ํࡦͷ௕ظੑೳ ؍ଌՄೳͳσʔλ ௕ظใु

ฏۉೋ৐ޡࠩͱόΠΞεɾόϦΞϯε෼ղ ਪఆྔͷਖ਼֬͞͸ҎԼͷฏۉೋ৐ޡࠩ .4& ʹΑΓఆྔԽ ͳ͓ ྑ͍ਪఆྔΛ࡞Δʹ͸ όΠΞεͱόϦΞϯεΛ ڞʹ཈͑ͯ͋͛Δඞཁ͕͋Δ

όΠΞεͱόϦΞϯεͷΠϝʔδ ௿όϦΞϯε ߴόϦΞϯε ௿όΠΞε ߴόΠΞε ਪఆ໨ඪ FTUJNBOE ਪఆ஋ FTUJNBUFEWBMVF ਫ਼౓ͷҟͳΔ
ͭͷਪఆྔ ఺܈ͷॏ৺ͱ తͷத৺ͷڑ཭ ఺܈ͷ͹Β͖ͭ۩߹

໾ཱͨͣͳϕʔεϥΠϯͱͯ͠ͷl௕ظ࣮ݧz ਪఆਫ਼౓ͷ͜ͱ͚ͩΛߟ͑ͨͱ͖ʹ ΋ͬͱ΋ཧ૝తͳํ๏͸ɺ ৽ํࡦΛ௕ظؒӡ༻ͯ͠͠·͍ɺͦͷ΋ͱͰͷ௕ظใुΛ؍ଌ͢Δ͜ͱ Ծʹ͜ͷ௕ظ࣮ݧ͕ՄೳͰ͋Ε͹ɺܦݧฏۉʹΑΓਖ਼֬ͳਪఆ͕Մೳ ؍ଌใुΛฏۉ͢Δ͚ͩͷฏۉ஋ਪఆྔ

௕ظ࣮ݧΛߦ͏ํ๏ͷ௕ॴͱ୹ॴ • ਪఆྔͷཧղ΍࣮૷͕ͱͯ΋༰қ • ෆภ͔ͭ௿෼ࢄͰͷਪఆ͕Մೳ • ৽ํࡦͷ௕ظ࣮ݧΛߦ͏͜ͱ͸ɺΑΓྑ͍ํࡦΛબ୒͢Δ ͨΊ͚ͩʹ਺ϲ݄d೥Λ౤ࢿ͢Δ͜ͱΛҙຯ͢ΔͨΊ໾ཱͨͣ ϩάσʔλͱ୹ظ࣮ݧΛ૊Έ߹ΘͤΔ͜ͱʹΑΓɺ ௕ظ࣮ݧΛߦ͏৔߹ʹඖఢ͢Δਫ਼౓ͷධՁΛՄೳʹ͍ͨ͠
զʑͷٕज़తϞνϕʔγϣϯ

௕ظ࣮ݧΛඞཁͱ͠ͳ͍ طଘख๏ͱͦͷܽ఺ -POHUFSN$BVTBM*OGFSFODF -$* 5ZQJDBM0⒎1PMJDZ&WBMVBUJPO 01&

طଘख๏̍-POHUFSN$BVTBM*OGFSFODF -$* ௕ظੑೳΛ௕ظ࣮ݧͳ͠Ͱਪఆ͢΂͘ɺ-$*͸࣍ͷछྨͷσʔλΛ׆༻ ୹ظ࣮ݧσʔλ ⿝ ৽ํࡦʹΑΓऩू ✖ ௕ظใु͸ະ؍ଌ ௕ظ ϩάσʔλ
✖ چํࡦʹΑΓऩू ⿝௕ظใु͕؍ଌ -$*͸ߦಈBͷ৘ใΛ ࢖Θͳ͍ͨΊলུ

೥຤ ݄ ݄ ݄ ݄ ํࡦ΍ΞϧΰϦζϜͷ௕ظޮՌΛ΋ͬͱૣ͍࣌ظʹਪఆͰ͖Δ͔ʁ ϕʔεϥΠϯํࡦ͕ ऩूͨ͠ϩάσʔλ ϲ݄ͷ ୹ظ࣮ݧ
ະ؍ଌ

-$*͕ґڌ͢Δ4VSSPHBDZͷԾఆ ߦಈ ୹ظใु ୹ظใु͕ߦಈ΍ํࡦ͕௕ظใुʹରͯ͠༗͢Δ ҼՌޮՌΛશͯઆ໌Ͱ͖Δ͘Β͍े෼ͳ৘ใΛؚΉ͜ͱΛཁٻ ௕ظใु͸ಛ௃ྔYͱ୹ظใुTͷΈ͔Β༧ଌՄೳͰ͋Δ͜ͱΛཁٻ ௕ظใु -$*͸4VSSPHBDZͱݺ͹ΕΔԾఆΛஔ͘

೥຤ ݄ ݄ TVSSPHBDZͷԾఆ ୹ظใु͕ಉ͡Ͱ͋Ε͹௕ظใु΋ಉ͡ ͋ΔϢʔβ ʹ͍ͭͯ ͔ͳΓඇݱ࣮తͳ Ծఆʹࢥ͑Δ

-$*͕ґڌ͢Δ4VSSPHBDZͷԾఆ TVSSPHBDZ ͷ΋ͱͰ͸ ߦಈ ୹ظใु ௕ظใु ظ଴௕ظใुؔ਺ -$*͸4VSSPHBDZͱݺ͹ΕΔԾఆΛஔ͘

-$*ʹΑΔ௕ظੑೳͷਪఆखॱ TVSSPHBDZͷ΋ͱͰ͸௕ظใुΛϩάσʔλͷΈ͔ΒਪఆՄೳ ϩάσʔλ͔Β௕ظใुͷਪఆϞσϧΛಘΔ ৽ํࡦͷ௕ظੑೳΛ୹ظ࣮ݧσʔλʹج͖ͮਪఆ͢Δ ઌʹಘ͍ͯͨਪఆϞσϧ -$*ʹΑΔ̎ஈ֊ਪఆखॱ

୹ظ࣮ݧσʔλͱϩάσʔλͷΈΛ༻͍ͨ-$* Ծʹ௕ظ࣮ݧ͕Մೳͩͬͨ৔߹ͷฏۉ஋ਪఆྔ ௕ظใुͷਪఆϞσϧ ະ؍ଌͷ௕ظใुΛ ϩάσʔλͰֶशͨ͠ ϞσϧͰஔ͖׵͑Δ -$*ʹΑΔ௕ظੑೳͷਪఆखॱ

೥຤ ݄ ݄ ݄ ݄ ສ ϕʔεϥΠϯํࡦ͕ ऩूͨ͠ϩάσʔλ ϲ݄ͷ ୹ظ࣮ݧ
-$*ͷΞΠσΞ ୹ظใुTͱ௕ظใुS ͷؔ܎Λࣄલʹֶश ୹ظใुTͱ௕ظใुS ͷؔ܎ΛϞσϧͰຒΊΔ ສ ϕʔεϥΠϯํࡦͷ ܏޲ʹҾͬுΒΕ͕ͪ

طଘख๏̎ɿయܕతΦϑํࡦධՁ ୹ظใुT΍୹ظ࣮ݧσʔλͷଘࡏΛҰ୴ແࢹ͢Δ͜ͱͰɺ ௕ظใुΛใुSͱͨ͠యܕతͳΦϑํࡦධՁͷ໰୊ͱͯ͠ղ͘͜ͱ΋Մೳ ྫ͑͹ɺ

01&ͷΞΠσΞ ϩάσʔλ্Ͱ৽ํࡦͷڍಈ ΛγϛϡϨʔγϣϯͨ͠ ݁ՌΛকདྷͷੑೳධՁʹྲྀ༻ ೥຤ ݄ ݄ ສ ϕʔεϥΠϯํࡦ͕ ऩूͨ͠ϩάσʔλ
ສ ৽ํࡦͷڍಈΛ࠶ݱ *14 %3 FUD

طଘख๏ͷಛ௃ൺֱ • ํࡦɾߦಈΛϞσϧԽ͠ͳ͍ͨΊɺԠ༻ൣғ͕ඇৗʹ޿͍ • TVSSPHBDZͷԾఆ͕ඞཁ • ௕ظใुͷਪఆϞσϧʹґଘ͢ΔͨΊେ͖ͳόΠΞε͕ൃੜ • ํࡦɾߦಈΛϞσϧԽ͠ͳ͍ͨΊɺํࡦֶश΁ͷ֦ு͕ࠔ೉ -$*ͷ௕ॴͱ୹ॴ
01&ͷ௕ॴͱ୹ॴ • ୹ظใु΍୹ظ࣮ݧσʔλ͕ͳͯ͘΋ϩάσʔλͷΈͰਪఆՄೳ • ୹ظใु΍୹ظ࣮ݧσʔλ͕͋ͬͨͱͯ͠΋׆༻ෆՄೳ • ಛʹ௕ظใुͷϊΠζ͕େ͖͍৔߹ɺ෼ࢄ͕େ͖͘ͳͬͯ͠·͏ • ํࡦ΍ߦಈ͕ϞσϧԽ͞ΕΔΞϧΰϦζϜతঢ়گʹ͔͠ద༻Ͱ͖ͳ͍

ఏҊख๏ -POHUFSN01& -01& l୹ظใुΛϑϧ׆༻͢ΔҰํͰڧ͍Ծఆ͸ஔ͖ͨ͘ͳ͍z

ఏҊख๏-POHUFSN01& -01& -01&͸01&ͱಉ༷ʹɺϩάσʔλͷΈ͔Β࣮ߦՄೳ͕ͩɺ ୹ظ࣮ݧσʔλ͕ଘࡏ͢Ε͹ͦΕΛ׆༻ͯ͠ਪఆਫ਼౓Λ͞Βʹ޲্Ͱ͖Δ ୹ظ࣮ݧσʔλ ⿝ ৽ํࡦʹΑΓऩू ✖ ௕ظใु͸ະ؍ଌ ௕ظ
ϩάσʔλ ✖ چํࡦʹΑΓऩू ⿝௕ظใु͕؍ଌ ඞਢͷσʔλͰ͸ͳ͍͕ ͋Ε͹ΑΓਖ਼֬ʹͳΔ

ใुؔ਺ͷ෼ղ -01&͕༻͍Δใुؔ਺ͷ෼ղ TVSSPHBDZͷҰൠԽ TVSSPHBDZ͸ ΛԾఆ ୹ظใुޮՌ ํࡦޮՌ ˔ ୹ظใुޮՌ ୹ظใुͷΈͰઆ໌Մೳͳ߲
˔ ํࡦޮՌ ݸʑͷํࡦʹґଘͯ͠มԽ͢Δ߲ ௕ظใुؔ਺

୹ظใुޮՌͷ01&తͳਪఆ ํࡦޮՌͷ -$*తͳਪఆ 5IF-01&&TUJNBUPS ఏҊख๏ ୹ظใु෼෍ʹؔ͢Δॏཁ౓ॏΈ ͳ͓୹ظใु෼෍ʹؔ͢Δॏཁ౓ॏΈ͸ɺ୹ظใुͷपล෼෍ʹج͖ͮఆٛ ୹ظใुޮՌΛൈ͖ग़͢෼ղΛར༻ͨ͠-01&ਪఆྔ ྫ͋Δϲ݄ྦྷੵ$7ͷ஋ ສͳͲ
͕ ৽ํࡦͱچํࡦͷݩͰ؍ଌ͞ΕΔ֬཰ͷൺ

୹ظใु෼෍ʹؔ͢Δॏཁ౓ॏΈͷΠϝʔδ ˔ ํࡦ͕มΘΕ͹ɺϲ݄ྦྷੵ$7ͳͲͷ୹ظใुͷ෼෍΋มԽ͢Δ ˔ -01&ͷୈҰ߲Ͱ͸ɺߦಈͰ͸ͳ͘୹ظใु෼෍ʹ͍ͭͯॏΈΛఆٛ ୹ظใुT ϲ݄ྦྷੵDWͳͲ -01&ͷॏΈ෦෼

୹ظใुʹؔ͢Δॏཁ౓ॏΈͷਪఆ ӈͷมܗΛ༻͍Δͱσʔλ͔Β ༰қʹॏΈͷਪఆ͕Մೳ ಛ௃ྔYͱ୹ظใुTʹج͍ͮͯߦಈBΛ෼ྨ͢Δ໰୊Λղ͖ɺ Λਪఆ ୹ظ࣮ݧσʔλ͕͋Ε͹͜ͷ໰୊Λղ͘ࡍͷσʔλ਺Λ૿ڧͰ͖Δ ʹ͍ͭͯͷ௨ৗͷॏཁ౓ॏΈͷظ଴஋Λܭࢉ ୹ظใु෼෍ʹؔ͢Δॏཁ౓ॏΈ

-01&ਪఆྔͷ౷ܭੑ࣭ɾطଘख๏ͱͷൺֱ -$*ΑΓ΋όΠΞε͕ খ͍͞ ํࡦޮՌΛ ແࢹͯ͠ͳ͍ͨΊ 01&ΑΓ΋෼ࢄখ͍͞ ୹ظใुΛ༗ޮ׆༻ ͍ͯ͠ΔͨΊ

௕ظੑೳΛ࠷େԽ͢ΔͨΊͷํࡦֶश΁ͷ֦ு ํࡦֶशͷ໨ඪɿ௕ظੑೳΛ࠷େԽ͢ΔύϥϝʔλΛಘΔ͜ͱ ͜͜Ͱ͸యܕΞϓϩʔνͷҰͭͰ͋Δޯ഑ϕʔεͷख๏Λ༻͍Δ ਅͷํࡦޯ഑͕ະ஌ͳͨΊɺ*14΍%3ͳͲͰਪఆ͢Δͷ͕యܕత ௕ظใुؔ਺

௕ظੑೳΛ࠷େԽ͢ΔͨΊͷํࡦֶश΁ͷ֦ு ͜͜Ͱ΋୹ظใुΛ׆༻͢Δ-01&Λํࡦޯ഑ਪఆʹద༻͢Δ͜ͱͰɺ Φϑํࡦֶशʹ͓͚Δαϯϓϧޮ཰Λେ͖͘վળͰ͖Δ ޯ഑ϕʔεͷํࡦֶश ํࡦޯ഑ʹର͢Δ-01&ਪఆྔ

-01&ਪఆྔͷར఺ͱܽ఺·ͱΊ -01&ͷར఺ l ϩάσʔλ͚ͩͰ΋࣮ߦՄೳ͕ͩɺ୹ظใु΍୹ظ࣮ݧσʔλ͕ଘࡏ͢Ε͹ɺ ͦΕΒΛHؔ਺ͷਪఆʹϑϧ׆༻Ͱ͖ΔͨΊ01&ΑΓ΋෼ࢄΛൃੜ͠ʹ͍͘ l -$*ͷΑ͏ʹํࡦޮՌΛແࢹ͍ͯ͠ͳ͍ͨΊόΠΞεΛൃੜ͠ʹ͍͘ l ΑΓਖ਼֬ͳํࡦޯ഑ਪఆΛ௨ͯ͡௕ظใुʹର͢Δํࡦֶश΋վળͰ͖Δ l
୹ظใु͕Ұ੾ଘࡏ͠ͳ͚Ε͹-01&ͷఆٛ͸01&ʹ͓͚Δ%3ʹؼண͢Δ ࠷ѱέʔεͰ΋01&ͷ%3ͱಉ͡ਫ਼౓ طଘख๏ͱൺֱͨ͠ͱ͖ͷܽ఺͕͋Δͱ͢Ε͹ ˔ ํࡦ΍ߦಈ͕ϞσϧԽ͞ΕΔΞϧΰϦζϜతঢ়گʹ͔͠ద༻Ͱ͖ͳ͍

࣮ߦՄೳʁ TVSSPHBDZ ͕ඞཁ ୹ظใुΛ ׆༻Մೳʁ ํࡦֶशʹ ֦ுՄೳʁ ௕ظ࣮ݧ /P /P
OPOFFE /P -$* :FT :FT :FT /P 01& :FT /P /P :FT -01& 0VST :FT /P :FT :FT

࣮ݧ݁Ռ

جຊతͳ࣮ݧઃఆ l ൺֱख๏ l ௕ظ࣮ݧΛԾʹ࣮ߦͰ͖ͨ৔߹ͷਫ਼౓ ୡ੒Մೳͳਖ਼֬͞ͷ্ݶ l ࣮࣭తͳൺֱख๏-$* *14 01&
%3 01& -01& 0VST l σʔλੜ੒ʹؔ͢Δઃఆ l σϑΥϧτϢʔβ਺ ϩάσʔλαΠζ ͸ɺߦಈ਺͸ l ௕ظɾ୹ظใु͸ڞʹ࿈ଓ஋ͰΨ΢ε෼෍ʹै͏ l ௕ظใुͷϊΠζ TUE ͸ ୹ظใुͷͦΕ͸ l ୹ظใु͸࣍ݩ l ϕʔεϥΠϯํࡦ͸TPGUNBYɺ৽ํࡦ͸FQTHSFFEZͰఆٛ l ใुؔ਺͸ Ͱఆٛ

ϩάσʔλ͓Αͼ୹ظ࣮ݧσʔλͷαΠζΛมߋ l -01&͸-$*ΑΓ΋௿όΠΞεͰ01&ΑΓ΋௿όϦΞϯε l ಛʹσʔλ਺͕গͳ͍ͱ͖ʹ01&ܥͷख๏ʹରͯ͠େ͖ͳվળ σʔλ਺͕ͷͱ͖ʹ%3ʹରͯ͠.4&Λ໿ݮগ

TVSSPHBDZͷԾఆͷഁΕ۩߹Λมߋ l -01& ͱ01& ͸TVSSPHBDZͷԾఆͷഁΕʹରͯ͠ϩόετ l -$*͸TVSSPHBDZͷԾఆ͕େ͖͘ഁΕΔʹͭΕେ͖ͳόΠΞεΛൃੜ l TVSSPHBDZ͕׬ᘳʹຬͨ͞ΕΔ৔߹ͷΈ-$*͸-01&ʹ͍ۙਫ਼౓Λൃش

௕ظใुͷϊΠζͷେ͖͞Λมߋ l 01&͕௕ظใुͷϊΠζ͕େ͖͘ͳΔͱ෼ࢄ͕ٸܹʹ্ঢ l -01& ͱ-$* ͸௕ظใुͷϊΠζʹରͯ͠ൺֱతϩόετ l ݁Ռͱͯ͠-01&͸ϊΠζ͕࠷େͷ৔߹ʹ%3ʹର͠ͷ.4&ݮগ

৽ํࡦͷύϥϝʔλ FQTJMPO Λมߋ l FQTJMPO͕େ͖͍΄Ͳɺ৽چํࡦͷੑೳ͕ࣅ͍ͯ͘ઃఆ l -01&͸ಛʹ৽چํࡦʹੑೳ͕ࠩ͋ΔઃఆͰଞͷਪఆྔΑΓ΋ਖ਼֬ ৽ํࡦ͕چํࡦΛվળ͍ͯ͠Δঢ়گͰਖ਼֬Ͱ͋Δ͜ͱ͸ॏཁ

௕ظੑೳʹؔ͢ΔΦϑํࡦબ୒ͷਖ਼֬͞Λൺֱ l ਤ͸৽چํࡦͷ͏ͪΑΓྑ͍ํࡦΛಛఆͰ͖ͨ֬཰ ͷൺ Λࣔ͢ ஋͕ߴ͍ํ͕௕ظੑೳʹؔ͢ΔΑΓਖ਼֬ͳΦϑํࡦબ୒͕ՄೳͰ͋Δ͜ͱΛҙຯ l -01&͸ɺ௕ظใुͷϊΠζ͕େ͖͔ͬͨΓ৽چํࡦͷੑೳ͕ࠩ খ͍͞ࠔ೉ͳઃఆʹ͓͍ͯɺΑΓਖ਼֬ͳΦϑํࡦબ୒ΛՄೳʹ

௕ظੑೳʹؔ͢ΔΦϑํࡦֶशͷੑೳΛൺֱ l ਤ͸֤ਪఆྔͰํࡦޯ഑Λਪఆͨ͠৔߹ʹಘΒΕΔ৽ํࡦͷ ௕ظੑೳΛൺֱͨ͠΋ͷ -01&1(Λج४ͱ͍ͯ͠Δ l -01&͸ɺσʔλ͕গͳ͔ͬͨΓ௕ظใुͷϊΠζ͕େ͖͔ͬͨΓ ͢Δࠔ೉ͳઃఆʹ͓͍ͯɺΑΓ༗ޮͳΦϑํࡦֶशΛՄೳʹ

4QPUJGZ࣮σʔλΛ༻͍࣮ͨݧ l աڈʹ4QPUJGZ)PNFͷ͋Δਪન࿮ͰߦΘΕͨिؒͷ"#ςετσʔλΛར༻ l "#ςετͰ͸छྨͷ৽ํࡦ͕ൺ΂ΒΕ͍ͯͨ l "#ςετͷ๯಄िؒΛ୹ظ࣮ݧσʔλͱ͠ɺ"#ςετҎલʹچํࡦ͕ऩू͠ ͨϩάσʔλΛ༻͍֤ͯ৽ํࡦͷिؒޙͷੑೳΛ௕ظੑೳͱͯ͠ਪఆ l -01&ʹΑΓطଘख๏ͱൺ΂d΄Ͳͷਫ਼౓վળʹ੒ޭ

·ͱΊ l ৽ํࡦͷ௕ظੑೳΛ௕ظ࣮ݧΛճͣ͞ʹਪఆͰ͖ͨΒخ͍͠ l طଘख๏ʹ-$*΍01&͕͋Δ͕ɺ-$*͸TVSSPHBDZʹཔ͓ͬͯΓ όΠΞε͕େ͖͘ɺ01&͸୹ظใु΍୹ظ࣮ݧσʔλΛ ͏·͘׆༻Ͱ͖ͳ͍ͨΊόϦΞϯε͕େ͖͍ l TVSSPHBDZͷԾఆΛ؇Ίͭͭ୹ظใुΛϑϧ׆༻Ͱ͖Δɺ ৽ͨͳ-01&ਪఆྔ΍ͦΕʹجͮ͘ํࡦֶश๏ΛఏҊ
l ࣮ݧͰ͸σʔλ͕গͳ͍৔߹ɺTVSSPHBDZ͕େ͖͘ഁΕ͍ͯΔ৔߹ɺ ௕ظใु͕ϊΠδʔͳ৔߹ͳͲʹ͓͍ͯਪఆਫ਼౓ʹେ͖ͳվળ l 'VUVSF8PSLͱͯ͠͸ɺ୹ظใुͷදݱֶशͳͲ͕ߟ͑ΒΕΔ

࠷ޙʹl$'.-ຊzͷࠂ஌ l ੈքॳͷ$'.-01&ʹؔ͢ΔڭՊॻ l ౷ܭ෼ੳ෦෼ͷલఏ஌ࣝɾཧ࿦ ͓Α΅ͦΕΒͷ࣮ફԠ༻Λ͢΂ͯΧόʔ l 01&ʹ͍ͭͯཧ࿦ɾ࣮૷ͷ྆໘͔Βղઆ l dׂ͸ᜊ౻ͷݚڀ੒ՌͰߏ੒
l ग़൛Πϕϯτ΍ஶऀओಋͷษڧձ΋։࠵༧ఆ l ग़൛ࣾIUUQTHJIZPKQCPPL l "NB[POIUUQTBN[OBTJBEHXW7

5IBOLZPV DPOUBDUZT!DPSOFMMFEV

方策の長期性能に対する 効率的なオフライン評価・学習 (Long-term Off-Polic...

方策の長期性能に対する 効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)

More Decks by usaito

Other Decks in Research

Featured

Transcript

方策の長期性能に対する効率的なオフライン評価・学習 (Long-term Off-Polic...

方策の長期性能に対する効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)