Upgrade to Pro — share decks privately, control downloads, hide ads and more …

方策の長期性能に対する 効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)

usaito
April 18, 2024

方策の長期性能に対する 効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)

発表概要: アルゴリズムや方策の短期結果と長期結果は往々にして異なり、長期性能を推定したり、それに基づいて意思決定を下すことがより理想的である。例えば、クリックベイトアルゴリズムでは短期的なクリック数が増加する可能性はあるが、長期的なユーザー満足は低下するため、短期結果に惑わされずに評価を行えることが重要だろう。アルゴリズムの長期結果を推定するためにオンライン実験を実施できるかもしれないが、この方法では長期性能の評価に数ヶ月またはそれ以上の時間がかかり、より良いアルゴリズムを選択する手順として役立たずである。

本研究では、過去の蓄積データと数週間程度の短期実験のみを用いて、アルゴリズムの長期性能をより早期に推定する問題に取り組む。既存アプローチはsurrogacyと呼ばれる短期報酬に関する強い仮定を必要とするか短期報酬を有効活用できず、バイアスとバリアンスのいずれかに大きな問題を抱える。これに対し我々は、簡易な報酬関数の分解に基づく新しい枠組み「LOPE」を提案する。LOPEは、surrogacyよりも弱い仮定で動作し、短期報酬を有効活用することでバリアンスを大幅に削減できる。最後に、データが少ない、surrogacyが仮定できない、報酬のノイズが大きいなどの困難な状況においてLOPEが既存手法を大幅に上回る推定精度を発揮した実験結果を紹介する。

usaito

April 18, 2024
Tweet

More Decks by usaito

Other Decks in Research

Transcript

  1. ؆୯ʹࣗݾ঺հ ໊લɿᜊ౻ ༏ଠ !VTBJU ܦྺɿ๺ւಓੜ·Ε ౦޻େ ถίʔωϧ ςοΫاۀʹજೖ͠ݚڀ ݚڀྖҬɿػցֶश ҼՌਪ࿦

    ਪનɾݕࡧγεςϜ ڞಉݚڀ౳ɿ$ZCFS"HFOU ιχʔ %.. -*/&Ϡϑʔ ϦΫϧʔτͳͲ ͦͷଞ  'PSCFT+BQBO6OEFS XJUIࠤʑ໦࿕ر౤खΒ  'PSCFT+BQBO6OEFSΞυόΠβϦʔϘʔυ  ೔ຊΦʔϓϯΠϊϕʔγϣϯେ৆಺ֳ૯ཧେਉ৆  ଙਖ਼ٛҭӳࡒஂୈظੜ ધҪ৘ใՊֶৼڵࡒஂ঑ֶੜ  5XP4JHNB1I%'FMMPXTIJQ`3VOOFSVQ 5PQ  ࢪࡦσβΠϯͷͨΊͷػցֶशೖ໳ ൓࣮Ծ૝ػցֶश ͷࣥච
  2. ˔ -POHUFSN0⒎1PMJDZ&WBMVBUJPO ˔ :VUB4BJUP )JNBO"CEPMMBIQPVSJ  +FTTF"OEFSUPO #FO$BSUFSFUUF  BOE.PVOJB-BMNBT

    ˔ Ͱͷ1I%SFTFBSDIJOUFSOதʹ ॻ͍ͨ࿦จ ˔ JOUFSOظؒ೥݄d݄ ౤ߘ݄ ˔ ࣮"#ςετσʔλ΋Ұ෦׆༻ ঺հ͢Δ࿦จ
  3. ຊ೔ߟ͍͑ͨ໰୊ ೥຤ ݄ ݄ ݄ ݄ ϕʔεϥΠϯํࡦ چϩδοΫ  Λ೥ॳ͔Βӡ༻

    ௕ظϝτϦοΫ ྦྷੵ$7ͳͲ ৽ํࡦ ৽ϩδοΫ Λӡ༻։࢝ ສ$7 ສ ສ
  4. ༻͍Δه߸ͱ۩ମྫͷରԠ ೥຤ ୹ظใु ϲ݄ྦྷੵ$7 ௕ظใु ϲ݄ྦྷੵ$7 ݄ ݄ ࠶ελʔτ ݄

    ݄ ͷ৔߹ ͋ΔϢʔβ ʹ͍ͭͯ ൒೥ؒʹߦ͏հೖͷ૊Έ߹Θͤ ࠓճ͸ใुͷ෼෍มԽ͸ߟ͑ͳ͍ Ծʹશ͘ಉ͡հೖΛͨ͠৔߹ɺ ظ଴஋ ͷҙຯͰ ൒೥ຖʹಘΒΕΔ݁Ռ͸౳͍͠ ൒೥ؒʹߦ͏հೖͷ૊Έ߹Θͤ
  5. ೥຤ ݄ ݄ ݄ ݄ ສ ϕʔεϥΠϯํࡦ͕ ऩूͨ͠ϩάσʔλ ϲ݄ͷ ୹ظ࣮ݧ

    -$*ͷΞΠσΞ ୹ظใुTͱ௕ظใुS ͷؔ܎Λࣄલʹֶश ୹ظใुTͱ௕ظใुS ͷؔ܎ΛϞσϧͰຒΊΔ ສ ϕʔεϥΠϯํࡦͷ ܏޲ʹҾͬுΒΕ͕ͪ
  6. طଘख๏ͷಛ௃ൺֱ • ํࡦɾߦಈΛϞσϧԽ͠ͳ͍ͨΊɺԠ༻ൣғ͕ඇৗʹ޿͍ • TVSSPHBDZͷԾఆ͕ඞཁ • ௕ظใुͷਪఆϞσϧʹґଘ͢ΔͨΊେ͖ͳόΠΞε͕ൃੜ • ํࡦɾߦಈΛϞσϧԽ͠ͳ͍ͨΊɺํࡦֶश΁ͷ֦ு͕ࠔ೉ -$*ͷ௕ॴͱ୹ॴ

    01&ͷ௕ॴͱ୹ॴ • ୹ظใु΍୹ظ࣮ݧσʔλ͕ͳͯ͘΋ϩάσʔλͷΈͰਪఆՄೳ • ୹ظใु΍୹ظ࣮ݧσʔλ͕͋ͬͨͱͯ͠΋׆༻ෆՄೳ • ಛʹ௕ظใुͷϊΠζ͕େ͖͍৔߹ɺ෼ࢄ͕େ͖͘ͳͬͯ͠·͏ • ํࡦ΍ߦಈ͕ϞσϧԽ͞ΕΔΞϧΰϦζϜతঢ়گʹ͔͠ద༻Ͱ͖ͳ͍
  7. ࣮ߦՄೳʁ TVSSPHBDZ ͕ඞཁ ୹ظใुΛ ׆༻Մೳʁ ํࡦֶशʹ ֦ுՄೳʁ ௕ظ࣮ݧ /P /P

    OPOFFE /P -$* :FT :FT :FT /P 01& :FT /P /P :FT -01& 0VST :FT /P :FT :FT
  8. جຊతͳ࣮ݧઃఆ l ൺֱख๏ l ௕ظ࣮ݧΛԾʹ࣮ߦͰ͖ͨ৔߹ͷਫ਼౓ ୡ੒Մೳͳਖ਼֬͞ͷ্ݶ l ࣮࣭తͳൺֱख๏-$* *14 01&

    %3 01& -01& 0VST l σʔλੜ੒ʹؔ͢Δઃఆ l σϑΥϧτϢʔβ਺ ϩάσʔλαΠζ ͸ɺߦಈ਺͸ l ௕ظɾ୹ظใु͸ڞʹ࿈ଓ஋ͰΨ΢ε෼෍ʹै͏ l ௕ظใुͷϊΠζ TUE ͸ ୹ظใुͷͦΕ͸ l ୹ظใु͸࣍ݩ l ϕʔεϥΠϯํࡦ͸TPGUNBYɺ৽ํࡦ͸FQTHSFFEZͰఆٛ l ใुؔ਺͸ Ͱఆٛ
  9. ࠷ޙʹl$'.-ຊzͷࠂ஌ l ੈքॳͷ$'.-01&ʹؔ͢ΔڭՊॻ l ౷ܭ෼ੳ෦෼ͷલఏ஌ࣝɾཧ࿦ ͓Α΅ͦΕΒͷ࣮ફԠ༻Λ͢΂ͯΧόʔ l 01&ʹ͍ͭͯཧ࿦ɾ࣮૷ͷ྆໘͔Βղઆ l dׂ͸ᜊ౻ͷݚڀ੒ՌͰߏ੒

    l ग़൛Πϕϯτ΍ஶऀओಋͷษڧձ΋։࠵༧ఆ l ग़൛ࣾIUUQTHJIZPKQCPPL l "NB[POIUUQTBN[OBTJBEHXW7