発表概要: アルゴリズムや方策の短期結果と長期結果は往々にして異なり、長期性能を推定したり、それに基づいて意思決定を下すことがより理想的である。例えば、クリックベイトアルゴリズムでは短期的なクリック数が増加する可能性はあるが、長期的なユーザー満足は低下するため、短期結果に惑わされずに評価を行えることが重要だろう。アルゴリズムの長期結果を推定するためにオンライン実験を実施できるかもしれないが、この方法では長期性能の評価に数ヶ月またはそれ以上の時間がかかり、より良いアルゴリズムを選択する手順として役立たずである。
本研究では、過去の蓄積データと数週間程度の短期実験のみを用いて、アルゴリズムの長期性能をより早期に推定する問題に取り組む。既存アプローチはsurrogacyと呼ばれる短期報酬に関する強い仮定を必要とするか短期報酬を有効活用できず、バイアスとバリアンスのいずれかに大きな問題を抱える。これに対し我々は、簡易な報酬関数の分解に基づく新しい枠組み「LOPE」を提案する。LOPEは、surrogacyよりも弱い仮定で動作し、短期報酬を有効活用することでバリアンスを大幅に削減できる。最後に、データが少ない、surrogacyが仮定できない、報酬のノイズが大きいなどの困難な状況においてLOPEが既存手法を大幅に上回る推定精度を発揮した実験結果を紹介する。