発表概要: テック企業における機械学習応用の場面においては、機械学習による予測をそのまま用いるのではなく、「それぞれのユーザーにどのファッションアイテムを推薦すべきか?」などの意思決定を下すための情報として用いることが多い。このような場合に、予測精度をオフライン評価指標として用いてしまうと、最終的なモデル選択に失敗してしまうことがある。本発表では、機械学習による予測に基づいて作った意思決定policyの性能を直接オフラインで評価するためのOff-Policy Evaluationの基礎について解説する。また、国内最大のファッションECサイトであるZOZOTOWNにおいて私を含む研究チームが行った実験に基づき研究用に公開した大規模実データ(Open Bandit Dataset)とパッケージ(Open Bandit Pipeline)について特徴や、使用方法について解説する。
参考資料
論文: https://arxiv.org/abs/2008.07146
Open Bandit Pipeline: https://github.com/st-tech/zr-obp
Open Bandit Dataset: https://research.zozo.com/data.html
プレスリリース: https://corp.zozo.com/news/20200818-11223/