文脈付きバンディットにおけるオフ方策評価は、過去のログデータのみを用いた新しい方策の性能評価を可能にするため、多くの実応用で急速に採用されている。しかし、行動数が多くなる場合に、既存の推定量(多くは傾向スコア重み付けに基づく)の精度が著しく悪化してしまう問題がある。これは、推薦システムや言語モデルなど、行動数が多くなりがちな応用において特に深刻な未解決問題である。本講演では、この問題を解決するために、行動の埋め込み情報を活用した新たな推定量MIPSを提案する。またMIPSの重要な統計的性質を分析し、特に行動数が多い状況において、従来の推定量に対して統計的な利点をもたらすことを示す。最後に、MIPSが既存の推定量よりも行動数の増加に対して頑健であることを示す実験結果を紹介する。