文脈付きバンディットにおけるオフ方策評価は、過去のログデータのみを用いた方策のオフライン性能評価を可能にする。しかし、行動数が多くなる場合に、傾向スコアに基づく既存推定量が精度を著しく悪化してしまう問題がある。これは、推薦・検索システムや言語モデルなど、行動数が多くなりがちな応用において特に深刻な未解決問題である。この問題を解決すべく、昨年我々は、行動やアイテムに関する特徴量・埋め込みを活用した新たなMIPS推定量(ICML2022)を開発した。MIPSは特に大規模問題において既存推定量を凌駕するオフライン評価精度を発揮するが、行動特徴量が高次元の場合に、バイアスまたはバリアンスのどちらかが大きくなってしまう問題を抱える。よって、MIPSの問題点を解決し大規模問題におけるオフライン評価の精度をさらに向上させるために、報酬関数の新たな分解に基づいて定義されるOffCEMという推定量を新たに提案する。また特に行動数が多い状況や行動の特徴量が高次元の場合に、OffCEMが大きな統計的利点をもたらすことを示す。最後に、OffCEMが既存推定量よりも行動数の増加に対して非常に頑健であることを示す実験結果を紹介する。