Upgrade to Pro — share decks privately, control downloads, hide ads and more …

推薦システムの評価 | 第6回 推薦システム概論

推薦システムの評価 | 第6回 推薦システム概論

下記教科書を基にした推薦システム概論の講義スライドです。
奥 健太:基礎から学ぶ推薦システム - 情報技術で嗜好を予測する -, コロナ社 (2022)

当スライドの利用については下記サポートサイトをご参照ください。
推薦システム概論 | recsys-text

okukenta

May 09, 2022
Tweet

More Decks by okukenta

Other Decks in Technology

Transcript

  1. 実験計画 (1) 評価目的(evaluation goal) 推薦システムの何を評価したいのか、評価目的を仮説の形で定義 (2) 評価指標(evaluation metric) 推薦システムの性能を測る尺度 (3)

    ベースライン(baseline) 推薦システムの性能を測るための比較対象 (4) ハイパーパラメタ(hyperparameter) 推薦システムを設計する際に必要なパラメタ
  2. データセット(dataset) user_id item_id rating 1 1 5 1 2 4

    : : : 1 8 2 2 1 3 2 2 3 : : : 2 9 5 3 1 4 3 3 3 : : : 3 8 3 user_id name age sex 1 Alice 20 f 2 Bruno 22 m 3 Chiara 21 f item_id name category 1 ショートケーキ スポンジケーキ 2 シフォンケーキ スポンジケーキ 3 ロールケーキ スポンジケーキ 4 スフレチーズケーキ チーズケーキ 5 ベイクドチーズケーキ チーズケーキ 6 レアチーズケーキ チーズケーキ 7 ガトーショコラ チョコレートケーキ 8 フォンダンショコラ チョコレートケーキ 9 ブラウニー チョコレートケーキ 10 ザッハトルテ チョコレートケーキ 評価履歴 ユーザ アイテム 正解データとして、 の組の集合により提供されている ユーザ u がアイテム i に対して 評価値 を与えたという事実
  3. 評価履歴の分割 (1) 訓練データ(training data) 学習モデルの構築に用いられる (2) 検証データ(validation data) 最適なパラメタを見つけるための パラメタ検証に用いられる

    (3) テストデータ(test data) 最終的な評価に用いられる 評価履歴 訓練データ テストデータ 検証データ 50% 25% 25%
  4. 交差検証法(cross-validation) 評価履歴を k 組に分割し、この k 組のうちの1組の評価履歴をテストデー タとして、残りの k - 1

    組の評価履歴を訓練データとし、これを k パター ン用意する 評価履歴 テスト テスト テスト テスト テスト 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練 訓練
  5. オフライン評価 ユーザ評価 オンライン評価 実施コスト 実ユーザの 反応評価 ユーザの分布 その他 ➢ さまざまな条件で

    の比較 ➢ 定性的な評価 ➢ 長期的な評価 ➢ リスクが大きい ➢ 十分なユーザ数が 必要 評価方法の比較
  6. テストデータ ユーザ-ケーキ評価値行列 ショート ケーキ シフォン ケーキ ロール ケーキ スフレ チーズ

    ケーキ ベイクド チーズ ケーキ レア チーズ ケーキ ガトー ショコラ フォンダン ショコラ ブラウニー ザッハ トルテ Alice 5 4 3 ? 5 4 2 2 ? ? Bruno 3 3 3 3 2 ? 4 ? 5 ? Chiara 4 ? 3 5 4 3 ? 3 ? ? ショート ケーキ シフォン ケーキ ロール ケーキ スフレ チーズ ケーキ ベイクド チーズ ケーキ レア チーズ ケーキ ガトー ショコラ フォンダン ショコラ ブラウニー ザッハ トルテ Alice 4 2 Bruno 2 5 Chiara 3 テストデータ 正解データ(ground truth)
  7. ユーザ u アイテム i 1:Alice 2:シフォンケーキ 4 2 2 2

    4 1:Alice 7:ガトーショコラ 2 2 0 0 0 2:Bruno 9:ブラウニー 5 3 2 2 4 2:Bruno 5:ベイクドチーズケーキ 2 2 0 0 0 3:Chiara 8:フォンダンショコラ 3 3 0 0 0 嗜好予測の正確性 テストデータ 平均絶対誤差 (mean absolute error; MAE) 平均二乗誤差 (mean square error; MSE) 二乗平均平方根誤差 (root mean square error; RMSE)
  8. 推薦された(陽性) 推薦されなかった(陰性) 好き 真陽性(true-positive; TP) 偽陰性(false-negative; FN) 嫌い 偽陽性(false-positive; FP)

    真陰性(true-negative; TN) 推薦された 推薦されなかった 好き 好きなアイテムが推薦された数(TP) 好きなアイテムが推薦されなかった数(FN) 嫌い 嫌いなアイテムが推薦された数(FP) 嫌いなアイテムが推薦されなかった数(TN) 混同行列(confusion matrix) 混同行列 ユーザが好きなアイテムが推薦された/されなかった数、ユーザが嫌いな アイテムが推薦された/されなかった数を2行2列の表にまとめたもの
  9. 推薦された 推薦されなかった 好き 好きなアイテムが推薦された数(TP) 好きなアイテムが推薦されなかった数(FN) 嫌い 嫌いなアイテムが推薦された数(FP) 嫌いなアイテムが推薦されなかった数(TN) 偽陽性率(false-positive rate;

    FPR) すべての嫌いなアイテムのうち上位 K 件の 推薦リストに含まれる嫌いなアイテムの割合 真陽性率(true-positive rate; TPR) すべての好きなアイテムのうち上位 K 件の 推薦リストに含まれる好きなアイテムの割合 真陽性率と偽陽性率 混同行列
  10. 平均逆順位(mean reciprocal rank; MRR) 推薦リストを1位から順にみていったとき、好きなアイテムがいかに早く 現れるかを示す指標 順位 K 好き嫌い 1

    好き 2 好き 3 嫌い 4 好き 5 嫌い 順位 K 好き嫌い 1 嫌い 2 好き 3 嫌い 4 嫌い 5 好き 順位 K 好き嫌い 1 嫌い 2 嫌い 3 好き 4 好き 5 嫌い Alice Bruno Chiara
  11. 平均適合率(average precision; AP) 推薦リストの長さを K に固定したとき、第 K 位までの適合率の平均をと った評価指標 ユーザ

    u 向けの推薦リストの 平均適合率 順位 K 1 2 3 4 5 好き/嫌い 好き 好き 嫌い 好き 嫌い Alice向けの推薦リスト
  12. MAP(mean average precision) すべてのユーザの平均適合率の平均 順位 K 好き嫌い 1 好き 2

    好き 3 嫌い 4 好き 5 嫌い 順位 K 好き嫌い 1 嫌い 2 好き 3 嫌い 4 嫌い 5 好き 順位 K 好き嫌い 1 嫌い 2 嫌い 3 好き 4 好き 5 嫌い Alice Bruno Chiara
  13. 順位 K 1 2 3 4 5 5 4 3

    5 2 DCG(discounted cumulative gain) Alice 推薦リスト上位に高評価値のアイテムが含まれているほど高く評価 ユーザ u 向けの推薦リストに 含まれるアイテム集合 推薦リストにおけるアイテム i の順位
  14. アイテム i 1 2 3 5 6 7 8 5

    4 3 5 4 2 2 順位 K 1 2 3 4 5 5 5 4 4 3 IDCG(ideal discounted cumulative gain) ユーザ u のテストデータを理想的な順位に並べ替えた推薦リストのDCG Aliceのテストデータ Aliceにとっての 理想的な推薦リスト
  15. 多様性(diversity) 推薦リストがいかに多様なアイテムを含むかを測る評価指標 アイテム i カテゴリ 5:ベイクドチーズケーキ チーズケーキ 7:ガトーショコラ チョコレートケーキ 8:フォンダンショコラ

    チョコレートケーキ 9:ブラウニー チョコレートケーキ 10:ザッハトルテ チョコレートケーキ アイテム i カテゴリ 1:ショートケーキ スポンジケーキ 4:スフレチーズケーキ チーズケーキ 5:ベイクドチーズケーキ チーズケーキ 7:ガトーショコラ チョコレートケーキ 8:フォンダンショコラ チョコレートケーキ 推薦リストA 推薦リストB 多様性↓ 多様性↑