Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RecSys2021論文読み会]User Bias in Beyond-Accuracy Measurement of Recommendtion Algorithms

C4f25e9c04b284ee2910de40f9c01d15?s=47 okukenta
October 21, 2021

[RecSys2021論文読み会]User Bias in Beyond-Accuracy Measurement of Recommendtion Algorithms

RecSys2021論文読み会での論文紹介資料です。
https://connpass.com/event/226873/

紹介論文:
N. Wang, L. Chen, User Bias in Beyond-Accuracy Measurement of Recommendtion Algorithms, In Proceedings of the 15th ACM conference on Recommender systems, pp.133-142, 2021.

C4f25e9c04b284ee2910de40f9c01d15?s=128

okukenta

October 21, 2021
Tweet

Transcript

  1. User Bias in Beyond-Accuracy Measurement of 
 Recommendtion Algorithms
 N.

    Wang, L. Chen
 2021年10月23日
 RecSys2021論文読み会
 紹介者:龍谷大学 奥 健太
 紹介論文

  2. 背景
 推薦システムを評価する際に,性能向上だけでなく,アルゴリズムのバイアスや不公平性 についても考慮に入れることが重要視されている
 バイアスの例;
 従来の協調フィルタリングは人気アイテムを推薦する傾向にあり,新規アイテムの発見には限界があ る.結果的にロングテールのアイテムの販売は少なくなる [33, 45].
 ※スライド中の文献番号は紹介論文のREFERENCESの番号に対応


  3. 関連研究 | アルゴリズムのバイアスに関する研究
 アイテムバイアス [1]
 ➢ 人気バイアス
 
 ユーザバイアス(algorithmic user

    bias) [12, 36, 40]
 
 ➢ 既存研究は主にアルゴリズムの正確性(RMSEやNDCGなど)に焦点
 ◦ beyond-accuracyに関するユーザバイアスはあまり調査されていない 
 
 ➢ ユーザ属性についてはデモグラフィック情報(年齢や性別)[12, 40] に焦点
 ◦ パーソナリティに着目したものはあまりない 

  4. 本研究 | リサーチ・クエスチョン
 beyond-accuracyだけでなく,
 パーソナリティと好奇心の観点からユーザバイアスについて分析
 RQ1: beyond-accuracyの観点から,異なるユーザ群の間で,
    アルゴリズムの性能に有意な差はあるか?
 RQ2: バイアスはいかにユーザに対する不公平性に影響を与えるか?


  5. アプローチ
 1. Taobao Serendipity Datasetを用いて分析
 a. ユーザは年齢,性別,パーソナリティ,好奇心 の属性をもつ
 b. 4種類の中からランダムに選ばれた推薦アルゴリズムにより推薦されたアイテムに対し,

    正 確性,多様性,新規性,意外性,セレンディピティ の観点で評価値付け
 
 2. ユーザを属性ごとにlow / highの2群に分割
 例;好奇心の低いユーザ群 / 高いユーザ群
 
 3. 評価指標ごとに各アルゴリズムについて有意にバイアスが現れるか検定
 4. ユーザのログと評価値に基づきユーザの行動パターンについて分析
 5. ユーザバイアスとユーザの行動パターンに基づき,バイアスが異なるユーザ群にお いて不公平性をもたらしているかなどを分析

  6. データセット
 Taobao Serendipity Dataset [10, 44]*
 ➢ 中国の有名なオンラインショッピングサイトであるMobile Taobaoから収集
 ➢

    収集期間:2017-12-21~2018-03-17
 ➢ ユーザ数:11,383
 * https://github.com/greenblue96/Taobao-Serendipity-Dataset
 評価指標
 ➢ ユーザにランダムに割り当てられた推薦アルゴリズムによりアイテムを推薦
 ➢ ユーザは推薦アイテムに対して,正確性,多様性,新規性,意外性,セレンディピ ティなど各観点について5段階のリッカート尺度で評価付け

  7. 評価指標
 評価指標 ユーザ評価における提示文 正確性 "The item recommended to me matches

    my interests." 多様性 "The item recommended to me is similar to the system's prior recommendations." (reversed) 新規性 "The item recommended to me is novel." 意外性 "The item recommended to me is uexpected." セレンディピティ "The item recommended to me is a pleasant surprise." ユーザが推薦アイテムに対して各評価指標に関する提示文に対して
 5段階リッカート尺度により回答
 {1: まったくそうは思わない,2: そうは思わない,3: どちらともいえない,4: そう思う,5: 非常にそう思う}

  8. 推薦アルゴリズム
 HOT: 最も人気のあるアイテムを推薦
 Rel-CF: ユーザベースCFによりユーザに適合するアイテムを推薦
 Nov-CF: 新規性を考慮したアイテムベースCFによりアイテムを推薦
 Ser-CF: セレンディピティ(適合性と意外性の両方)を考慮した
 アイテムベースCFによりアイテムを推薦


  9. ユーザ属性
 デモグラフィック属性: 年齢,性別
 Big-5パーソナリティ: 外向性,協調性,勤勉性,神経症傾向,開放性 
 好奇心: 
 ➢ Curiosity

    and Exploration Inventory-II (CEI-II) [21]により調査
 ➢ Ten-Item Personality Inventory (TIPI) [14]により調査

  10. 議論 | RQ1
 1) 特にセレンディピティに関して,アルゴリズムにバイアスがみられた
 2) 年齢と好奇心に関して,アルゴリズムにバイアスがみられた
 3) どのアルゴリズムも同じユーザ群に対してバイアスがみられた
 RQ1:

    beyond-accuracyの観点から,異なるユーザ群の間で,
    アルゴリズムの性能に有意な差はあるか?
 Table 2 セレンディピティに関するほとんどの結果で,High/Lowのユーザ群の間で有意 差が現れた
 Table 2 年齢と好奇心に関するすべての結果で,High/Lowのユーザ群の間で有意差が 現れた
 Table 2 例;いずれのアルゴリズムもセレンディピティに関して好奇心が強いユーザ群が 有意に高い評価値を示した
 Table 2 紹介論文のTable 2を参照

  11. 議論 | RQ2
 1) 協調性が高いユーザは新規性に関してポジティブな評価値(+4以上)を与える傾向にあ るが     ,Rel-CF/Nov-CF/Ser-CFによる推薦の新規性に関しては,平均評価値は 協調性が低いユーザに比べて有意に低かった
 
 
 RQ2:

    バイアスはいかにユーザに対する不公平性に影響を与えるか?
 Table 4 Table 2 これらのアルゴリズムにより生成された推薦は 協調性が高いユーザにとっては新規性が低かった といえる
 2) 神経症傾向が低いユーザは関連性に関してポジティブな評価値を与える傾向にある が    ,HOT/Rel-CF/Nov-CF/Ser-CFによる推薦の関連性に関しては平均評価値は 神経症傾向が高いユーザに比べていずれも有意に低かった
 
 
 Table 4 Table 2 これらのアルゴリズムにより生成された推薦は 神経症傾向が低いユーザにとっては関連性が低 かったといえる
 Table 4 紹介論文のTable 4を参照

  12. まとめ
 RQ1: beyond-accuracyの観点から,異なるユーザ群の間で,
    アルゴリズムの性能に有意な差はあるか?
 RQ2: バイアスはいかにユーザに対する不公平性に影響を与えるか?
 1) 特にセレンディピティに関して,アルゴリズムにバイアスがみられた
 2) 年齢と好奇心に関して,アルゴリズムにバイアスがみられた


    3) どのアルゴリズムも同じユーザ群に対してバイアスがみられた
 将来課題
 ➢ 他の最先端の推薦アルゴリズムやユーザ行動パターンについて分析
 ➢ 分析結果に基づいたバイアスのない推薦アルゴリズムの開発