$30 off During Our Annual Pro Sale. View Details »

[IR Reading 2023秋 論文紹介] A Unified Framework for Learned Sparse Retrieval (SIGIR 2023) /IR-Reading-2023-fall

Kohei Shinden
November 18, 2023

[IR Reading 2023秋 論文紹介] A Unified Framework for Learned Sparse Retrieval (SIGIR 2023) /IR-Reading-2023-fall

Published on November 18, 2023
IR Reading 2023秋(オンライン) 開催案内 - ACM SIGIR 東京支部: https://sigir.jp/post/2023-11-18-irreading_2023fall/

論文:
Sarvi et al., On the Impact of Outlier Bias on User Clicks, SIGIR 2023, https://dl.acm.org/doi/abs/10.1145/3539618.3591745, (arXiv: https://arxiv.org/abs/2305.00857)

リポジトリ:
https://github.com/arezooSarvi/outlierbias/

Kohei Shinden

November 18, 2023
Tweet

More Decks by Kohei Shinden

Other Decks in Research

Transcript

  1. [論⽂紹介]
    On the Impact of Outlier Bias on User Clicks
    Fatemeh Sarvi, Ali Vardasbi, Mohammad Aliannejadi, Sebastian Schelter, Maarten de Rijke
    University of Amsterdam
    SIGIR 2023
    論⽂紹介する⼈
    筑波⼤学加藤研究室
    新⽥洸平
    https://sites.google.com/view/kohei-shinden
    ※スライド中の図表は論⽂より引⽤
    2023年11⽉18⽇
    IR Reading 2023 秋
    ⼀般セッション1 No.4

    View Slide

  2. • Unbiased Learning to Rank:
    バイアスの影響を考慮するようなランキング学習
    ‒ 位置バイアス、選択バイアス、⼈気バイアスなどさまざまなバイアスが存在
    背景 2
    より上位に表⽰されている
    アイテムはクリックされやすい
    クリック 適合性
    1 0
    1 0
    1 0
    0 0
    0 1
    Implicit feedback
    下位に位置することでクリックされ
    ないが実際には適合するアイテム
    位置バイアスの例
    ランキングモデルの学習においてバイアスを考慮することは重要
    [1] Sarvi et. al., Understanding and Mitigating the Effect of Outliers in Fair Ranking. WSDM 2022.

    View Slide

  3. • ランキングにおける外れ値の影響
    ‒ ランキングにおける外れ値:
    • 表⽰される検索結果の中でユーザの注意を
    特に引くアイテム
    • 隣接アイテムと⽐較して⾒た⽬に分かりや
    すい特徴を持つ
    ‒ 外れ値は⾛査確率に影響を与える可能
    性があることは明らかになっている[1]
    • 隣接アイテムの操作確率にも影響する
    課題 3
    外れ値アイテム
    他と⽐べて,太字キーワー
    ド,広告⽬的の⽂字列,商
    品詳細などの違いがある
    [1] Sarvi et. al., Understanding and Mitigating the Effect of Outliers in Fair Ranking. WSDM 2022.
    外れ値アイテムのクリック確率に
    対する影響はまだ明らかではない


    類似:コンテキストバイアス
    類似したアイテムが隣接するとクリック率が下がる

    View Slide

  4. ランキングにおいて外れ値が持つバイアスの特定と
    外れ値バイアスに対処する⼿法の提案
    • RQ1: アイテムランキングに外れ値バイアスは存在するか?
    →ランキングに外れ値を含む場合,CTR が向上
    • RQ2: 提案⼿法のパフォーマンスはベースラインと⽐較して向上するか?
    →既存の位置バイアス考慮モデルよりも外れ値に対して有効
    • RQ3: 外れ値バイアスの厳しさが異なる場合、提案⼿法は機能するか?
    →外れ値バイアスの影響が強くなっても提案⼿法は有効
    • RQ4: 提案⼿法は複数の外れ値がある場合、⼀般化するか?
    →複数の外れ値がランキングに含まれる場合も提案⼿法は有効
    ⽬的 4

    View Slide

  5. • 被験者実験による調査から外れ値がランキングに含まれる場合,
    含まれない場合と⽐較してユーザ⾏動が増加して CTR が向上
    RQ1: 外れ値のクリック確率に対する影響 1/2 5
    0.944
    0.880
    0.166
    0.091
    0
    0.2
    0.4
    0.6
    0.8
    1
    Query 1 Query 2
    外れ値がある場合とない場合の CTR
    Condition I Condition II
    緑⾊:外れ値がある場合 茶⾊:外れ値がない場合
    CTR が⼤きく向上
    することがわかる
    スクロールによって
    アイテムを閲覧した
    平均回数
    マウスホバー時間
    (外れ値アイテムの上に
    マウスがある状態)
    CTR: Click Through Rate, クリック確率
    閲覧回数とマウスホバー時間が
    増加していることがわかる
    被験者数:40 名(⼥性 14 ⼈、男性 23⼈、他 3 ⼈)
    33 ⼈の被験者は⽉に最低 1 回はオンラインで買い物をすると回答

    View Slide

  6. • Bol.com[2] を使ったオンライン調査から外れ値がランキングに
    含まれる場合,含まれない場合と⽐較して CTR が向上
    RQ1: 外れ値のクリック確率に対する影響 2/2 6
    [2] Bol.com, https://www.bol.com/nl/nl/ (Accessed: 2023-11-18)
    緑⾊:外れ値がある場合 茶⾊:外れ値がない場合
    表⽰順位ごとの CTR
    外れ値が含まれる場合
    全ての位置で CTR が⾼い
    ☆ が外れ値の位置
    外れ値が任意の位置に含まれる場合の
    各順位の CTR の変化
    外れ値が含まれる位置とその周辺で
    CTR が⾼い傾向が⾒られる

    View Slide

  7. • 位置バイアスを考慮したクリック確率モデルに対して
    外れ値アイテム位置を考慮したクリック確率モデルを提案
    提案⼿法 OPBM 7
    P " = 1 %, ', () = P * = 1 ( × P(* = 1 ∣ %, ')
    既存⼿法:Position-Based Model(PBM)
    アイテムの⾛査確率とアイテムのクエリ適合確率の積
    d:アイテム, q:クエリ, k: アイテムのランク
    ! " = 1 %, ', (, )) = P , = 1 (, ) × P(, = 1 ∣ %, ')
    提案⼿法:Outlier-aware Position-Based Model(OPBM)
    外れ値の位置を考慮したアイテムの⾛査確率とアイテムのクエリ適合率の積
    o: 外れ値の位置(ランク)
    提案⼿法における学習
    クリックデータを使いEM アルゴリズムによってアイテム⾛査確率 E とアイテムのクエリ適合率 R を
    同時に計算してそれぞれの最適なパラメータを求めている,⽬的関数はクロスエントロピー関数

    View Slide

  8. RQ2: ベースラインと提案⼿法の⽐較 8
    • 提案⼿法の OPBM によって外れ値の傾向を推定することで
    ランキングにおけるより正確な適合性予測が可能である
    0 0
    0.8205
    0.9786
    0.5474
    0.6807
    0.1732 0.1916
    0
    0.2
    0.4
    0.6
    0.8
    1
    MSLR Yahoo!
    CE による評価結果
    (より⼩さいと性能が良い)
    Oracle Naïve PBM OPBM
    0.3451
    0.6713
    0.3065
    0.6489
    0.3165
    0.6406
    0.3233
    0.647
    0
    0.2
    0.4
    0.6
    0.8
    1
    MSLR Yahoo!
    NDCG@10 による評価結果
    (より⼤きいと性能が良い)
    Oracle Naïve PBM OPBM

    View Slide

  9. • 外れ値バイアスの影響が強くなった場合においても
    位置バイアスを考慮したモデルより提案⼿法の性能が上回っている
    RQ3: 外れ値バイアスの影響が強い場合の性能 9
    緑⾊:提案⼿法 茶⾊:既存⼿法
    シミュレーションによって外れ値の影響が強いクリックデータを作成して学習

    View Slide

  10. • 複数の外れ値が学習データに含まれる場合においても
    位置バイアスを考慮したモデルより提案⼿法の性能が上回っている
    RQ4: 複数の外れ値が存在する場合の性能 10
    0.5074
    0.6776
    0.3126
    0.3958
    0.1374 0.1548
    0.1283 0.1407
    0
    0.2
    0.4
    0.6
    0.8
    1
    MSLR Yahoo!
    CE による評価結果
    (低いと性能が良い)
    Naïve PBM OPBMlazy OPBM
    0.3159
    0.6564
    0.3219
    0.6497
    0.3223
    0.6566
    0.3229
    0.6572
    0
    0.2
    0.4
    0.6
    0.8
    1
    MSLR Yahoo!
    NDCG@10 による評価結果
    (⾼いと性能が良い)
    Naïve PBM OPBMlazy OPBM
    ランキング性能の改善は⼩さい
    クロスエントロピーの改善は⼤きい
    OPBMlazy
    :ランキングに含まれる1つ⽬の外れ値のみを考慮

    View Slide

  11. • ランキングにおいて外れ値が持つバイアスの特定と
    外れ値バイアスに対処する⼿法の提案を⾏った研究を紹介
    まとめ 11
    ! " = 1 %, ', (, )) = P , = 1 (, ) × P(, = 1 ∣ %, ')
    Outlier-aware Position-Based Model(OPBM)
    外れ値の位置を考慮したアイテム⾛査確率とアイテムのクエリ適合率の積
    0 0
    0.8205
    0.9786
    0.5474
    0.6807
    0.1732 0.1916
    0
    0.2
    0.4
    0.6
    0.8
    1
    MSLR Yahoo!
    0.3451
    0.6713
    0.3065
    0.6489
    0.3165
    0.6406
    0.3233
    0.647
    0
    0.2
    0.4
    0.6
    0.8
    1
    MSLR Yahoo!
    外れ値が含まれる場合にCTR が増加
    することを実験で明らかにした
    既存の位置バイアスを考慮した⼿法よりも
    提案⼿法が外れ値に対して有効であることを明らかにした

    View Slide