$30 off During Our Annual Pro Sale. View Details »

CrossWalk: Fairness-enhanced Node Representation Learning

Sansan R&D
April 06, 2022

CrossWalk: Fairness-enhanced Node Representation Learning

■イベント 
:AAAI-22 論文読み会
https://line.connpass.com/event/242058/

■登壇概要
タイトル:CrossWalk: Fairness-enhanced Node Representation Learning
発表者: 

技術本部 研究開発部 研究員 ⿊⽊ 裕鷹

▼Twitter
https://twitter.com/SansanRandD

Sansan R&D

April 06, 2022
Tweet

More Decks by Sansan R&D

Other Decks in Science

Transcript

  1. CrossWalk: Fairness-enhanced Node Representation Learning Sansan株式会社 技術本部 研究開発部 Data Analysis

    Group ⿊⽊ 裕鷹 2022/04/06 AAAI-22 論⽂読み会
  2. ⾃⼰紹介 ⿊⽊ 裕鷹 オンライン名刺 • 2020年4⽉⼊社 • 4/17 の⻑野マラソンに出場 Yutaka

    Kuroki Sansan 株式会社 技術本部 研究開発部 Data Analysis Group 研究員 プロダクト戦略室 兼務 @kur0cky_y
  3. - AAAI’22 ポスター (Social impact track) - 著者情報 > 筆頭著者は,シャリーフ⼯科⼤学(イラン)の博⼠課程学⽣

    論⽂情報
  4. 背景:node embedding とバイアス

  5. - 離散的なグラフのノードを,低次元な密ベクトルで表現する技術 - 様々な後段タスクに有⽤.使い勝⼿が良い - ⾊々なアルゴリズム > ⾏列分解系 > ランダムウォーク系

    > 深層学習系 - グラフスペクトルからの 理論的考察も深い(Qiu et al., 2018) node embedding Perozzi et al. (2014) Fig.1
  6. - グラフ ML における Fairness の研究は成熟してない - 現実にグラフデータは多く存在し,課題も多い > e.g.,

    求⼈や融資などの情報は, sensitive 特徴に関わらず全てのコミュニティで適切に受け 取られる必要がある(homophily などが難しくしている) node embedding と Fairness / bias 𝑄: アルゴリズム 𝐴 によるパフォーマンス 𝑖 :sensitive 特徴の1⽔準 𝐶: sensitive 特徴の⽔準集合 𝐴: 後段のグラフタスク disparity: - 本論⽂でメインで考える Fairnessの指標 (⼩さいほど Fair) - sensitive 特徴の⽔準グループ間で パフォーマンスに差があってはいけない > 年齢なら 10代,20代, …
  7. 背景:FairWalk

  8. 概要 - IJCAI’19 の論⽂ - node2vec (Grover et al., 2016)

    の改良.sensitive 特徴が異なるノード間を接続 するエッジを遷移しやすいようバイアスをかけてランダムウォークする. 課題 - ⼤多数のノードがグループの境界から 1hop 以上離れていると意味がない - 元々,Link prediction を対象としており,広範なタスクで検証する必要がある > とりあえず何も考えず後段で利⽤できることがランダムウォーク系 embedding の良さでもある FairWalk (Rahman et al., 2019)
  9. 提案⼿法:CrossWalk

  10. 基本的なアイデア - FairWalkを改良し,ランダムウォークにバイアスをかける > 異なるグループを接続するエッジに重み(FairWalk) > グループの周辺に近いノードへの遷移に重み CrossWalk のアイデア

  11. - かけるバイアスの強さを制御するパラメータ 𝛼, 𝑝 の導⼊ - グループ境界への近さを表す proximity 𝑚 の導⼊

    > ランダムウォーク中のノードが異なる グループに属する割合 CrossWalk の概要 𝑣: ランダムウォークのソースノード 𝑙! : ノード 𝑢 の属するグループ 𝑟: ランダムウォークの本数 𝑑: ランダムウォークの⻑さ 𝒲" : ソースが 𝑣 のランダムウォーク中のノード集合
  12. - sensitive 特徴の⽔準グループを近づける効果がある CrossWalk の効果

  13. 実験

  14. - 3つのタスクで,性能と disparity を評価 > 影響⼒最⼤化 > リンク予測 > ノード分類

    - ⽐較アルゴリズム > DeepWalk, node2vec > FairWalk - 2つの実データセット,2つの⼈⼯データセット 実験
  15. - Rice-Facebook (Mislove et al., 2010) > Rice University の友⼈関係を表す無向グラフ

    > 1205ノード,42443エッジ > sensitive 特徴は成年かどうか.ラベルは college id - Twitter dataset (Babaei et al., 2016) > 無向かつ連結な twitter FF関係 > 3560ノード > sensitive 特徴は政治的スタンス(リベラル / 中⽴ / 保守).ラベルなし - 2つの⼈⼯ネットワーク > Stochastic Block Model で⽣成 データセット
  16. - ネットワーク全体に及ぼす影響を最⼤化するように,初期ノード集合を 定める最適化問題 > NP 困難 > node embedding に

    k-means, k-medoids を組み合わせる⼿法も有効 (Keikha et al., 2020) - 現実の情報拡散は様々な要因の影響を受けるが,すべてをモデル化すること はできないため,確率過程として近似されることが多い > IC (Independent Cascade) モデル: 超転換の情報伝播が超転換に割り当てられた確率 のみに依存し独⽴に試⾏されるモデル 影響⼒最⼤化
  17. - IC モデルでの伝播を仮定し,最終的に影響を 及ぼした割合を測る. - k-medoid クラスタリングをそれぞれの埋め込み に適⽤し,seed を選択 (k=40)

    - CrossWalk が最も disparity が⼩さく, 総影響⼒の減少も少ない (Fig. 4) - node2vec に適⽤しても同様の結果となった. (Fig. 5) 結果:影響⼒最⼤化
  18. - Rice Facebook データの college を分類 > sensitive 特徴は年齢 -

    得られた埋め込みを Label Propagation (k=7) で分類 - CrossWalk は精度を下げずに disparity を 抑えられている 結果:ノード分類
  19. - Rice-Facebook,Twitter データセットでリンク予測 - ロジスティック回帰で識別(特徴量は距離) - CrossWalk は FairWalk よりもほんの少し精度を下げながらも,disparity

    を⼤きく抑えている 結果:リンク予測
  20. - ランダムウォークに基づく node embedding において, 広範な後段タスクでの disparity を抑える(sensitive特徴 のグループ間で 性能に差がない)アルゴリズム

    CrossWalk を提案 > 任意のランダムウォークに適⽤可能 - ランダムウォークにバイアスをかける > 異なるグループを接続するエッジに重み(FairWalk) > グループの周辺に近いエッジに重み - 実験のより詳細はサプリや github を参照とのこと > https://github.com/CrossWalk-paper/crosswalk まとめ
  21. - アイデアが単純で良い - 結局ハイパーパラメータ 𝛼, 𝑝 のチューニングが⼤変になる - proximity の計算が⼤変そう

    > 実験データは⼩さい 感想
  22. - Babaei, M., Grabowicz, P., Valera, I., Gummadi, K. P.,

    & Gomez-Rodriguez, M. (2016). On the efficiency of the information networks in social media. In Proceedings of the Ninth ACM International Conference on Web Search and Data Mining. 83–92. - Grover, A., & Leskovec, J. (2016). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 855–864. - Keikha, M. M., Rahgozar, M., Asadpour, M., & Abdollahi, M. F. (2020). Influence maximization across heterogeneous interconnected networks based on deep learning. Expert Systems with Applications, 140, 112905. - Mislove, A., Viswanath, B., Gummadi, K. P., & Druschel, P. (2010). You are who you know: inferring user profiles in online social networks. In Proceedings of the third ACM international conference on Web search and data mining. 251–260. - Perozzi, B., Al-Rfou, R., & Skiena, S. (2014). Deepwalk: Online learning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 701–710. - Qiu, J., Dong, Y., Ma, H., Li, J., Wang, K., & Tang, J. (2018). Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec. In Proceedings of the eleventh ACM international conference on web search and data mining. 459–467. - Rahman, T., Surma, B., Backes, M., & Zhang, Y. (2019). Fairwalk: Towards Fair Graph Embedding., In Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. 3289–3295. 参考⽂献