Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CrossWalk: Fairness-enhanced Node Representation Learning

Sansan R&D
April 06, 2022

CrossWalk: Fairness-enhanced Node Representation Learning

■イベント 
:AAAI-22 論文読み会
https://line.connpass.com/event/242058/

■登壇概要
タイトル:CrossWalk: Fairness-enhanced Node Representation Learning
発表者: 

技術本部 研究開発部 研究員 ⿊⽊ 裕鷹

■ R&Dの採用情報
https://media.sansan-engineering.com/randd

Sansan R&D

April 06, 2022
Tweet

More Decks by Sansan R&D

Other Decks in Science

Transcript

  1. ⾃⼰紹介 ⿊⽊ 裕鷹 オンライン名刺 • 2020年4⽉⼊社 • 4/17 の⻑野マラソンに出場 Yutaka

    Kuroki Sansan 株式会社 技術本部 研究開発部 Data Analysis Group 研究員 プロダクト戦略室 兼務 @kur0cky_y
  2. - グラフ ML における Fairness の研究は成熟してない - 現実にグラフデータは多く存在し,課題も多い > e.g.,

    求⼈や融資などの情報は, sensitive 特徴に関わらず全てのコミュニティで適切に受け 取られる必要がある(homophily などが難しくしている) node embedding と Fairness / bias 𝑄: アルゴリズム 𝐴 によるパフォーマンス 𝑖 :sensitive 特徴の1⽔準 𝐶: sensitive 特徴の⽔準集合 𝐴: 後段のグラフタスク disparity: - 本論⽂でメインで考える Fairnessの指標 (⼩さいほど Fair) - sensitive 特徴の⽔準グループ間で パフォーマンスに差があってはいけない > 年齢なら 10代,20代, …
  3. 概要 - IJCAI’19 の論⽂ - node2vec (Grover et al., 2016)

    の改良.sensitive 特徴が異なるノード間を接続 するエッジを遷移しやすいようバイアスをかけてランダムウォークする. 課題 - ⼤多数のノードがグループの境界から 1hop 以上離れていると意味がない - 元々,Link prediction を対象としており,広範なタスクで検証する必要がある > とりあえず何も考えず後段で利⽤できることがランダムウォーク系 embedding の良さでもある FairWalk (Rahman et al., 2019)
  4. - かけるバイアスの強さを制御するパラメータ 𝛼, 𝑝 の導⼊ - グループ境界への近さを表す proximity 𝑚 の導⼊

    > ランダムウォーク中のノードが異なる グループに属する割合 CrossWalk の概要 𝑣: ランダムウォークのソースノード 𝑙! : ノード 𝑢 の属するグループ 𝑟: ランダムウォークの本数 𝑑: ランダムウォークの⻑さ 𝒲" : ソースが 𝑣 のランダムウォーク中のノード集合
  5. - 3つのタスクで,性能と disparity を評価 > 影響⼒最⼤化 > リンク予測 > ノード分類

    - ⽐較アルゴリズム > DeepWalk, node2vec > FairWalk - 2つの実データセット,2つの⼈⼯データセット 実験
  6. - Rice-Facebook (Mislove et al., 2010) > Rice University の友⼈関係を表す無向グラフ

    > 1205ノード,42443エッジ > sensitive 特徴は成年かどうか.ラベルは college id - Twitter dataset (Babaei et al., 2016) > 無向かつ連結な twitter FF関係 > 3560ノード > sensitive 特徴は政治的スタンス(リベラル / 中⽴ / 保守).ラベルなし - 2つの⼈⼯ネットワーク > Stochastic Block Model で⽣成 データセット
  7. - ネットワーク全体に及ぼす影響を最⼤化するように,初期ノード集合を 定める最適化問題 > NP 困難 > node embedding に

    k-means, k-medoids を組み合わせる⼿法も有効 (Keikha et al., 2020) - 現実の情報拡散は様々な要因の影響を受けるが,すべてをモデル化すること はできないため,確率過程として近似されることが多い > IC (Independent Cascade) モデル: 超転換の情報伝播が超転換に割り当てられた確率 のみに依存し独⽴に試⾏されるモデル 影響⼒最⼤化
  8. - IC モデルでの伝播を仮定し,最終的に影響を 及ぼした割合を測る. - k-medoid クラスタリングをそれぞれの埋め込み に適⽤し,seed を選択 (k=40)

    - CrossWalk が最も disparity が⼩さく, 総影響⼒の減少も少ない (Fig. 4) - node2vec に適⽤しても同様の結果となった. (Fig. 5) 結果:影響⼒最⼤化
  9. - Rice Facebook データの college を分類 > sensitive 特徴は年齢 -

    得られた埋め込みを Label Propagation (k=7) で分類 - CrossWalk は精度を下げずに disparity を 抑えられている 結果:ノード分類
  10. - ランダムウォークに基づく node embedding において, 広範な後段タスクでの disparity を抑える(sensitive特徴 のグループ間で 性能に差がない)アルゴリズム

    CrossWalk を提案 > 任意のランダムウォークに適⽤可能 - ランダムウォークにバイアスをかける > 異なるグループを接続するエッジに重み(FairWalk) > グループの周辺に近いエッジに重み - 実験のより詳細はサプリや github を参照とのこと > https://github.com/CrossWalk-paper/crosswalk まとめ
  11. - Babaei, M., Grabowicz, P., Valera, I., Gummadi, K. P.,

    & Gomez-Rodriguez, M. (2016). On the efficiency of the information networks in social media. In Proceedings of the Ninth ACM International Conference on Web Search and Data Mining. 83–92. - Grover, A., & Leskovec, J. (2016). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 855–864. - Keikha, M. M., Rahgozar, M., Asadpour, M., & Abdollahi, M. F. (2020). Influence maximization across heterogeneous interconnected networks based on deep learning. Expert Systems with Applications, 140, 112905. - Mislove, A., Viswanath, B., Gummadi, K. P., & Druschel, P. (2010). You are who you know: inferring user profiles in online social networks. In Proceedings of the third ACM international conference on Web search and data mining. 251–260. - Perozzi, B., Al-Rfou, R., & Skiena, S. (2014). Deepwalk: Online learning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 701–710. - Qiu, J., Dong, Y., Ma, H., Li, J., Wang, K., & Tang, J. (2018). Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec. In Proceedings of the eleventh ACM international conference on web search and data mining. 459–467. - Rahman, T., Surma, B., Backes, M., & Zhang, Y. (2019). Fairwalk: Towards Fair Graph Embedding., In Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. 3289–3295. 参考⽂献