CrossWalk: Fairness-enhanced Node Representation Learning

Slide 1

Slide 1 text

CrossWalk: Fairness-enhanced Node Representation Learning Sansan株式会社技術本部研究開発部 Data Analysis Group ⿊⽊裕鷹 2022/04/06 AAAI-22 論⽂読み会

Slide 2

Slide 2 text

⾃⼰紹介⿊⽊裕鷹オンライン名刺 • 2020年4⽉⼊社 • 4/17 の⻑野マラソンに出場 Yutaka Kuroki Sansan 株式会社技術本部研究開発部 Data Analysis Group 研究員プロダクト戦略室兼務 @kur0cky_y

Slide 3

Slide 3 text

- AAAI’22 ポスター (Social impact track) - 著者情報 > 筆頭著者は，シャリーフ⼯科⼤学（イラン）の博⼠課程学⽣論⽂情報

Slide 4

Slide 4 text

背景：node embedding とバイアス

Slide 5

Slide 5 text

- 離散的なグラフのノードを，低次元な密ベクトルで表現する技術 - 様々な後段タスクに有⽤．使い勝⼿が良い - ⾊々なアルゴリズム > ⾏列分解系 > ランダムウォーク系 > 深層学習系 - グラフスペクトルからの理論的考察も深い(Qiu et al., 2018) node embedding Perozzi et al. (2014) Fig.1

Slide 6

Slide 6 text

- グラフ ML における Fairness の研究は成熟してない - 現実にグラフデータは多く存在し，課題も多い > e.g., 求⼈や融資などの情報は， sensitive 特徴に関わらず全てのコミュニティで適切に受け取られる必要がある（homophily などが難しくしている） node embedding と Fairness / bias 𝑄: アルゴリズム 𝐴 によるパフォーマンス 𝑖 :sensitive 特徴の1⽔準 𝐶: sensitive 特徴の⽔準集合 𝐴: 後段のグラフタスク disparity: - 本論⽂でメインで考える Fairnessの指標（⼩さいほど Fair） - sensitive 特徴の⽔準グループ間でパフォーマンスに差があってはいけない > 年齢なら 10代，20代， …

Slide 7

Slide 7 text

背景：FairWalk

Slide 8

Slide 8 text

概要 - IJCAI’19 の論⽂ - node2vec (Grover et al., 2016) の改良．sensitive 特徴が異なるノード間を接続するエッジを遷移しやすいようバイアスをかけてランダムウォークする．課題 - ⼤多数のノードがグループの境界から 1hop 以上離れていると意味がない - 元々，Link prediction を対象としており，広範なタスクで検証する必要がある > とりあえず何も考えず後段で利⽤できることがランダムウォーク系 embedding の良さでもある FairWalk (Rahman et al., 2019)

Slide 9

Slide 9 text

提案⼿法：CrossWalk

Slide 10

Slide 10 text

基本的なアイデア - FairWalkを改良し，ランダムウォークにバイアスをかける > 異なるグループを接続するエッジに重み（FairWalk） > グループの周辺に近いノードへの遷移に重み CrossWalk のアイデア

Slide 11

Slide 11 text

- かけるバイアスの強さを制御するパラメータ 𝛼, 𝑝 の導⼊ - グループ境界への近さを表す proximity 𝑚 の導⼊ > ランダムウォーク中のノードが異なるグループに属する割合 CrossWalk の概要 𝑣: ランダムウォークのソースノード 𝑙! : ノード 𝑢 の属するグループ 𝑟: ランダムウォークの本数 𝑑: ランダムウォークの⻑さ 𝒲" : ソースが 𝑣 のランダムウォーク中のノード集合

Slide 12

Slide 12 text

- sensitive 特徴の⽔準グループを近づける効果がある CrossWalk の効果

Slide 13

Slide 13 text

実験

Slide 14

Slide 14 text

- 3つのタスクで，性能と disparity を評価 > 影響⼒最⼤化 > リンク予測 > ノード分類 - ⽐較アルゴリズム > DeepWalk, node2vec > FairWalk - 2つの実データセット，2つの⼈⼯データセット実験

Slide 15

Slide 15 text

- Rice-Facebook (Mislove et al., 2010) > Rice University の友⼈関係を表す無向グラフ > 1205ノード，42443エッジ > sensitive 特徴は成年かどうか．ラベルは college id - Twitter dataset (Babaei et al., 2016) > 無向かつ連結な twitter FF関係 > 3560ノード > sensitive 特徴は政治的スタンス（リベラル / 中⽴ / 保守）．ラベルなし - 2つの⼈⼯ネットワーク > Stochastic Block Model で⽣成データセット

Slide 16

Slide 16 text

- ネットワーク全体に及ぼす影響を最⼤化するように，初期ノード集合を定める最適化問題 > NP 困難 > node embedding に k-means, k-medoids を組み合わせる⼿法も有効 (Keikha et al., 2020) - 現実の情報拡散は様々な要因の影響を受けるが，すべてをモデル化することはできないため，確率過程として近似されることが多い > IC (Independent Cascade) モデル: 超転換の情報伝播が超転換に割り当てられた確率のみに依存し独⽴に試⾏されるモデル影響⼒最⼤化

Slide 17

Slide 17 text

- IC モデルでの伝播を仮定し，最終的に影響を及ぼした割合を測る． - k-medoid クラスタリングをそれぞれの埋め込みに適⽤し，seed を選択 (k=40) - CrossWalk が最も disparity が⼩さく，総影響⼒の減少も少ない (Fig. 4) - node2vec に適⽤しても同様の結果となった． (Fig. 5) 結果：影響⼒最⼤化

Slide 18

Slide 18 text

- Rice Facebook データの college を分類 > sensitive 特徴は年齢 - 得られた埋め込みを Label Propagation (k=7) で分類 - CrossWalk は精度を下げずに disparity を抑えられている結果：ノード分類

Slide 19

Slide 19 text

- Rice-Facebook，Twitter データセットでリンク予測 - ロジスティック回帰で識別（特徴量は距離） - CrossWalk は FairWalk よりもほんの少し精度を下げながらも，disparity を⼤きく抑えている結果：リンク予測

Slide 20

Slide 20 text

- ランダムウォークに基づく node embedding において，広範な後段タスクでの disparity を抑える（sensitive特徴のグループ間で性能に差がない）アルゴリズム CrossWalk を提案 > 任意のランダムウォークに適⽤可能 - ランダムウォークにバイアスをかける > 異なるグループを接続するエッジに重み（FairWalk） > グループの周辺に近いエッジに重み - 実験のより詳細はサプリや github を参照とのこと > https://github.com/CrossWalk-paper/crosswalk まとめ

Slide 21

Slide 21 text

- アイデアが単純で良い - 結局ハイパーパラメータ 𝛼, 𝑝 のチューニングが⼤変になる - proximity の計算が⼤変そう > 実験データは⼩さい感想

Slide 22

Slide 22 text

- Babaei, M., Grabowicz, P., Valera, I., Gummadi, K. P., & Gomez-Rodriguez, M. (2016). On the efficiency of the information networks in social media. In Proceedings of the Ninth ACM International Conference on Web Search and Data Mining. 83–92. - Grover, A., & Leskovec, J. (2016). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 855–864. - Keikha, M. M., Rahgozar, M., Asadpour, M., & Abdollahi, M. F. (2020). Influence maximization across heterogeneous interconnected networks based on deep learning. Expert Systems with Applications, 140, 112905. - Mislove, A., Viswanath, B., Gummadi, K. P., & Druschel, P. (2010). You are who you know: inferring user profiles in online social networks. In Proceedings of the third ACM international conference on Web search and data mining. 251–260. - Perozzi, B., Al-Rfou, R., & Skiena, S. (2014). Deepwalk: Online learning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 701–710. - Qiu, J., Dong, Y., Ma, H., Li, J., Wang, K., & Tang, J. (2018). Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec. In Proceedings of the eleventh ACM international conference on web search and data mining. 459–467. - Rahman, T., Surma, B., Backes, M., & Zhang, Y. (2019). Fairwalk: Towards Fair Graph Embedding., In Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. 3289–3295. 参考⽂献