Slide 1

Slide 1 text

CrossWalk: Fairness-enhanced Node Representation Learning Sansan株式会社 技術本部 研究開発部 Data Analysis Group ⿊⽊ 裕鷹 2022/04/06 AAAI-22 論⽂読み会

Slide 2

Slide 2 text

⾃⼰紹介 ⿊⽊ 裕鷹 オンライン名刺 • 2020年4⽉⼊社 • 4/17 の⻑野マラソンに出場 Yutaka Kuroki Sansan 株式会社 技術本部 研究開発部 Data Analysis Group 研究員 プロダクト戦略室 兼務 @kur0cky_y

Slide 3

Slide 3 text

- AAAI’22 ポスター (Social impact track) - 著者情報 > 筆頭著者は,シャリーフ⼯科⼤学(イラン)の博⼠課程学⽣ 論⽂情報

Slide 4

Slide 4 text

背景:node embedding とバイアス

Slide 5

Slide 5 text

- 離散的なグラフのノードを,低次元な密ベクトルで表現する技術 - 様々な後段タスクに有⽤.使い勝⼿が良い - ⾊々なアルゴリズム > ⾏列分解系 > ランダムウォーク系 > 深層学習系 - グラフスペクトルからの 理論的考察も深い(Qiu et al., 2018) node embedding Perozzi et al. (2014) Fig.1

Slide 6

Slide 6 text

- グラフ ML における Fairness の研究は成熟してない - 現実にグラフデータは多く存在し,課題も多い > e.g., 求⼈や融資などの情報は, sensitive 特徴に関わらず全てのコミュニティで適切に受け 取られる必要がある(homophily などが難しくしている) node embedding と Fairness / bias 𝑄: アルゴリズム 𝐴 によるパフォーマンス 𝑖 :sensitive 特徴の1⽔準 𝐶: sensitive 特徴の⽔準集合 𝐴: 後段のグラフタスク disparity: - 本論⽂でメインで考える Fairnessの指標 (⼩さいほど Fair) - sensitive 特徴の⽔準グループ間で パフォーマンスに差があってはいけない > 年齢なら 10代,20代, …

Slide 7

Slide 7 text

背景:FairWalk

Slide 8

Slide 8 text

概要 - IJCAI’19 の論⽂ - node2vec (Grover et al., 2016) の改良.sensitive 特徴が異なるノード間を接続 するエッジを遷移しやすいようバイアスをかけてランダムウォークする. 課題 - ⼤多数のノードがグループの境界から 1hop 以上離れていると意味がない - 元々,Link prediction を対象としており,広範なタスクで検証する必要がある > とりあえず何も考えず後段で利⽤できることがランダムウォーク系 embedding の良さでもある FairWalk (Rahman et al., 2019)

Slide 9

Slide 9 text

提案⼿法:CrossWalk

Slide 10

Slide 10 text

基本的なアイデア - FairWalkを改良し,ランダムウォークにバイアスをかける > 異なるグループを接続するエッジに重み(FairWalk) > グループの周辺に近いノードへの遷移に重み CrossWalk のアイデア

Slide 11

Slide 11 text

- かけるバイアスの強さを制御するパラメータ 𝛼, 𝑝 の導⼊ - グループ境界への近さを表す proximity 𝑚 の導⼊ > ランダムウォーク中のノードが異なる グループに属する割合 CrossWalk の概要 𝑣: ランダムウォークのソースノード 𝑙! : ノード 𝑢 の属するグループ 𝑟: ランダムウォークの本数 𝑑: ランダムウォークの⻑さ 𝒲" : ソースが 𝑣 のランダムウォーク中のノード集合

Slide 12

Slide 12 text

- sensitive 特徴の⽔準グループを近づける効果がある CrossWalk の効果

Slide 13

Slide 13 text

実験

Slide 14

Slide 14 text

- 3つのタスクで,性能と disparity を評価 > 影響⼒最⼤化 > リンク予測 > ノード分類 - ⽐較アルゴリズム > DeepWalk, node2vec > FairWalk - 2つの実データセット,2つの⼈⼯データセット 実験

Slide 15

Slide 15 text

- Rice-Facebook (Mislove et al., 2010) > Rice University の友⼈関係を表す無向グラフ > 1205ノード,42443エッジ > sensitive 特徴は成年かどうか.ラベルは college id - Twitter dataset (Babaei et al., 2016) > 無向かつ連結な twitter FF関係 > 3560ノード > sensitive 特徴は政治的スタンス(リベラル / 中⽴ / 保守).ラベルなし - 2つの⼈⼯ネットワーク > Stochastic Block Model で⽣成 データセット

Slide 16

Slide 16 text

- ネットワーク全体に及ぼす影響を最⼤化するように,初期ノード集合を 定める最適化問題 > NP 困難 > node embedding に k-means, k-medoids を組み合わせる⼿法も有効 (Keikha et al., 2020) - 現実の情報拡散は様々な要因の影響を受けるが,すべてをモデル化すること はできないため,確率過程として近似されることが多い > IC (Independent Cascade) モデル: 超転換の情報伝播が超転換に割り当てられた確率 のみに依存し独⽴に試⾏されるモデル 影響⼒最⼤化

Slide 17

Slide 17 text

- IC モデルでの伝播を仮定し,最終的に影響を 及ぼした割合を測る. - k-medoid クラスタリングをそれぞれの埋め込み に適⽤し,seed を選択 (k=40) - CrossWalk が最も disparity が⼩さく, 総影響⼒の減少も少ない (Fig. 4) - node2vec に適⽤しても同様の結果となった. (Fig. 5) 結果:影響⼒最⼤化

Slide 18

Slide 18 text

- Rice Facebook データの college を分類 > sensitive 特徴は年齢 - 得られた埋め込みを Label Propagation (k=7) で分類 - CrossWalk は精度を下げずに disparity を 抑えられている 結果:ノード分類

Slide 19

Slide 19 text

- Rice-Facebook,Twitter データセットでリンク予測 - ロジスティック回帰で識別(特徴量は距離) - CrossWalk は FairWalk よりもほんの少し精度を下げながらも,disparity を⼤きく抑えている 結果:リンク予測

Slide 20

Slide 20 text

- ランダムウォークに基づく node embedding において, 広範な後段タスクでの disparity を抑える(sensitive特徴 のグループ間で 性能に差がない)アルゴリズム CrossWalk を提案 > 任意のランダムウォークに適⽤可能 - ランダムウォークにバイアスをかける > 異なるグループを接続するエッジに重み(FairWalk) > グループの周辺に近いエッジに重み - 実験のより詳細はサプリや github を参照とのこと > https://github.com/CrossWalk-paper/crosswalk まとめ

Slide 21

Slide 21 text

- アイデアが単純で良い - 結局ハイパーパラメータ 𝛼, 𝑝 のチューニングが⼤変になる - proximity の計算が⼤変そう > 実験データは⼩さい 感想

Slide 22

Slide 22 text

- Babaei, M., Grabowicz, P., Valera, I., Gummadi, K. P., & Gomez-Rodriguez, M. (2016). On the efficiency of the information networks in social media. In Proceedings of the Ninth ACM International Conference on Web Search and Data Mining. 83–92. - Grover, A., & Leskovec, J. (2016). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 855–864. - Keikha, M. M., Rahgozar, M., Asadpour, M., & Abdollahi, M. F. (2020). Influence maximization across heterogeneous interconnected networks based on deep learning. Expert Systems with Applications, 140, 112905. - Mislove, A., Viswanath, B., Gummadi, K. P., & Druschel, P. (2010). You are who you know: inferring user profiles in online social networks. In Proceedings of the third ACM international conference on Web search and data mining. 251–260. - Perozzi, B., Al-Rfou, R., & Skiena, S. (2014). Deepwalk: Online learning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 701–710. - Qiu, J., Dong, Y., Ma, H., Li, J., Wang, K., & Tang, J. (2018). Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec. In Proceedings of the eleventh ACM international conference on web search and data mining. 459–467. - Rahman, T., Surma, B., Backes, M., & Zhang, Y. (2019). Fairwalk: Towards Fair Graph Embedding., In Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. 3289–3295. 参考⽂献