データマイニング - コミュニティ発見

コミュニティ発見⼭本祐輔名古屋市⽴⼤学データサイエンス研究科 [email protected] 第12回データマイニング（グラフ分析入門）⼭本祐輔
クリエイティブコモンズライセンス (CC BY-NC-SA 4.0)

グラフとコミュニティ画像出典: https://www.carbonbrief.org/mapped-the-climate-change-conversation-on-twitter/ 関係の深いノードはエッジを張り、コミュニティ（意味のある部分グラフ）を形成する

グラフとコミュニティ画像出典: https://www.carbonbrief.org/mapped-the-climate-change-conversation-on-twitter/ ラベルの無いグラフからどうコミュニティを発⾒するか？関係の深いノードはエッジを張り、コミュニティ（意味のある部分グラフ）を形成する

グラフの連結成分 (connected components) 無向グラフの部分グラフのうち、極大で連結しているもの → 要するに孤⽴している部分グラフ連結成分 A 連結成分 B
連結成分 C 連結成分 D # NetworkXで連結成分を抽出する nx.connected_components(G) 連結成分は孤⽴した部分グラフしか発⾒できない…

クリーク (clique) グラフ内部で密度が1の極大な部分グラフすべてのノード同⼠が接続されている状態クリークの例2 (最⼤クリーク) クリークの例1 # NetworkXでクリークを抽出 nx.find_cliques(G)
# 最⼤クリークを抽出 nx.make_max_clique_graph(G) もう少し緩い⽅法でコミュニティを⾒つけたい…

コミュニティ発⾒のアプローチノードは1つのコミュニティにのみ所属できると仮定ノードは複数のコミュニティに所属できると仮定 § Girvan-Newman法 § ラベル伝播法 §
Min-cut法 … § リンクコミュニティ法 … ハードクラスタリングソフトクラスタリング

1 グラフ分割 Graph Partitioning

コミュニティ発⾒に向けた観察 (1/2) 1.コミュニティ内のノード同⼠は密に繋がっている 2.コミュニティ内のノードはコミュニティ外のノードとの繋がりは弱いコミュニティをつなぐエッジを切ることでコミュニティに分割できないか?

コミュニティ発⾒に向けた観察 (2/2) 3. コミュニティ同⼠をつなぐエッジは多くのノード間の最短経路上に存在する左のコミュニティから右のコミュニティにあるノードに⾏くには必ずココを通る必要アリ

再訪）ノードの媒介中⼼性 3 6 5 4 1 2 0 注目ノードがそれ以外のノード間の経路に含まれる割合を示す指標
→ ノードがどの程度「経路上の要所」になっているか？媒介中⼼性= 9 15 媒介中⼼性= 0 15 媒介中⼼性= 8 15

エッジの媒介中⼼性（≠ ノードの媒介中⼼性）エッジに対しても媒介中心性を定義できる 3 6 5 4 1 2 0
→ 注⽬エッジがそれ以外のエッジ間の最短経路に含まれる割合このエッジはそれ以外のエッジ間にどの程度含まれる？ノードとエッジをひっくり返して媒介中心性を計算するイメージ

3 6 5 4 1 2 0 エッジの媒介中⼼性（≠ ノードの媒介中⼼性）エッジに対しても媒介中心性を定義できる
このエッジはそれ以外のエッジ間にどの程度含まれる？ 5-6 4-6 4-5 3-4 2-3 1-2 0-1 0-2 5 6 4 4 3 2 2 1 0 → 注⽬エッジがそれ以外のエッジ間の最短経路に含まれる割合

エッジ媒介中⼼性 = 0.57 0.05 0.24 0.24 0.24 0.24 0.05 0.57 → 注⽬エッジがそれ以外のエッジ間の最短経路に含まれる割合

エッジ媒介中⼼性 = 0.57 0.05 0.24 0.24 0.24 0.24 0.05 0.57 # NetworkXでエッジ媒介中⼼性を計算 nx.edge_betweenness_centrality(G) → 注⽬エッジがそれ以外のエッジ間の最短経路に含まれる割合

エッジの媒介中⼼性を⽤いたグラフ分割 3 6 5 4 1 2 0 0.05 0.24
0.24 0.24 0.24 0.05 0.57 0.57 エッジ媒介中心性の大きい順にエッジをカット（適当なところまで処理を続ける）

エッジの媒介中⼼性を⽤いたグラフ分割エッジ媒介中心性の大きい順にエッジをカット 3 6 5 4 1 2 0 （適当なところまで処理を続ける）
0.05 0.24 0.24 0.24 0.24 0.05 0.57 0.57 コミュニティA コミュニティB 適当なコミュニティ数 or 適度な分割状態

エッジの媒介中⼼性を⽤いたグラフ分割の例（1/7）

エッジの媒介中⼼性を⽤いたグラフ分割の例（2/7） 0.53 0.37 0.37 0.37 0.29 0.11 0.11 0.11 0.11
0.11 0.11 0.11 0.11 0.11 0.11 0.11 0.11 媒介中⼼性を計算分割 1 回⽬

エッジの媒介中⼼性を⽤いたグラフ分割の例（3/7）グラフ分割後のグラフ分割 1 回⽬

0.05 0.05 0.05 0.05 0.05 0.05 0.05 媒介中⼼性を計算分割 2 回⽬

0.03 0.05 0.05 0.05 0.05 0.05 媒介中⼼性を計算分割 3 回⽬

エッジの媒介中⼼性を⽤いたグラフ分割エッジ媒介中心性の大きい順にエッジをカット 3 6 5 4 1 2 0 （適当なところまで処理を続ける）
0.05 0.24 0.24 0.24 0.24 0.05 0.57 0.57 コミュニティA コミュニティB 適当なコミュニティ数 or 適度な分割状態分割の適切性をどう評価するか？

モジュラリティ（1/3） 0 1 1 0 0 0 1 0 1
1 0 0 1 1 0 0 0 0 0 1 0 0 1 1 0 0 0 1 0 1 0 0 0 1 1 0 エッジがコミュニティ内部に集中している割合を示す指標 0 1 2 3 4 5 隣接⾏列 A B ノード数 = 6, エッジ数 = 7 コミュニティA内のノードから A内ノードへ出るエッジの有無コミュニティB内のノードから B内ノードへ出るエッジの有無

モジュラリティ（2/3） 6 1 1 6 0 1 2 3 4
5 B→Bへ出るエッジの数 B→Aへ出るエッジの数 A B コミュニティ内外に出⼊りするエッジ数を⽰す⾏列ノード数 = 6, エッジ数 = 7 A→Aへ出るエッジの数 A→Bへ出るエッジの数エッジがコミュニティ内部に集中している割合を示す指標

モジュラリティ（3/3） 6 1 1 6 エッジがコミュニティ内部に集中している割合を示す指標 0 1 2 3
4 5 コミュニティ内外に出⼊りするエッジ数を⽰す⾏列 A内のノードから出るエッジの数 = 合計7 A B Aのノードに⼊るエッジの数 =合計7 ノード数 = 6, エッジ数 = 7

ランダムに作られたコミュニティの内外に出⼊りするエッジ数の期待値 ? ? ? ? ランダムにエッジが張られた場合のエッジ数は? （コミュニティ内外に出⼊りするエッジの総数は固定） 2列⽬の合計 7 1番⽬の⾏の合計
7 7 合計 14 2番⽬の⾏の合計 1列⽬の合計 7

? ? ? ? 2列⽬の合計 7 1番⽬の⾏の合計 7 7 ランダムにエッジが張られた場合のエッジ数は?
（コミュニティ内外に出⼊りするエッジの総数は固定）合計 14 7 × 7 14 2番⽬の⾏の合計 1列⽬の合計 7 ランダムに作られたコミュニティの内外に出⼊りするエッジ数の期待値

? ? ? ? 7 × 7 14 7 ×
7 14 7 × 7 14 7 × 7 14 ランダムにエッジが張られた場合のエッジ数は? （コミュニティ内外に出⼊りするエッジの総数は固定） 2列⽬の合計 7 1番⽬の⾏の合計 7 7 合計 14 2番⽬の⾏の合計 1列⽬の合計 7 ランダムに作られたコミュニティの内外に出⼊りするエッジ数の期待値

モジュラリティの概念ノード数 = 6, エッジ数 = 7 6 1 1
6 エッジがコミュニティ内部に集中している割合を示す指標 0 1 2 3 4 5 コミュニティ内外に出⼊りするエッジ数を⽰す⾏列 A B 3.5 3.5 3.5 3.5 ランダムの場合ズレを⾒るズレが大きいほど密なコミュニティの存在を示唆

モジュラリティの定義エッジがコミュニティ内部に集中している割合を示す指標 𝑄 = 1 2𝑚 & !"# $ (𝐴!,!
− ∑& 𝐴!,& 2𝑚 & & 𝐴&,! )

モジュラリティの定義 6 1 1 6 A = コミュニティ隣接⾏列コミュニティ内のリンク数エッジがコミュニティ内部に集中している割合を示す指標
𝑄 = 1 2𝑚 & !"# $ (𝐴!,! − ∑& 𝐴!,& 2𝑚 & & 𝐴&,! )

モジュラリティの定義 6 1 1 6 A = コミュニティ隣接⾏列合計 7
⾏の和エッジがコミュニティ内部に集中している割合を示す指標 𝑄 = 1 2𝑚 & !"# $ (𝐴!,! − ∑& 𝐴!,& 2𝑚 & & 𝐴&,! )

モジュラリティの定義 6 1 1 6 A = コミュニティ隣接⾏列合計 7
列の和エッジがコミュニティ内部に集中している割合を示す指標 𝑄 = 1 2𝑚 & !"# $ (𝐴!,! − ∑& 𝐴!,& 2𝑚 & & 𝐴&,! )

エッジがコミュニティ内部に集中している割合を示す指標 𝑄 = 1 2𝑚 & !"# $ (𝐴!,! −
∑& 𝐴!,& 2𝑚 & & 𝐴&,! ) = 1 2𝑚 & !"# $ コミュニティi 内のエッジ数コミュニティi 内のエッジ数の期待値ー正規化係数（有向エッジ数を割合に） 1に近づくほどコミュニティ内部にエッジが集中ランダムに⽣成したモジュラリティの定義

モジュラリティの計算例（1/2）ノード数 = 6, エッジ数 = 7 0 1 2
3 4 5 A B 1 2𝑚 ( !"# $ コミュニティi 内のエッジ数コミュニティi 内のエッジ数の期待値ー = 1 2×7 6 − 3.5 + (6 − 3.5) = 1 2×7 (2.5 + 2.5) = 0.357 # コミュニティを定義 communities = [{0,1,2}, {3,4,5}] # モジュラリティの計算 nx.community.modularity(G, communities) ランダムに⽣成した

モジュラリティの計算例（2/2） 0 1 2 3 4 5 A B 0
1 2 3 4 5 A B 𝑄 = 0.357 𝑄 = 0.122 > 適切な分割

Girvan-Newman アルゴリズム以下の手順でグラフを分割し、コミュニティを発見する 1. グラフ中の全エッジのエッジ媒介中⼼性を計算 2. 最⼤のエッジ媒介中⼼性をもつエッジを削除 3. 連結成分の数 or
モジュラリティ値が⼀定値を超えるまで、ステップ1-2を繰り返す 4. 得られた各連結成分をコミュニティとするモジュラリティの計算はエッジ削除前のグラフで計算すること!!

Girvan-Newman法 using NetworkX # グラフGに対してGirvan-Newman法を適⽤ for i, communities in enumerate(nx.community.girvan_newman(G))
# ループを回すごとにエッジを削除し，コミュニティを抽出 print(f“{i+1}回⽬の分割結果”, communities) 3 6 5 4 1 2 0 1回目の分割結果 ({0, 1, 2}, {3, 4, 5, 6}) 2回目の分割結果 ({0, 1, 2}, {4, 5, 6}, {3}) 3回目の分割結果 ({0}, {1, 2}, {4, 5, 6}, {3}) 4回目の分割結果 ({0}, {1}, {2}, {4, 5, 6}, {3}) 5回目の分割結果 ({0}, {1}, {2}, {4}, {5, 6}, {3}) 6回目の分割結果 ({0}, {1}, {2}, {4}, {5}, {6}, {3}) 所望の分割粒度で停止させる必要アリ

Hands-on タイム以下のURLにアクセスして，第12回のクイズを解いてみよう https://graphnote.hontolab.org/ 41

2 リンクコミュニティ Link Community

所属コミュニティのオーバーラップ現実世界では、ノードが複数のコミュニティに属することは一般的

所属コミュニティのオーバーラップ現実世界では、ノードが複数のコミュニティに属することは一般的データ⼯学メディア学術政策

所属コミュニティのオーバーラップ現実世界では、ノードが複数のコミュニティに属することは一般的メディアハードクラスタリングではノードは1つのコミュニティにしか属せない学術政策データ⼯学

解決策の1つ: リンクコミュニティ抽出グラフをノード単位でコミュニティ分類するのではなくエッジ（リンク）単位で分類する Cに属するエッジ Bに属するエッジコミュニティA に属するエッジエッジのクラスタリング結果をもとにノードのコミュニティ分類をすればよい

リンクコミュニティ抽出法の⼿順 1. グラフ中の全エッジ間の類似度を計算 2. エッジ類似度を基にエッジを階層的クラスタリング 3. エッジの両端のノードにエッジのクラスタ番号を割り当てるポイントはエッジ類似度の定義「データマイニング」で習う
汎⽤的な教師あり学習⼿法の1つ

エッジの類似度 5 6 7 1 2 3 4 8 𝑠𝑖𝑚)*+,
𝑒*, , 𝑒-, = |𝑛. 𝑖 ∩ 𝑛. (𝑗)| |𝑛. 𝑖 ∪ 𝑛. (𝑗)| 片端のノードを共有するエッジの類似度を以下で定義ノードiとkを両端とするエッジノードjおよびそれと隣接するノードの集合似てる? 両端とも共通するノードがなければ類似度はゼロとする

エッジの類似度 5 6 7 1 2 3 4 8 𝑠𝑖𝑚)*+,
𝑒/,1 , 𝑒2,1 = |𝑛. 8 ∩ 𝑛. (1)| |𝑛. 8 ∪ 𝑛. (1)| 片端のノードを共有するエッジの類似度を以下で定義

エッジの類似度 5 6 7 1 2 3 4 8 𝑠𝑖𝑚)*+,
𝑒/,1 , 𝑒2,1 = |𝑛. 8 ∩ 𝑛. (1)| |𝑛. 8 ∪ 𝑛. (1)| = 4 6 片端のノードを共有するエッジの類似度を以下で定義エッジ類似度は共有しているノードが一致すると最大に

エッジ類似度を⽤いた階層的クラスタリング（最⻑距離法） 5 6 7 1 2 3 4 8 Cut-off
ライン (適当に決める)

エッジ類似度を⽤いた階層的クラスタリング（最⻑距離法） 5 6 7 1 2 4 3 8

回実施日トピック 9 06/13 グラフデータ 10 06/20 グラフ構造の諸指標 11
06/27 ノードの中心性 12 07/04 コミュニティ発見 13 07/11 ウェブとグラフ 14 07/18 グラフ埋め込み 15 07/25 総合演習 – 社会ネットワーク分析授業計画 54

データマイニング - コミュニティ発見

データマイニング - コミュニティ発見

More Decks by Y. Yamamoto

Other Decks in Science

Featured

Transcript