NetworkXとGNNで学ぶグラフデータ分析入門〜複雑な関係性を解き明かすPythonの力〜

NetworkXとGNNで学ぶグラフデータ分析入門〜複雑な関係性を解き明かすPythonの力〜技術開発本部先端技術研究部藤根　成暢

自己紹介所属みずほリサーチ&テクノロジーズ株式会社先端技術研究部データプラットフォームの設計・運用に関する研究開発に従事社外発表アカウント Qiita: fujine(mhrt-adv) SpeakerDeck: mhrtech
過去のPyCon JP発表 PyConJP 2021: scikit-learnの新機能を紹介します PyConJP 2022: Pandas卒業？大規模データを様々なパッケージで高速処理してみる PyConJP 2024: あなたのアプリケーションをレガシーコードにしないための実践Pytest入門 2

この発表で話すこと Pythonを活用した「グラフ構造データ」（以降”グラフ”と記載）の表現と分析手法を紹介します。 1. グラフの基礎 2. NetworkXによるグラフ表現 3. グラフの分析 4.
GNN（グラフ深層学習）話さないこと詳細なグラフ理論や数式の解説 3

本日のゴールと対象オーディエンスグラフについて「ヨクワカラナイ」から「チョットワカッタカモ！」になる NetworkXやGNNの基本的な使い方を理解し、グラフ分析の一歩を踏み出すこんな方におすすめグラフ分析に興味があるソフトウェアエンジニア表形式データの分析は得意だが、グラフは未経験のデータサイエンティストデータ間の「関係性」の分析に新しい視点を取り入れたい方 4

1. グラフの基礎

身の回りにある「グラフ」の例 SNS: 人と人のつながり交通網: 駅と路線のネットワーク Web: Webページとハイパーリンク分子構造: 原子と結合これらはすべて「グラフ」としてモデル化できます。
6

なぜ「グラフ」で表現するのか？表構造データ個々の関係性はわかるが、全体の構造は把握しにくい UserID FriendID A B A C
B C B D グラフデータ関係性や構造を直感的に可視化・分析できるのが最大のメリット 7

グラフを構成する3つの要素ノード (Node) グラフの「点」モノやエンティティを表す例: 人、駅、商品エッジ (Edge) ノード間をつなぐ「線」
関係や接続を表す例: 友達、路線、購買属性 (Attribute) ノードやエッジが持つ追加情報例: 年齢、距離、評価 8

グラフの種類無向グラフと有向グラフ無向: 関係に方向が無い（例: 資産の共有）有向: 関係に方向がある（例: 資金移動、受発注取引）
重みの有無重みなし: つながりの有無が重要（例：取引の有無）重み付き: つながりの強さや大きさが重要（例: 取引の金額や頻度） 9

2. NetworkXによるグラフ表現

NetworkXの紹介 Pythonでグラフを扱うためのデファクトスタンダード・ライブラリ導入が容易 pip install networkx 豊富な分析機能中心性分析、最短経路探索、コミュニティ検出など豊富な分析アルゴリズムを搭載柔軟なデータ構造任意のPythonオブジェクトを属性として付与できる
可視化 Matplotlibと連携して簡単にグラフを描画 11

環境準備パッケージのインストール pip install networkx scipy matplotlib # NetworkXとグラフ可視化に使用 pip
install torch torch_geometric # GNNで使用パッケージのインポート import networkx as nx import matplotlib.pyplot as plt 12

NetworkXによるグラフの作成 # 1. 空のグラフを作成 G = nx.Graph() # 2. ノードを追加
G.add_node("A") G.add_nodes_from(["B", "C"]) # 複数ノードを一括追加 G.add_node("D", role="User") # 属性付きノードを追加 # 3. エッジを追加 G.add_edge("A", "B") G.add_edges_from([("A", "C"), ("B", "C")]) # 複数エッジを一括追加 G.add_weighted_edges_from([("B", "D", 5)]) # 重み付きエッジを追加 13

グラフ情報の取得 # グラフのノード数とエッジ数を取得 print(G.number_of_nodes()) # -> 4 print(G.number_of_edges()) # ->
4 # ノードリストとエッジリストを取得（ビューオブジェクトを返すため、リストに変換） print(list(G.nodes)) # -> ['A', 'B', 'C', 'D'] print(list(G.edges)) # -> [('A', 'B'), ('A', 'C'), ('B', 'C'), ('B', 'D')] # ノード"A"の隣接ノードを取得 print(list(G.neighbors("A"))) # -> ['B', 'C'] # ノード"A"の次数(Aに接続しているノード数)を取得 print(G.degree("A")) -> 2 14

グラフの可視化 pos = nx.spring_layout(seed=0) nx.draw(G, with_labels=True, node_color='skyblue', node_size=1500) plt.show() 15

グラフの可視化（続き）グラフの特徴に応じて、適したレイアウトを選択する利用可能なレイアウト一覧は、Graph Layoutをご参照。 16

3. グラフの分析

グラフの分析グラフ構造から何がわかるのか？中心性分析: ネットワークの中心にいる、影響力の高いノードは？最短経路探索: 2つのノード間の最も効率的なルートは？コミュニティ検出: 密接に結びついたグループはどこか？ 18

サンプルデータ（友人のコミュニティ） G = nx.Graph() G.add_weighted_edges_from([ ('Alice', 'Bob', 2), ('Alice', 'Carol',
1), ('Bob', 'Carol', 1), ('Bob', 'Dave', 1), ('Bob', 'Frank', 2), ('Carol', 'Dave', 1), ('Carol', 'Frank', 1), ('Dave', 'Frank', 1), ('Eve', 'Frank', 1), ('Eve', 'George', 1), ('George', 'Smith', 1), ('Frank', 'George', 1), ('Henry', 'Isla', 2), ('Henry', 'Jacob', 1), ('Isla', 'Jacob', 1), ('Isla', 'Smith', 1), ('Frank', 'Henry', 2) ]) 19

中心性分析次数中心性：グラフにおける次数（隣接ノード数）の高さ # 次数中心性 centrality = nx.degree_centrality(G) # 中心性の値に応じて、各ノードのサイズを設定 node_size
= [v * 10000 for v in centrality.values()] # ノード、エッジ、ノードラベルを描画 nx.draw_networkx_nodes(G, pos, node_color="skyblue", node_size=node_size) nx.draw_networkx_edges(G, pos, width=1.0) nx.draw_networkx_labels(G, pos, font_size=10) 20

その他の中心性分析例媒介中心性：ノード間の仲介度合い centrality = nx.betweenness_centrality(G) 近接中心性：ノード全体との近さ centrality = nx.closeness_centrality(G) 21

最短経路探索 2つのノード間の最短経路を、重みなし、重みありの2パターンで探索 # 始点と終点を設定 source_node, target_node = "Alice", "Isla" #
重みなし最短経路（経由するエッジの数が最も少ない経路） shortest_path = nx.shortest_path(G, source_node, target_node) shortest_edges = list(zip(shortest_path, shortest_path[1:])) # 重みあり最短経路（エッジの重みの合計が最小になる経路） dijkstra_path = nx.dijkstra_path(G, source_node, target_node, weight="weight") dijkstra_edges = list(zip(dijkstra_path, dijkstra_path[1:])) # 重みなし最短経路を赤、重みあり最短経路を緑、に強調してグラフ表示 nx.draw_networkx(G, pos, with_labels=True, node_color='skyblue', node_size=2000) nx.draw_networkx_edges(G, pos, edgelist=shortest_edges, edge_color="red", width=3) nx.draw_networkx_edges(G, pos, edgelist=dijkstra_edges, edge_color="green", width=3) 22

最短経路探索（続き） 23

コミュニティ検出グラフ内で密に結合しているノードのグループ（コミュニティ）を分類 # Girvan–Newmanアルゴリズムでコミュニティを2分割 # 媒介中心性が高いノードでグラフを階層的に分割 groups = next(nx.community.girvan_newman(G)) #
1番目のノードグループを赤で描画 nx.draw_networkx_nodes(G, pos, node_size=2000, nodelist=list(groups[0]), node_color="lightcoral") # 2番目のノードグループを緑で描画 nx.draw_networkx_nodes(G, pos, node_size=2000, nodelist=list(groups[1]), node_color="lightgreen") 24

4. GNN（グラフ深層学習）

GNN (Graph Neural Network)とは何か？グラフ構造を直接入力として扱える深層学習モデル特徴量をフラットに扱う表形式データの深層学習と異なり、GNNではノード間の関係性（グラフ構造）そのものを学習に組み込める (Zhou, J., Cui,
G., Hu, S., Zhang, Z., Yang, C., Liu, Z., Wang, L., Li, C. and Sun, M., 2020, より引用) 26

GNNで解ける主なタスク 1. ノード分類：個々のノードのラベルを予測（例: 不正アカウントの検出） 2. グラフ分類：グラフ全体の性質を予測（例: SNSのコミュニティ分類） 3.
リンク予測：今後生成されるエッジを予測（例: ECサイトにおける商品推薦） (Veličković, P., 2023, より引用) 27

GNNの実装例（データ準備） Coraデータセット（論文の引用・被引用関係を集めたデータセット）を使用して、論文のカテゴリを予測するノード: 論文（計2,708ノード）エッジ: 論文同士の引用関係（計10,556エッジ）ノード特徴量: 各論文が特定の単語を含むか否か(1,433次元ベクトル) ラベル:
論文のカテゴリ（7種類） import torch import torch.nn as nn import torch.nn.functional as F from torch_geometric.datasets import Planetoid from torch_geometric.nn import GCNConv dataset = Planetoid(root="dataset", name="Cora") data = dataset[0] # >> Data(x=[2708, 1433], edge_index=[2, 10556], y=[2708], train_mask=[2708], ...) 28

GNNの実装例（モデル定義） PyG（PyTorch Geometric）を使い、2層のシンプルなGNNモデルを定義 GCNレイヤーにより、自身のノードだけでなく隣接ノードの特徴量も畳み込むことが可能 class GCN(nn.Module): def __init__(self, in_channels,
hidden_channels, out_channels): super(GCN, self).__init__() self.conv1 = GCNConv(in_channels, hidden_channels) self.conv2 = GCNConv(hidden_channels, out_channels) def forward(self, x, edge_index): # 最初のGCN層 x = self.conv1(x, edge_index) x = F.relu(x) x = F.dropout(x, p=0.5, training=self.training) # 2番目のGCN層 x = self.conv2(x, edge_index) return F.log_softmax(x, dim=1) 29

GNNの実装例（モデルの初期化、学習処理） # モデルの初期化 model = GCN(in_channels=num_features, hidden_channels=16, out_channels=num_classes) # 損失関数と最適化手法の定義
criterion = nn.NLLLoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-3) # 訓練処理の実装 def train(): model.train() optimizer.zero_grad() out = model(data.x, data.edge_index) loss = criterion(out[data.train_mask], data.y[data.train_mask]) loss.backward() optimizer.step() return loss.item() 30

実装例（推論処理） def test(): model.eval() out = model(data.x, data.edge_index) pred =
out.argmax(dim=1) correct_test = pred[data.test_mask] == data.y[data.test_mask] accuracy_test = int(correct_test.sum()) / int(data.test_mask.sum()) return accuracy_test # 500エポックで学習 for epoch in range(500): loss = train() # 最終的なテスト精度を出力 test_acc = test() print(f"最終的なテスト精度: {test_acc:.4f}") -> 0.8160 31

本日のまとめグラフデータは、SNSコミュニティや交通網など、身近でありつつもRDBでは表現が難しい複雑な関係性を表現できる NetworkXで、グラフの作成・可視化・分析（中心性、経路、コミュニティ等）を簡単に実行できる GNNは、グラフ構造を活かした高度な予測タスク（ノード分類、リンク予測など）を効果的に解くことができる深層学習手法次のステップ NetworkXやPyGの公式チュートリアルを試す社内外の様々なデータでグラフ分析してみる
PyGやDGL（Deep Graph Library）で最新機能を試す 32

（免責事項）当資料は情報提供のみを目的として作成されたものであり、商品の勧誘を目的としたものではありません。本資料は、当社が信頼できると判断した各種データに基づき作成されておりますが、その正確性、確実性を保証するものではありません。また、本資料に記載された内容は予告なしに変更されることもあります。

NetworkXとGNNで学ぶグラフデータ分析入門〜複雑な関係性を解き明かすPythonの力〜

NetworkXとGNNで学ぶグラフデータ分析入門〜複雑な関係性を解き明かすPythonの力〜

みずほリサーチ&テクノロジーズ株式会社先端技術研究部

More Decks by みずほリサーチ&テクノロジーズ株式会社先端技術研究部

Other Decks in Programming

Featured

Transcript