グラフデータの分析と DSOC の取り組みを俯瞰する / Overview of graph data analysis and DSOC initiatives

グラフデータの分析と DSOC の取り組みを俯瞰する Sansan株式会社 DSOC R&D研究員⿊⽊裕鷹

Data Strategy and Operation Center ⾃⼰紹介⿊⽊裕鷹オンライン名刺 •
೥݄ೖࣾ Yutaka Kuroki Sansan 株式会社 DSOC（Data Strategy & Operation Center） R&D Data Analysis Group 研究員 @kur0cky_y

Data Strategy and Operation Center アジェンダ DSOC R&D について •
そもそも DSOC ってなに？グラフデータの分析を俯瞰する • 古典的なネットワーク科学から GNN まで DSOC におけるグラフデータの活⽤ • どんなふうに利⽤されている？

Data Strategy and Operation Center 組織構成名刺管理サービス Sansanの開発、提供名刺アプリサービス Eightの開発、提供
R&D データ分析・研究開発（画像処理／機械学習・AI） Sansan事業部 Eight事業部 DSOC Sansan株式会社データ統括部⾨

Data Strategy and Operation Center 各グループの役割 Data Analysis Group SocSci
Group Arc Group Automation Group これまでにない速度と限りなく100％に近い精度、セキュリティーの確保を⽬指し、画像認識や機械学習などの技術を⽤いて、名刺やビジネス⽂書といった⾮定型でアナログな情報のデータ化を効率化・⾃動化する技術の研究開発に取り組む。社会科学の各領域を専攻するメンバーで構成。「リアルとバーチャルのはざまで、社会理論を武器に名刺交換の価値を拡張する」をミッションとして掲げ、研究を通して得られた知⾒や成果を事業やサービス、社会へと還元することに取り組む。また、外部有識者との共同研究も積極的に展開する。機械学習、⾃然⾔語処理、画像処理といった技術を⽤いて、あらゆるビジネスデータを収集・解析する。多様なビジネスデータを組み合わせることで、レコメンデーションエンジンやニュース配信エンジンなどの構築に取り組む。「研究開発部が提供するサービスに責任を持つ」「DSOCをデータで⽀える・リードする」をミッションとして掲げ、サービスの可⽤性、拡張性、保守性の担保に取り組む。また、研究開発部の開発⽣産性に向き合いながら、データ基盤の整備、データの品質、データの取り扱いにおける安全性の担保にも取り組む。

グラフデータの分析を俯瞰する

複雑ネットワークと古典的な解析

Data Strategy and Operation Center グラフデータ • グラフ：ノードエッジ ℰ
により = , ℰ で表される数学的対象 • データ例： > WWW，共著ネットワーク，SNS，交通網，⾷物連鎖ネットワーク，タンパク質の相互作⽤ネットワーク (PPI)，etc… • グラフデータを取り巻く分野 > ことば：グラフ理論，物理学，統計学，CS > 道具：数理モデル，統計モデル，機械学習モデル > 現象：社会学，⽣物学，化学，経済学，etc … 図：業種「その他製品」の誘導部分グラフ

Data Strategy and Operation Center ネットワークの基礎統計量 • 局所的な量 • 次数，様々な中⼼性
(e.g. pagerank)，クラスター係数，モチーフ，etc… • ⼤局的な量 • 次数分布，平均経路⻑，直径，次数相関，密度，コミュニティー構造，etc … クラスター係数：近傍同⼠がつながっている割合今回のatmaCupでも活躍！？ノードやエッジ単位の記述統計量だけでなく，構造に由来する様々な特徴量を考えることができる

Data Strategy and Operation Center 複雑ネットワークランダムネットワーク ↔ 複雑ネットワーク •
現実のネットワークの多くが，ランダムネットワークにないような共通の性質をもつ • スモールワールド性 • ⼤きいクラスター係数と⼩さい平均距離を併せもつ (Itʼs a small world!!) • Watts-Strogatz (WS) モデル [22] など • スケールフリー性 • 次数分布がべき分布に従う（⾮常に裾が⻑い）．ハブの存在 • Barabasi-Albert (BA) モデル [2] など

図：密度の同じランダムネットワーク（左），スモールワールドネットワーク（中央），スケールフリーネットワーク（右）⾼いクラスター係数ハブの存在

Data Strategy and Operation Center ランダムネットワーク • Erdos-Renyi モデル [5]
• すべてのノード間で確率でエッジが貼られる • 次数分布はポアソン分布で近似できる • ⼀般化ランダムグラフモデル • 任意の次数列を与え，ランダムグラフを⽣成（ポアソン分布じゃなくてもよい） • 例：Configuration モデル [14] • 指数ランダムグラフモデル [9, 21] • ノード , 間にエッジが存在する確率にロジスティック回帰を適⽤ P !" = 1 = exp 1 + exp .

Data Strategy and Operation Center 指数ランダムグラフモデル • 特定の構造をもつ観測グラフ = が得られる確率は次式
> はに含まれるエッジの数 > これは指数型分布族 = | = exp . • 各ノードの特性を考慮したり，2者関係間が独⽴でないことを許容する拡張を⾏うことができる． > 「⼈気者とそうでない⼈がいる」： exp → exp + ! + " > 「友⼈の友⼈も友⼈である確率が⾼い」：スター構造の導⼊ [16]

Data Strategy and Operation Center その他の現象 • 感染 > 隣接ノードに確率的に感染することを仮定
> 免疫ができる à SIRモデル > 再感染する à SISモデル • コミュニティ > グラフ分割 > 各種クラスタリング > 確率的ブロックモデル • 次数相関 > 「⼈気者の友達も⼈気者」 > BAモデルの次数相関は負になる図：確率的ブロックモデルによる⽣成ネットワークの例

図：業種ごと誘導部分グラフ (train) の次数相関

グラフデータの深層学習

Data Strategy and Operation Center グラフデータと深層学習 • (Semi) supervised learning
> ラベルがあるノードだけを教師にし分類問題 > グラフは所与： GNN [17] ，GCN (spectral, spatial) [3] ，Graph Attention Network [19] > 未知ノードへの対応：GraphSAGE [8] • unsupervised learning > Skipgram：DeepWalk [15] , node2vec [6], LINE [18] , unsupervised GraphSAGE > Autoencoder：SDNE(隣接⾏列の再構成) [20], DNGR (点相互情報量の再構成) [4] > GCN×Autoencoder：GAE, VGAE [10] , Graphite [7] 今回のatmaCupで⼤活躍！！

Data Strategy and Operation Center グラフデータと深層学習 • (Semi) supervised learning
> ラベルがあるノードだけを教師にし分類問題 > グラフは所与： GNN [17] ，GCN (spectral, spatial) [3] ，Graph Attention Network [19] > 未知ノードへの対応：GraphSAGE [8] • unsupervised learning > Skipgram：DeepWalk [15] , node2vec [6], LINE [18] , unsupervised GraphSAGE > Autoencoder：SDNE(隣接⾏列の再構成) [20], DNGR (点相互情報量の再構成) [4] > GCN×Autoencoder：GAE, VGAE [10] , Graphite [7] 今回のatmaCupで⼤活躍！！ skipgramの作り⽅，何を再構成するか，どの空間で畳み込むのかなどで個性が出る

Data Strategy and Operation Center 表現学習の後段タスク • Graph reconstruction： •
離散的なグラフを連続的な空間で低次元近似．要約 • Link prediction： • ⽋落したリンクの予測，怪しいリンク検知． • Node clustering： • GCNに利⽤することもできる • Visualization： • 埋め込み品質などを定性的解釈に有⽤（⾊づけして2次元プロットなど） • Node classification： • 未知ノードに対して，ネットワーク構造を利⽤しながら予想する．GCNやGraphSAGEで直接⾏うことが可能 • Graph classification： • グラフ単位でラベル付け．化合物に対してしばしば⾏われる． • プーリングを任意のグラフに⼀般化しなければならない（これは未解決）．分⼦は結合に制約がある．

DSOC におけるグラフデータの活⽤

同業他社ニュース

Data Strategy and Operation Center 同業他社ニュースにおける node embedding の利⽤ •
Sansan や Eight 上で，同業他社の最新動向を配信する • node embedding により，より実感に沿う同業他社の特定近傍探索 + 同業判定企業ニュース収集⽣成配信 ! ! 固有表現抽出ニュースソース

Eight Career Design

Data Strategy and Operation Center • 転職ネットワークの埋め込みによる候補者検索の改善 • その他探索的研究 &JHIUͰμΠϨΫτ࠾༻͕มΘΔɻ
転職ネットワークの分析

Data Strategy and Operation Center 転職市場の探索的研究 • εϙʔπͷϨʔςΟϯά<>を転⽤した企業・業界ごとの特性の把握 count ←
= ڝ߹౓!,#× ࠾༻ྗ! − Ϧςϯγϣϯ# + !# • ࠾༻ྗͱϦςϯγϣϯྗ͸ෛͷ૬ؔ > ߴϦςϯγϣϯɿਓࡐͷྲྀಈ͕Ժ΍͔ > ߴ࠾༻ྗɿ࠾༻਺͕ଟ͍ > ӈ্ɿ੒௕தɾస৬ࢢ৔ʹ͓͚Δத৺ 採⽤⼒企業がどの程度競合しているかはわからない．転職ネットワークの埋め込みを活⽤ ※社名・⽒名を匿名化したEightデータでの転職のネットワークを分析したリテンション⼒

Eight Company Score

Data Strategy and Operation Center Eight Company Score • 株主価値や企業業績，ESG
指標との関連が明らかになりつつある [1, 12] > Environment, Social, Governance 企業に対するステークホルダーのエンゲージメントを定量測定 Eight Company Score

Data Strategy and Operation Center 数値のメリットと課題 • Eight 上でのアンケートに基づいた企業のブランド⼒調査 >
ステークホルダーとのつながりをブランド・モノ・ヒトで数値化 > 通常では⾒つけづらい BtoB 企業にたどり着きやすい（snowball sampling 的） • 各企業について誰に聞けば良い？ • 1⼈につき◦◦企業までしか聞けない • 1企業につき△△件の回答がほしい • 上記を満たしつつ，聞く⼈数減らしたい

Data Strategy and Operation Center ⼆部グラフからのサンプリング

Data Strategy and Operation Center 最⼤流問題の活⽤ S G

Data Strategy and Operation Center Dinic Algorithm の利⽤ 32 -
Dinic アルゴリズムの利⽤（最⼤フロー問題） - 最⼤フロー問題： - 各辺 ∈ ℰ に容量 () がついており，!"#$%& ∈ から '"() ∈ へ流せる流量を求める > BFSで各頂点までの距離を計算 > DFSからの容量が⼤きくなるようなパスを⾒つけ，フローを流す． > 流したら逆リンク⽣成 > 流しきるまで繰り返す

Data Visualization

Data Strategy and Operation Center Data Visualization

Nishida, T., Tokui, N., Dozono, S., JEMAPUR, Yamawaki, N. (2020).
Dawn of Innovation, NetSci2020, https://qosmo.jp/projects/sansan-dsoc/

Data Strategy and Operation Center まとめ • グラフデータに対する分析⼿法を俯瞰的に紹介した． • DSOC
におけるグラフデータの活⽤事例を紹介した． • コンペへのご参加ありがとうございました！！オンライン名刺

Data Strategy and Operation Center 参考⽂献 1. 真鍋友則, 中川
慧, B2B企業ブランド評価と株価の価値関連性の実証研究, 経営情報学会誌, 2020, 29 巻, 2 号, p. 87-104 2. Barabási, A. L., & Albert, R. (1999). Emergence of scaling in random networks. science, 286(5439), 509-512. 3. Bruna, J., Zaremba, W., Szlam, A., & Lecun, Y. (2014). Spectral networks and locally connected networks on graphs. In International Conference on Learning Representations (ICLR2014), CBLS, April 2014 [http://openreview.net/document/d332e77d- 459a-4af8-b3ed-55ba9662182c, http://arxiv.org/abs/1312.6203] 4. Cao, S., Lu, W., & Xu, Q. (2016, February). Deep neural networks for learning graph representations. In AAAI (Vol. 16, pp. 1145-1152). 5. Erdős, P., & Rényi, A. (1960). On the evolution of random graphs. Publ. Math. Inst. Hung. Acad. Sci, 5(1), 17-60. 6. Grover, A., & Leskovec, J. (2016, August). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 855-864). 7. Grover, A., Zweig, A., & Ermon, S. (2019, May). Graphite: Iterative generative modeling of graphs. In International conference on machine learning (pp. 2434- 2444). PMLR. 8. Hamilton, W., Ying, Z., & Leskovec, J. (2017). Inductive representation learning on large graphs. In Advances in neural information processing systems (pp. 1024-1034). 9. Holland, P. W., & Leinhardt, S. (1981). An exponential family of probability distributions for directed graphs. Journal of the american Statistical association, 76(373), 33-50. 10. Kipf, T. N., & Welling, M. (2016). Variational graph auto-encoders. arXiv preprint arXiv:1611.07308. 11. Lerer, A., Wu, L., Shen, J., Lacroix, T., Wehrstedt, L., Bose, A., & Peysakhovich, A. (2019). Pytorch-biggraph: A large-scale graph embedding system. arXiv preprint arXiv:1903.12287.

Data Strategy and Operation Center 参考⽂献 12. Manabe, T. Nakagawa,
K. (2020). Identification of B2B Brand Components and their Performanceʼs Relevance Using a Business Card Exchange Network, Pacific Rim Knowledge Acquisition Workshop, PKAW 2020. 13. Massey, K. (1997). Statistical models applied to the rating of sports teams. Bluefield College. 14. Newman, M. E., Strogatz, S. H., & Watts, D. J. (2001). Random graphs with arbitrary degree distributions and their applications. Physical review E, 64(2), 026118. 15. Perozzi, B., Al-Rfou, R., & Skiena, S. (2014, August). Deepwalk: Online learning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 701-710). 16. Robins, G., Pattison, P., Kalish, Y., & Lusher, D. (2007). An introduction to exponential random graph (p*) models for social networks. Social networks, 29(2), 173-191. 17. Scarselli, F., Gori, M., Tsoi, A. C., Hagenbuchner, M., & Monfardini, G. (2008). The graph neural network model. IEEE Transactions on Neural Networks, 20(1), 61-80. 18. Tang, J., Qu, M., Wang, M., Zhang, M., Yan, J., & Mei, Q. (2015, May). Line: Large-scale information network embedding. In Proceedings of the 24th international conference on world wide web (pp. 1067-1077). 19. Veličković, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., & Bengio, Y. (2017). Graph attention networks. arXiv preprint arXiv:1710.10903. 20. Wang, D., Cui, P., & Zhu, W. (2016, August). Structural deep network embedding. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 1225-1234). 21. Wasserman, S., & Pattison, P. (1996). Logit models and logistic regressions for social networks: I. An introduction to Markov graphs andp. Psychometrika, 61(3), 401-425. 22. Watts, D. J., & Strogatz, S. H. (1998). Collective dynamics of ʻsmall-worldʼnetworks. nature, 393(6684), 440-442.

グラフデータの分析と DSOC の取り組みを俯瞰する / Overview of graph ...

グラフデータの分析と DSOC の取り組みを俯瞰する / Overview of graph data analysis and DSOC initiatives

More Decks by Sansan DSOC

Other Decks in Technology

Featured

Transcript