Upgrade to Pro — share decks privately, control downloads, hide ads and more …

株式会社ブレインパッド_テクニカルナレッジ共有会#10 「ネットワーク上のクラスタリング」三浦航

brainpad-inc
September 18, 2014

株式会社ブレインパッド_テクニカルナレッジ共有会#10 「ネットワーク上のクラスタリング」三浦航

複雑ネットワークにおけるクラスタリングについて、大学院での研究を紹介しました。

複雑ネットワークの例としては、Webページのリンク構造や、論文の共著関係、たんぱく質の相互作用など様々なものが挙げられますが、これらの共通点として、複雑ネットワークはスケールフリー性やスモールワールド性をもつと言われています。スケールフリー性は、ネットワークの一部のノードが多くのリンクを持ち、ほとんどのノードはリンクを数本しかもたない性質を差します。スモールワールド性は、どのような2つのノードでもわずかなノードを経ることでたどり着ける性質を差します。「六次の隔たり」という言葉もありますが、人間の知り合い関係を複雑ネットワークにした場合、6人程度を介すと世界中のどんな人とも繋がることができると言われています。

三浦さんの発表では、モジュラリティという指標を用いて、複雑ネットワークのクラスタリングを紹介しました。

brainpad-inc

September 18, 2014
Tweet

More Decks by brainpad-inc

Other Decks in Technology

Transcript

  1. 複雑ネットワーク上の クラスタリング 研究開発室 三浦 航 2014年7月24日

  2. 本日の内容 • 自己紹介 – 所属と研究内容 • 複雑ネットワークって? – タイトルをソーシャルネットワークから変えました •

    ネットワーク上のクラスタリングって? – コミュニティ分析とは • モジュラリティって? – 計算方法を簡単に紹介 • で,それ美味しいの? – 企業間取引ネットワークにおける2つの研究結果 • まとめ
  3. 自己紹介 • 学部:早稲田大学理工学部物理学科相澤研究室 – カオス,フラクタル,統計物理など – 金融市場のマルチエージェントモデルの統計的性質 • 修士,博士:東京工業大学大学院総合理工学研究科知能シ ステム科学専攻高安研究室

    – 経済物理学,複雑ネットワークなど – 複雑ネットワークの成長モデルの構築とその応用 • 最近,本が出ました. – 今度,中国語版が出るとか・・・ 高安美佐子,田村光太郎,三浦航,”学生・技術者のためのビッグデータ解析入門”,日本評論社 (2014).
  4. 研究してきたこと • 企業間取引ネットワーク – 複雑ネットワークの成長モデルの構築(メイン) – HITSアルゴリズムを用いた2リンク構造ネットワークの解析 – パーコレーション理論に基づく連鎖倒産のシミュレーション –

    非線形輸送モデルによる売上高の推定(共同研究) – ベキ分布を用いた大企業と中小企業の分類(共同研究) • その他 – 外国為替市場における,ボラティリティとスプレッドの解析(RA) – 東日本大震災後のデマツイート伝播ネットワーク – 広告出稿量とブログ書き込み数の関係(共同研究) – IMDbを用いた俳優の共演関係ネットワーク → クラスタリングとかほとんどやってないです…
  5. 複雑ネットワークって? • 90年代後半からコンピュータ性能の向上に伴い,大規模 データを用いた複雑ネットワークの研究が行われてきた. • (ネットワークの研究自体は,社会学やグラフ理論としてそれ までにも存在) ※ http://www.visualcomplexity.com/vc/などに図が豊富. 2003年時のもの

    赤がアジア,青が北米,緑がヨーロッパ,黄が 南米,白がその他 http://www.opte.org/maps/ 555人の間の共著者ネットワーク http://www.mpi-fg- koeln.mpg.de/~lk/netvis/Huge.html Jeong, H., Mason, S. P., Barabási, A.-L. & Oltvai, Z. N. Lethality and centrality in protein networks. Nature 411, 41-42 (2001). 共著者のネットワーク たんぱく質ネットワーク インターネット
  6. 複雑ネットワークって? • これらのネットワークは,一部のノードが多くのリンクを持ち, ほとんどのノードはリンクを数本しか持たない. • ノードあたりのリンク数(次数)の分布はベキ分布に従う. • この性質はスケールフリーと言われる. • (あとスモールワールド性が有名)

    Barabási, A.-L., Jeong, H., Néda, Z., Ravasz, E., Schubert, A. &Vicsek, T., Evolution of the social network of scientific collaborations. Phys. A 311, 590-614 (2002). Jeong, H., Mason, S. P., Barabási, A.-L. & Oltvai, Z. N. Lethality and centrality in protein networks. Nature 411, 41-42 (2001). 共著者のネットワーク たんぱく質ネットワーク インターネット Pastor-Satorras, R., Vázquez, A & Vespignani, A. Dynamical and Correlation Properties of the Internet. Phys. Rev. Lett. 87, 258701 (2001).
  7. なぜスケールフリーになるのか? • 以下の論文を参照

  8. ネットワーク上のクラスタリングって? • そもそもクラスター係数という別の指標があり紛らわしいの で,クラスタリングとは言わず,コミュニティ分析(分割)などと 言う. コミュニティ分析のメリット • ノードを(機能ごとに)分類することができる. • 複雑なネットワークを粗視化して観測できる(見やすくなる).

    • 大体機械学習の場合と似ている.問題点も… • たんぱく質相互作用ネットワーク,人の脳機能のネットワー ク,株価の相関ネットワーク,論文の共著ネットワークなど. • 今回は企業間取引ネットワークの結果について.
  9. ネットワーク上のクラスタリングって? • 複雑ネットワークのリンク構造(のみ)からモジュラリティとい う値を用いて,コミュニティ内にはリンクが密に,コミュニティ 間にはリンクが疎になるように分割する. • 無向ネットワークのモジュラリティQは,以下で表される. • ここで,mはネットワークのリンク数.Aij は隣接行列と呼ばれ,

    ノードiからjにリンクがあれば値が1,なければ0の行列.ki は ノードiの次数,ci はノードiのコミュニティ. • コミュニティ内のリンクの密度を,ランダムネットワークの期待 値と比較している. M. E. J. Newman and M. Girvan, Phys. Rev. E 69, 026113 (2004).  Q  1 2m A ij  k i k j 2m        c i ,c j   i, j 
  10. コミュニティ分割のアルゴリズム • 行うことはモジュラリティQの最大化.とはいえNP完全問題. • 様々なアルゴリズムが考案されているが,最も単純なものとして貪 欲法(速い,簡単,悪くない)が知られている. • 最初に,全てのノードを孤立したコミュニティとみなし,ΔQが最大と なるコミュニティ同士を結合していく(ΔQの計算は楽). •

    これを全体が一つのコミュニティとなるまで続け(Q = 0),Qが最大 となる時のコミュニティ分割を,最適コミュニティ分割として用いる. • 局所解に陥りやすいなど,問題点ももちろんある. • およそQ = 0.3以上であれば,コミュニティ構造があるとされる.
  11. 例1: Karate club network • コミュニティ分割でよくあるサンプル.他にイルカやジャズの ミュージシャンのネットワークなどが存在. • 70年代,アメリカの大学の空手クラブで,活動費の値上げを 巡って部長(1)とインストラクター(33)が対立し,その後分裂.

    • 貪欲法により,モジュラリティQ = 0.381で,ノード10だけ誤っ て分割. 灰:部長派 白:インストラクター派
  12. 例2: レ・ミゼラブルの登場人物 Knuthが小説をシーンごと に分割し,登場人物のグラ フを作成. モジュラリティQ = 0.54.

  13. 企業間取引ネットワークについて • 東京商工リサーチ(TSR)社調査による,2005年の日本企業 961,318社に関する取引関係データ(仕入・販売)を利用. • ある企業が別の企業にお金を払うという取引をするとき,そ の関係をリンクとして結ぶ. • 仕入と販売関係データの2つを合わせることにより,日本企 業の取引関係ネットワークとして,96万社378万取引の大規

    模ネットワークが構築可能. お金の流れで見た取引関係 (有向ネットワーク) A X in out A B C X 企業Xから企業Aに お金を払う取引 日本全体で観測
  14. 藤原(2010)のコミュニティ分析 4産業で86%を 占める. • 表.ネットワークに含まれる産業の大分類 建設 製造 卸小売 サービス Y.

    Fujiwara and H. Aoyama, Eur. Phys. J. B 77, 565 (2010).
  15. 藤原(2010)のコミュニティ分析 • 製造業(F)の12万社に対して,コミュニティ分析を行う. • モジュラリティには解像度限界があるので,ノード数が10,000 を超える5つのコミュニティには,再度貪欲法を実行. サイズの大きい上位5つのコミュニティの,次数の大きな10社を表示.

  16. 藤原(2010)のコミュニティ分析 • コミュニティ分析の結果,Q = 0.566. • コミュニティ数は1,000を超え,小さなコミュニティは同じ地域, 産業に属する(ex. 同じ地域の小麦粉,麺製品,パン屋,包 装会社).

    • 同一コミュニティ内のハブ同士ではリンクがあまり存在しな い.供給者ー顧客の関係でつながるような,二部グラフと なっている.例えば,ホンダ,日産,トヨタのサプライヤーの 多くが共通.二部グラフが部分的に完全グラフ. 部品メーカー 車メーカー
  17. 飯野(2010)のコミュニティ分析 • 全ネットワークに対して貪欲法を実行. • リンク構造のみからコミュニティを抽出しているので,結果の 解釈は難しい(東京とか建設業とはならない).サイズも微 妙.

  18. 飯野(2010)のコミュニティ分析 • コミュニティごとに色付けして図示. 個人的な感想 • 大規模ネットワークだとコミュニティの解釈が難しい. • 小規模ネットワークだとコミュニティ分析のありがたみがない. • 大規模ネットワークでコミュニティ分析をして,次数の大きなノード

    同士の関係を見るとか・・・? 同じコミュニティは同じ位置で 集まるらしい…
  19. まとめ • モジュラリティには解像度限界(Σki < √2m)が存在することが 知られているため,複雑ネットワークにおいては巨大なコミュ ニティができやすい.したがって,結果の解釈も難しい. • 対象を限定するなど,ある程度の工夫が必要. コミュニティ分析の方向性

    • アルゴリズムの改善(アニーリングなどネットワークを分割す る方法,Blondel(2008)の方法). • そもそもモジュラリティを指標として用いない. • 重なりのあるコミュニティ分析(部長派とインストラクター派両 方に属するなど). • 階層構造のあるコミュニティ分析. → 俺たちの戦い(コミュニティ分析)はこれからだ.
  20. Blondel(2008)のコミュニティ分析 • モジュラリティの最適化を,一度ではなく繰り返す. • 最適化に貪欲法を用いない → 解像度限界より小さなサイズ のコミュニティを検出する. V. D.

    Blondel et al., J. Stat. Mech. 2008, P10008 (2008).