Upgrade to Pro — share decks privately, control downloads, hide ads and more …

株式会社ブレインパッド_テクニカルナレッジ共有会#10 「ネットワーク上のクラスタリング」三浦航

brainpad-inc
September 18, 2014

株式会社ブレインパッド_テクニカルナレッジ共有会#10 「ネットワーク上のクラスタリング」三浦航

複雑ネットワークにおけるクラスタリングについて、大学院での研究を紹介しました。

複雑ネットワークの例としては、Webページのリンク構造や、論文の共著関係、たんぱく質の相互作用など様々なものが挙げられますが、これらの共通点として、複雑ネットワークはスケールフリー性やスモールワールド性をもつと言われています。スケールフリー性は、ネットワークの一部のノードが多くのリンクを持ち、ほとんどのノードはリンクを数本しかもたない性質を差します。スモールワールド性は、どのような2つのノードでもわずかなノードを経ることでたどり着ける性質を差します。「六次の隔たり」という言葉もありますが、人間の知り合い関係を複雑ネットワークにした場合、6人程度を介すと世界中のどんな人とも繋がることができると言われています。

三浦さんの発表では、モジュラリティという指標を用いて、複雑ネットワークのクラスタリングを紹介しました。

brainpad-inc

September 18, 2014
Tweet

More Decks by brainpad-inc

Other Decks in Technology

Transcript

  1. 本日の内容 • 自己紹介 – 所属と研究内容 • 複雑ネットワークって? – タイトルをソーシャルネットワークから変えました •

    ネットワーク上のクラスタリングって? – コミュニティ分析とは • モジュラリティって? – 計算方法を簡単に紹介 • で,それ美味しいの? – 企業間取引ネットワークにおける2つの研究結果 • まとめ
  2. 自己紹介 • 学部:早稲田大学理工学部物理学科相澤研究室 – カオス,フラクタル,統計物理など – 金融市場のマルチエージェントモデルの統計的性質 • 修士,博士:東京工業大学大学院総合理工学研究科知能シ ステム科学専攻高安研究室

    – 経済物理学,複雑ネットワークなど – 複雑ネットワークの成長モデルの構築とその応用 • 最近,本が出ました. – 今度,中国語版が出るとか・・・ 高安美佐子,田村光太郎,三浦航,”学生・技術者のためのビッグデータ解析入門”,日本評論社 (2014).
  3. 研究してきたこと • 企業間取引ネットワーク – 複雑ネットワークの成長モデルの構築(メイン) – HITSアルゴリズムを用いた2リンク構造ネットワークの解析 – パーコレーション理論に基づく連鎖倒産のシミュレーション –

    非線形輸送モデルによる売上高の推定(共同研究) – ベキ分布を用いた大企業と中小企業の分類(共同研究) • その他 – 外国為替市場における,ボラティリティとスプレッドの解析(RA) – 東日本大震災後のデマツイート伝播ネットワーク – 広告出稿量とブログ書き込み数の関係(共同研究) – IMDbを用いた俳優の共演関係ネットワーク → クラスタリングとかほとんどやってないです…
  4. 複雑ネットワークって? • 90年代後半からコンピュータ性能の向上に伴い,大規模 データを用いた複雑ネットワークの研究が行われてきた. • (ネットワークの研究自体は,社会学やグラフ理論としてそれ までにも存在) ※ http://www.visualcomplexity.com/vc/などに図が豊富. 2003年時のもの

    赤がアジア,青が北米,緑がヨーロッパ,黄が 南米,白がその他 http://www.opte.org/maps/ 555人の間の共著者ネットワーク http://www.mpi-fg- koeln.mpg.de/~lk/netvis/Huge.html Jeong, H., Mason, S. P., Barabási, A.-L. & Oltvai, Z. N. Lethality and centrality in protein networks. Nature 411, 41-42 (2001). 共著者のネットワーク たんぱく質ネットワーク インターネット
  5. 複雑ネットワークって? • これらのネットワークは,一部のノードが多くのリンクを持ち, ほとんどのノードはリンクを数本しか持たない. • ノードあたりのリンク数(次数)の分布はベキ分布に従う. • この性質はスケールフリーと言われる. • (あとスモールワールド性が有名)

    Barabási, A.-L., Jeong, H., Néda, Z., Ravasz, E., Schubert, A. &Vicsek, T., Evolution of the social network of scientific collaborations. Phys. A 311, 590-614 (2002). Jeong, H., Mason, S. P., Barabási, A.-L. & Oltvai, Z. N. Lethality and centrality in protein networks. Nature 411, 41-42 (2001). 共著者のネットワーク たんぱく質ネットワーク インターネット Pastor-Satorras, R., Vázquez, A & Vespignani, A. Dynamical and Correlation Properties of the Internet. Phys. Rev. Lett. 87, 258701 (2001).
  6. ネットワーク上のクラスタリングって? • そもそもクラスター係数という別の指標があり紛らわしいの で,クラスタリングとは言わず,コミュニティ分析(分割)などと 言う. コミュニティ分析のメリット • ノードを(機能ごとに)分類することができる. • 複雑なネットワークを粗視化して観測できる(見やすくなる).

    • 大体機械学習の場合と似ている.問題点も… • たんぱく質相互作用ネットワーク,人の脳機能のネットワー ク,株価の相関ネットワーク,論文の共著ネットワークなど. • 今回は企業間取引ネットワークの結果について.
  7. ネットワーク上のクラスタリングって? • 複雑ネットワークのリンク構造(のみ)からモジュラリティとい う値を用いて,コミュニティ内にはリンクが密に,コミュニティ 間にはリンクが疎になるように分割する. • 無向ネットワークのモジュラリティQは,以下で表される. • ここで,mはネットワークのリンク数.Aij は隣接行列と呼ばれ,

    ノードiからjにリンクがあれば値が1,なければ0の行列.ki は ノードiの次数,ci はノードiのコミュニティ. • コミュニティ内のリンクの密度を,ランダムネットワークの期待 値と比較している. M. E. J. Newman and M. Girvan, Phys. Rev. E 69, 026113 (2004).  Q  1 2m A ij  k i k j 2m        c i ,c j   i, j 
  8. コミュニティ分割のアルゴリズム • 行うことはモジュラリティQの最大化.とはいえNP完全問題. • 様々なアルゴリズムが考案されているが,最も単純なものとして貪 欲法(速い,簡単,悪くない)が知られている. • 最初に,全てのノードを孤立したコミュニティとみなし,ΔQが最大と なるコミュニティ同士を結合していく(ΔQの計算は楽). •

    これを全体が一つのコミュニティとなるまで続け(Q = 0),Qが最大 となる時のコミュニティ分割を,最適コミュニティ分割として用いる. • 局所解に陥りやすいなど,問題点ももちろんある. • およそQ = 0.3以上であれば,コミュニティ構造があるとされる.
  9. 藤原(2010)のコミュニティ分析 • コミュニティ分析の結果,Q = 0.566. • コミュニティ数は1,000を超え,小さなコミュニティは同じ地域, 産業に属する(ex. 同じ地域の小麦粉,麺製品,パン屋,包 装会社).

    • 同一コミュニティ内のハブ同士ではリンクがあまり存在しな い.供給者ー顧客の関係でつながるような,二部グラフと なっている.例えば,ホンダ,日産,トヨタのサプライヤーの 多くが共通.二部グラフが部分的に完全グラフ. 部品メーカー 車メーカー
  10. まとめ • モジュラリティには解像度限界(Σki < √2m)が存在することが 知られているため,複雑ネットワークにおいては巨大なコミュ ニティができやすい.したがって,結果の解釈も難しい. • 対象を限定するなど,ある程度の工夫が必要. コミュニティ分析の方向性

    • アルゴリズムの改善(アニーリングなどネットワークを分割す る方法,Blondel(2008)の方法). • そもそもモジュラリティを指標として用いない. • 重なりのあるコミュニティ分析(部長派とインストラクター派両 方に属するなど). • 階層構造のあるコミュニティ分析. → 俺たちの戦い(コミュニティ分析)はこれからだ.