Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ネットワークデータサイエンス / Network data science

ネットワークデータサイエンス / Network data science

■イベント
滋賀大学データサイエンス学部での講義

■登壇概要
タイトル:ネットワークデータサイエンス
発表者:
DSOC 研究開発部 SocSci Group 臼井 翔平

▼Sansan DSOC
https://sansan-dsoc.com/

Sansan DSOC

June 22, 2019
Tweet

More Decks by Sansan DSOC

Other Decks in Science

Transcript

  1. Data Strategy and Operation Center ⾃⼰紹介 ⼯学博⼠ 個⼈情報保護⼠ 専⾨分野 計算社会科学

    複雑ネットワーク科学 ⾅井翔平 Sansan 株式会社 DSOC (Data Strategy & Operation Center) R&D Group 研究員 Shohei Usui
  2. Data Strategy and Operation Center 略歴 2015~2016 株式会社ホットリンク委託研究員 2016~2017 学振特別研究員

    2017 東京⼤学⼤学院⼯学系研究科博⼠課程修了 2017~2019 東京⼤学先端科学技術研究センター特任助教 2019~ Sansan株式会社 DSOC 研究員
  3. Data Strategy and Operation Center 組織構成 法⼈向け名刺管理サービス Sansanの開発、提供 個⼈向け名刺アプリサービス Eightの開発、提供

    R&D データ分析・研究開発 (画像処理/機械学習・AI) Sansan事業部 Eight事業部 DSOC Sansan株式会社 データ統括部⾨
  4. Data Strategy and Operation Center データサイエンスとはなにか!? “データを⽤いて新たな科学的および社会に有益な知⾒を 引き出そうとするアプローチのこと” by Wikipedia

    “さまざまな意思決定の局⾯において、データにもとづいて 合理的な判断を⾏えるように意思決定者をサポートする” by SAS “21世紀 もっともSEXYな職業である” by Thomas H. Davenport(1954-) つまり!! データに基づき新しい可能性を模索する⼈たち 13
  5. Data Strategy and Operation Center The best jobs in 2019

    according to US News & World Report 14 1. 統計学 4. コミュニケーションサイエンス& ⾔語聴覚障害学 6. 経営情報システム 7. コンピューターサイエンス 10. ソフトウェア・エンジニアリング 就職に最も役⽴つ修⼠号トップ10
  6. Data Strategy and Operation Center 必要な知識・講義 15 線形代数 確率・統計学 数値計算

    パターン認識 プログラムだけやってれば⼗分ではありません!
  7. Data Strategy and Operation Center そもそもビッグデータってなんや? 17 ビッグデータの条件:3V 1. Volume(量)

    2. Variety(多様性) 3. Velocity(速度) ウェブサイト Facebook上のユーザ Youtube上の動画 Twitter上のtweet
  8. Data Strategy and Operation Center なぜ今? 18 ハード⾯での発達 • 保存領域の拡⼤

    • CPUの性能向上 企業にデータが蓄積されてきた 企業にノウハウが蓄積されてきた ソフト⾯での発達 • 機械学習の発展 • Deep learning
  9. Data Strategy and Operation Center データの時代 19 多くの企業が⾮常に多くのデータを持っている • ⼤量の名刺

    • 視聴ログ • ゲームのプレイログ • 商品の購買ログ 多くの企業がデータを持て余している • データを集約しておく技術がない • データをどうやって使っていいかわからない
  10. Data Strategy and Operation Center データの形 〜ネットワーク〜 22 複雑ネットワーク •

    ノードとエッジを定義すれば なんでも複雑ネットワーク 名刺交換ネットワークの場合 • ⼈をノードとして、名刺交換をリンクとする • 企業をノードとする • 地域をノードとする
  11. Data Strategy and Operation Center 複雑ネットワーク科学(1998~) 23 Six Degrees of

    Separation (1998) Duncan J. Watts 6⼈経由すればつながれば世界中の⼈と繋がれる Scale-Free (1999) Barabási Albert-László パレートの法則
  12. Data Strategy and Operation Center 様々なネットワークデータ 24 • 有向と無向 •

    ⼆部グラフ • 時系列 • ノードにattribute • エッジにattribute ・枚数 ・取引関係 ・時間 ・企業規模 ・売り上げ ・従業員数
  13. Data Strategy and Operation Center 可視化とは? 28 「⾒る」ことのできるものにすること • このネットワークの特徴は?

    • どんな塊があるの? • 重要なノードってどれ? • 重要なリンクってどれ? • どのノードとどのノードが似てるの?
  14. Data Strategy and Operation Center Page rank 32 = #

    3 = # 2 + # 3 = # 2 + # 2 + # 3 = # 2 + # 3 重要なノードがリンクしている ノードは重要である 1. ⾃分の持っている重要度を リンク先に分ける w x y z
  15. Data Strategy and Operation Center Page rank 33 重要なノードがリンクしている ノードは重要である

    1. ⾃分の持っている重要度を リンク先に分ける = 0.129 = 0.194 = 0.290 = 0.387 w x y z
  16. Data Strategy and Operation Center ⾏列計算 35 = # 3

    = # 2 + # 3 = # 2 + # 2 + # 3 = # 2 + # 3 = 0 0 0 ' 1 3 ' 1 2 0 0 ' 1 3 ' 1 2 ' 1 2 0 ' 1 3 0 ' 1 2 0 ' 1 3 固有値問題として 解ける 固有値問題 = , ≠ 0 を満たすを固有値、 を固有ベクトル
  17. Data Strategy and Operation Center 協調フィルタリング 38 ◦ ◦ ◦

    0.33 ◦ ◦ 0.25 ◦ ◦ 0.25 ◦ ◦ ◦ 0.167 ◦ ◦ 0.25 ◦ ◦ - Cosine similarity cos(, ) = 8 || 8 || 0.25 + 0.167 + 0.25 = 0.667 0.33 + 0.25 + 0.167 = 0.747 A B C D B C
  18. Data Strategy and Operation Center Sansanの扱うデータ 44 ・名刺交換関係 ・企業情報 1.

    企業規模 2. 住所 3. 企業間の取引 4. 企業のブランド価値 ・ノード情報 1. 所属企業 2. 役職
  19. Data Strategy and Operation Center Eightの友⼈推薦機能 47 コンテンツフィルタリング • ユーザの属性を利⽤

    • 会社・業種・部署等 • 友⼈の友⼈ 協調フィルタリング • ユーザの名刺交換記録を利⽤ コンテンツフィルタリング+協調フィルタリング
  20. Data Strategy and Operation Center 都道府県間の出会いをモデル化 57 国と国の貿易量 = 国の経済規模

    × 国の経済規模 国と国の距離 都道府県間の出会いに応⽤ 県と県の出会いの量 = 県の経済規模 × 県の経済規模 県と県の距離 重⼒モデル 出会いのモデル
  21. Data Strategy and Operation Center ⾜りないデータは調査する 60 • 名刺交換をしている⼈にその企業の印象を調査 •

    企業を知っている⼈から調査可能 • 普通ではとれないデータがとれる! BBES (BtoB engagement score) ※ BBES(BtoB Engagement Score)は、2020年2月より「Eight Company Score」として提供されています。
  22. Data Strategy and Operation Center BBESと企業規模の相関 61 BBESは企業規模や名刺交換と強く相関している 企業の印象を強く表している ※

    BBES(BtoB Engagement Score)は、2020年2月より「Eight Company Score」として提供されています。
  23. Data Strategy and Operation Center イギリスの事例 63 Network Diversity and

    Economic Development (2010, Science, Eagle et al) 地域ネットワークの多様性と経済活性には⾼い相関がある
  24. Data Strategy and Operation Center ルワンダの事例 64 “Predicting poverty and

    wealth from mobile phone metadata”, Science, 2015 携帯電話の通話記録から機械学習でその⼈の富を推定する
  25. Data Strategy and Operation Center Cambridge Analyticaのケース 65 フェイスブック上で、性格のタイプを診断するクイズが勧められた •

    ケンブリッジ⼤学のアレクサンダー・コーガン⽒によって開発された • 回答したユーザーの友達に関するデータも収集するよう設計 • 主に⽶国に住む約5000万⼈分のデータを収集 データはケンブリッジ・アナリティカ社に売却される 親トランプ的な素材を送り届けるのに利⽤された
  26. Data Strategy and Operation Center できる事とやってはいけない事 66 携帯電話の通話記録 個⼈の富の推定 Suicaのレコード

    居住範囲、勤務先の推定 Twitterの⽂字情報 個⼈・居住地・経済状況の特定 企業規模と役職 個⼈の収⼊・経済状況 購買情報 個⼈の信条・指⽰の推定 多分できるけどやってもいいのか?
  27. Data Strategy and Operation Center Sansanの扱うデータ(再掲) 69 ・名刺交換関係 ・企業情報 1.

    企業規模 2. 住所 3. 企業間の取引 4. 企業のブランド価値 ・ノード情報 1. 所属企業 2. 役職
  28. Data Strategy and Operation Center 議論 70 どんな事が出来そうか⾃由に議論してください • 不可能そうでも全然構いません!

    それが現実的にできそうなのかどうかを議論してください • 想像でいいです!⾃由に議論してください • 技術的なブレイクスルーはどこにありますか? 倫理的にやっても⼤丈夫そうなのかどうかを議論してください