Upgrade to Pro — share decks privately, control downloads, hide ads and more …

企業でネットワーク分析をするという事 / About belonging to a compa...

Sansan DSOC
December 12, 2019

企業でネットワーク分析をするという事 / About belonging to a company and analyzing networks

■イベント
東京大学工学系研究科での講義

■登壇概要
タイトル:企業でネットワーク分析をするという事
発表者:
DSOC 研究開発部 SocSci Group 臼井 翔平

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

December 12, 2019
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. Data Strategy and Operation Center 略歴 2015~2016 株式会社ホットリンク委託研究員 2016~2017 学振特別研究員

    2017 東京⼤学⼤学院⼯学系研究科博⼠課程修了 2017~2019 東京⼤学先端科学技術研究センター特任助教 2019~ Sansan株式会社 DSOC 研究員
  2. 4

  3. Data Strategy and Operation Center Agenda 9 • R&Dチームについて •

    Sansanの扱うデータ • 企業でネットワーク分析をやるという事 • BBES(BtoB Engagement Score) • What is Effective Encounters? • 地域の特徴を可視化する • まとめと宣伝
  4. Data Strategy and Operation Center DSOC R&Dチーム 12 Automationチーム 画像処理部隊

    Sansanの要 Data Analysisチーム 主に機械学習・⾃然⾔語処理 課題を解決する SocSciチーム 社会学・経済学・複雑系科学 課題を⾒つける
  5. Data Strategy and Operation Center SocSciチームとは? 14 Social Scienceチーム •

    課題を⾒つけ、解決に導く • データから何ができるかを思考し、新しい価値を⽣み出す データから何ができるかを思考し、新しい価値を⽣み出す メンバー • ⼀橋⼤学経済学修⼠ • 筑波⼤学MBA博⼠課程在籍 • 東京⼤学⼈⽂社会系研究科博⼠課程在籍 • 慶應義塾⼤学経済学博⼠ • 東京⼤学⼯学系博⼠
  6. Data Strategy and Operation Center • 世界で⼀番リッチなオフラインネットワーク(当社⽐) • 複雑系の性質を⾊濃く持つネットワーク(論⽂執筆中) •

    コミュニティ構造や属性を持つネットワーク データの特殊性 16 オフライン オンライン ⼤規模 ⼩規模 空⼿クラブ 実地調査 センサー ⼩規模SNS
  7. Data Strategy and Operation Center データの取り扱い 19 • データの取り扱いは⾮常にセンシティブ •

    法務判断+倫理的判断 引⽤ : https://japan.cnet.com/article/35137231/ 引⽤ : https://japan.cnet.com/article/35126967/
  8. Data Strategy and Operation Center イギリスの事例 20 • Network Diversity

    and Economic Development (2010, Science, Eagle et al) • 地域ネットワークの多様性と経済活性には⾼い相関がある
  9. Data Strategy and Operation Center ルワンダの事例 21 • “Predicting poverty

    and wealth from mobile phone metadata”, Science, 2015 • 携帯電話の通話記録から機械学習でその⼈の富を推定する
  10. Data Strategy and Operation Center Cambridge Analyticaのケース 22 • フェイスブック上で、性格のタイプを診断するクイズが勧められた

    • ケンブリッジ⼤学のアレクサンダー・コーガン⽒によって開発された • 回答したユーザーの友達に関するデータも収集するよう設計 • 主に⽶国に住む約5000万⼈分のデータを収集 • データはケンブリッジ・アナリティカ社に売却される • 親トランプ的な素材を送り届けるのに利⽤された
  11. Data Strategy and Operation Center ネットワークと個⼈情報 23 • つながりの情報は個⼈情報なのか? •

    現状⽇本の個⼈情報保護法は ネットワーク構造を持つデータには対応していない 例えば・・・ あなたのフレンドの次数や中⼼性を⾒せてもいいのか 企業の持っている繋がりは公開情報となるのか
  12. Data Strategy and Operation Center なぜ企業で複雑系の知識が必要なのか? 29 • 企業の課題の中には、機械学習で解決できない問題が結構ある 例えば・・・

    ⽉/年間で何社契約するのかざっくりと知りたい ⽇本全体の名刺交換枚数をざっくり知りたい ユーザがしている実際の名刺交換枚数を知りたい
  13. Data Strategy and Operation Center 世の中は複雑系だらけ 30 • スケールフリー性 •

    ユーザ数と名刺交換の関係 • 企業数と企業規模の関係 • 相互関係によって定義される系はほぼ全てが複雑系 • 多くのデータがネットワーク構造を持っている
  14. Data Strategy and Operation Center 思考としての複雑系ネットワーク 31 • 個々ではなく全体を⾒る •

    べき分布なのか、正規分布なのか • スケールフリー性を持っていたら基本的に個々の予測は難しい • 表ではなくネットワークとして⾒る • 頭の中でネットワークに変換して考えられますか?
  15. Data Strategy and Operation Center “企業で”ネットワーク分析をするメリット・デメリット 32 メリット データが潤沢 •

    全員が同じ⽬的を共有している • データの掛け合わせは割と⾃由にできる • サービス直結で考えることができる デメリット • 論⽂とかを書く時間はそんなに取れない
  16. Data Strategy and Operation Center ビジネスマンタイプ分析 35 • 社内で重要な⼈は誰? •

    他の社員のプロファイリング • ⾃⼰理解やチーム編成 Sansanに取り込まれた名刺データから ユーザがどのようなタイプかを分析する
  17. Data Strategy and Operation Center 取り込み確率の推定 44 名刺の取り込みを!"# 、取り込まれを$% ユーザの取り込み確率は!"#

    と$% の関係を⾒れば、取り込み確率は推定でき る 観測できない名刺交換枚数はと、相⼿側の取り込み確率′、 名刺交換枚数として定式化 • = − − !
  18. Data Strategy and Operation Center ユーザ・⾮ユーザバイアスの推定 45 ユーザは名刺を取り込む時に相⼿がユーザかどうかは気にしない • 取り込まれ枚数は、ユーザ・⾮ユーザで同条件

    ユーザ、⾮ユーザの次数分布を⾒る • 明らかに名刺交換が多い⽅にバイアス スケールフリー性により、 スケールしても平均次数の⽐率は変化しない
  19. Data Strategy and Operation Center BBES (BtoB Engagement Score) 48

    • 名刺交換をしている⼈にその企業の印象を調査 • 企業を知っている⼈から調査可能 • BtoB企業のブランド⼒もはかれる! ※ BBES(BtoB Engagement Score)は、2020年2⽉より「Eight Company Score」として提供されています。
  20. Data Strategy and Operation Center 誰に対してアンケートを出すのか? 49 制約条件 • 名刺を持っている企業についてのアンケートを送る

    • 対象企業は約1500社 • ⼀⼈につき3つの企業まで答える • ⼀つの企業につき1500件のアンケートを送る サンプリングアルゴリズムを検討する →最適化をどうすればよいか
  21. Data Strategy and Operation Center Dinic Algorithm 53 S 3

    3 3 1 1 1500 1500 1500 1500 G 3 1500
  22. Data Strategy and Operation Center Dinic Algorithm 54 S 3

    3 3 1 1 1500 1500 1500 1500 G 3 1500
  23. Data Strategy and Operation Center Dinic Algorithm 55 S 3

    3 3 1 1 1500 1500 1500 1500 G 3 1500
  24. Data Strategy and Operation Center 重回帰分析による分析 59 従属変数 • 企業のBrand

    score 説明変数 • 企業のSales • 業種 • ネットワーク特徴量
  25. Data Strategy and Operation Center 本成果のアウトプットについて 61 DSOC Data Science

    Report • https://sansan-dsoc.com/research/report/ NetSciX2020 ポスター • https://netscix2020tokyo.github.io/
  26. Data Strategy and Operation Center 隣接⾏列から共通の友⼈数を計算する 65 隣接⾏列A 共通友⼈⾏列:C=A( •

    ただし、そのまま計算することはできない • 200万×200万の密⾏列をメモリに載せる必要がある • 5TBくらい? リンクのあるところだけに絞る:C’ = A( ∘ A C′ = () + ( + ⋯ + %) () + ( + ⋯ + %) ∘ A= ∑$*+ % ∑,*+ % A$ + A, ∘ A
  27. Data Strategy and Operation Center 共通の友⼈の性質 66 共通の友⼈は誰が持っているのか • Q:均等に皆がもっているのか

    • Q:⼀部のユーザが独占しているのか Degreeと共通の友⼈数の相関は0.433 共通の友⼈数はべき分布 • 共通の友⼈の多い出会いを⽣み出している⼈がいる 共通の友⼈が増える関係は複雑系の性質を持つ • 多くの要素が絡み合う臨界状態から⽣み出される
  28. Data Strategy and Operation Center Effective Encounterはノードの重要性をあげる? 67 従属変数 •

    Eigen vector centrality 説明変数 • 次数 • クラスタ係数 • Effective Encounterの数 Effective Encounterは有意にポジティブ
  29. Data Strategy and Operation Center Effective Encounterはリンク強度⾜りうるのか? 69 ロジスティック回帰 従属変数

    • Eight上でリアクションのやりとりがあったか 説明変数 • コモフレ数 • それぞれのクラスタの数 • ユーザのリアクション合計 Gradual Edgeが多い関係が仲の良い関係と⾔える
  30. Data Strategy and Operation Center 業種によって重要なEdgeは異なる? 70 • 各Edgeと業種の交互作⽤を検証 •

    代表取締役は他の部署に対して Effective Encounterが重要 • 営業部は他の部署に対して Effective Encounterが重要ではない
  31. 74