SocSci Group 新卒研修資料 / Training materials about SocSci Group

SocSci Group 新卒研修資料 / Training materials about SocSci Group

■ DSOC R&Dの研修資料

■ 概要
タイトル:SocSci Group 新卒研修資料
内容: 
SocSci Group 各メンバーのバックグラウンドの学問分野について

▼Sansan DSOC
https://sansan-dsoc.com/

A2cac4b3dcb2bc0b87917ddc034ef708?s=128

Sansan DSOC

June 11, 2020
Tweet

Transcript

  1. SocSci Group 新卒研修資料 DSOC R&D SocSci Group

  2. ※ 掲載されている内容等は発表時点の情報です。 ※ 具体的な事例は機密情報を含むため、ダイジェスト版を公開します。

  3. 経済学

  4. Data Strategy and Operation Center 経済学:限られた資源の配分を勉強する分野 経済学の考え⽅:経済学とは ▶ 選択肢(希望): •

    タピオカを探しに⾏く (15分) • Apple Storeでだらだらする (20分) • 近くでバイトしてる友達に挨拶しに⾏く (50分) →コストが⾼い • 上⼿くなるまでギターを習う ( 1 年) → 予算外 お⾦だけではない! 例:1時間表参道で暇になった(時間:限られた資源、予算)
  5. Data Strategy and Operation Center 経済学の考え⽅:分析⼿法

  6. Data Strategy and Operation Center 経済学の考え⽅:機械学習との相性 機械学習の⽅が予測に優れている…だけど、 • 結果の解釈が難しい!お客さんに理由を聞かれたら困る •

    意思決定について学べることが限られている • 反実仮想シナリオのシミュレーション 経済学が機械学習の⼒を⽤いて: • 解釈しやすい • 精度のいい • 実務に使える いわゆるfuture-proofな経済学 アルゴリズムが作れる
  7. Data Strategy and Operation Center 都道府県間のつながりメカニズム 東京 ⼤阪 愛知 福岡

    北海道
  8. Data Strategy and Operation Center 重⼒モデルとは? 経済規模 に⽐例 距離に 反⽐例

  9. Data Strategy and Operation Center 重⼒モデルとは?

  10. 複雑系科学

  11. Data Strategy and Operation Center 複雑系科学とは 「複雑なまま全体を捉える能⼒」 「発⽣するメカニズムはわからないが、⼀定の法則に従う」 引⽤ :

    https://bizzine.jp/article/detail/2420
  12. Data Strategy and Operation Center 複雑系とは? • 相互関係によって成⽴する系の総称 • 規模と発⽣頻度がべき分布になる

    • べき分布:両対数グラフ上で直線になる ( ) • パレート(8:2)の法則 • 細かい発⽣のメカニズムはわからないけど、 全体で⾒ると⼀定の法則に従う • 平衡(均衡)ではない、臨界点にて起こる振動現象 とりあえず頻度分布を書きたがる
  13. Data Strategy and Operation Center ⼤きな事象が発⽣するのではなく、⼩さな事象が連鎖する • ⼤地震 - ⼤きなプレートが⼀気にズレるわけではない!

    - ⼩さなズレが連鎖する! • 株の暴落(最近のHot topic) - 株価が下がる→信⽤取引してる⼈が焼けつく→株を投げうる→株価が下がる→・・・ - Twitter上でバズる - 全く同じ情報でも、バズる時とバズらない時がある - 誰が流したかはそんなに関係ない 臨界状態では何が起こる?連鎖の恐怖 異常ではなく、普通のこと
  14. Data Strategy and Operation Center “複雑”ネットワークとはなにか? • 従来の規則的なネットワークに対して”複雑”なネットワーク • ⾃然界に存在するネットワークは複雑系

    - 次数(リンク数)kのノードの存在確率p(k)はべき分布になる • 細かい内部の事情はわからないけど、次数分布はほぼ確実にべき分布になる - →スケールフリー性 • 名刺交換ネットワークも”複雑”ネットワーク
  15. Data Strategy and Operation Center なぜ企業で複雑系の知識が必要なのか? 企業の課題の中には、機械学習で解決できない問題が結構ある 例えば・・・ ⽉/年間で何社契約するのかざっくりと知りたい ⽇本全体の名刺交換枚数をざっくり知りたい

    ユーザがしている実際の名刺交換枚数を知りたい
  16. Data Strategy and Operation Center 世の中は複雑系だらけ • スケールフリー性 • ユーザ数と名刺交換の関係

    • 企業数と企業規模の関係 • 相互関係によって定義される系はほぼ全てが複雑系 • 多くのデータがネットワーク構造を持っている
  17. Data Strategy and Operation Center 思考としての複雑系ネットワーク • 個々ではなく全体を⾒る • べき分布なのか、正規分布なのか

    • スケールフリー性を持っていたら基本的に個々の予測は難しい • 表ではなくネットワークとして⾒る • 頭の中でネットワークに変換して考えられますか?
  18. Mission 1. 複雑系 ⽇本の名刺交換枚数を推定せよ

  19. ユーザの平均次数を求めて、 全労働⼈⼝に適⽤する

  20. Data Strategy and Operation Center 致命的な問題点 • 全ユーザが交換した全ての名刺を取り込んでいるわけではない • ユーザは⾮ユーザよりも名刺交換を多くする側に

    バイアスがかかる
  21. Data Strategy and Operation Center 取り込み確率の推定

  22. Data Strategy and Operation Center ユーザ・⾮ユーザバイアスの推定 ユーザは名刺を取り込む時に相⼿がユーザかどうかは気にしない • 取り込まれ枚数は、ユーザ・⾮ユーザで同条件 ユーザ、⾮ユーザの次数分布を⾒る

    • 明らかに名刺交換が多い⽅にバイアス スケールフリー性により、 スケールしても平均次数の⽐率は変化しない
  23. Mission 2. ネットワーク思考 ECSを調査せよ

  24. Data Strategy and Operation Center Eight Company Score* • 名刺交換をしている⼈にその企業の印象を調査

    • 企業を知っている⼈から調査可能 • BtoB企業のブランド⼒もはかれる! *名刺アプリEightのユーザーを対象とした任意のアンケート調査
  25. Data Strategy and Operation Center 誰に対してアンケートを出すのか? 制約条件 • 名刺を持っている企業についてのアンケートを送る •

    対象企業は約1400社 • ⼀⼈につき3つの企業まで答える • ⼀つの企業につき1500件のアンケートを送る サンプリングアルゴリズムを検討する →最適化をどうすればよいか
  26. Data Strategy and Operation Center ⼆部グラフからのサンプリング

  27. Data Strategy and Operation Center 最⼤流問題(ネットワークフロー) S 3 3 3

    3 1 1 1500 1500 1500 1500 1500 G
  28. Dinic Algorithm リンクに仕事を流した時に、逆リンクの容量を1増やす

  29. Data Strategy and Operation Center Dinic Algorithm S 3 3

    3 1 1 1500 1500 1500 1500 G 3 1500
  30. Data Strategy and Operation Center Dinic Algorithm S 3 3

    3 1 1 1500 1500 1500 1500 G 3 1500
  31. Data Strategy and Operation Center Dinic Algorithm S 3 3

    3 1 1 1500 1500 1500 1500 G 3 1500
  32. 効率的かつリスクを最⼩限に ただし、バイアスはかからないように 最適化をしていく

  33. 社会ネットワーク分析

  34. Data Strategy and Operation Center 今⽇話すこと • 社会ネットワーク分析とは • プロダクトへの活⽤事例

  35. 個⼈や組織などのアクターが織りなす社会構造を、 グラフ理論などを⽤いて数理的にモデル化することで、 ⾏為や集合的アウトカムへの影響を分析する⼿法。

  36. Data Strategy and Operation Center 4つの特徴 (Freeman 2004=2007) 1. 社会的⾏為者を結びつけている紐帯を基盤とする

    構造についての直感に動機づけられている 2. システマティックな経験データに基づいている 3. グラフィックイメージを利⽤する 4. 数理的・計算的モデルを利⽤する Freeman, L. C. (2004). The development of social network analysis. A Study in the Sociology of Science.(=辻⻯平訳. (2007). 社会ネットワーク分析の発展. NTT出版.) ノード (node) エッジ (edge) 隣接⾏列 (adjacency matrix) グラフィック イメージ 数理的モデル
  37. Data Strategy and Operation Center 複雑ネットワークとの違い? • 社会ネットワーク分析は社会学・⽂化⼈類学に起源を持つ。 現在では社会科学と数理科学・物理学の統合が進んでいる •

    複雑ネットワークと⽐較して、よりミクロな⾏為との関連に関⼼がある。 • 例:構造的空隙(structural holes)(Burt 1992) Burt, R. S. (1992). Structural holes: The social structure of competition. Harvard university press. 統制 情報
  38. Data Strategy and Operation Center 社会ネットワーク形成の主なメカニズム (Crossley 2010) 1. ホモフィリー

    (homophily) 社会的属性(e.g. 性別,年齢)が類似したアクター間に紐帯が発⽣しやすい 2. 近接性 (propinquity) 物理的な距離が近いアクター間に紐帯が発⽣しやすい 3. 推移性 (transitivity, triadic closure) AがBを選び、BがCを選ぶ時、A もまたCを選びやすくなる 4. 優先的選択 (preferential attachment) 紐帯を多く持つアクターほど新たに紐帯を獲得しやすい 5. 焦点 (focus) 職場や教会など、同⼀の構成体の周りで集合的⾏為を⾏うアクター間に紐帯が発⽣しやすい Crossley, N. (2010). The social world of the network. Combining qualitative and quantitative elements in social network analysis. Sociologica, 4(1)
  39. Data Strategy and Operation Center 名刺ネットワークデータのコンテクスト 1. ⽇本のビジネスシーンでの⼀般的慣習 ネットワークの業界を超えた⽐較が可能 2.

    ⼤半が初対⾯であること 多くの場合は1回しか出会いの記録がない 3. 対⾯的相互⾏為の介在 会話を通した情報交換、交換相⼿や企業への印象形成 4. リアルタイム性 名刺を取り込んだ⽇付が記録されている 5. 真正性の⾼い公式な属性情報 名刺=ビジネスツールであり、データの信頼性が⾼い
  40. Data Strategy and Operation Center ビジネスマンタイプ分析

  41. Data Strategy and Operation Center ビジネスマンタイプ分析 チーム内で どれだけ密なつながり を形成しているか 社内でどれだけ多くの

    ⼈とつながっているか どれだけ役職の⾼い⼈ とつながりがあるか どれだけ多くの業界と つながりがあるか どれだけ稀少な⼈と つながりがあるか 社内のつながりを どう構成しているのか?
  42. Data Strategy and Operation Center 共通の名刺から、社内ネットワークを構成する

  43. Data Strategy and Operation Center Sansan株式会社内部のネットワーク(前嶋 2019) 前嶋直樹. (2019). 名刺データによる組織ネットワーク分

    析の可能性: Sansan Labs ビジネスマンタイプ分析の事例 (特集 社会ネットワーク分析のレシピ). オペレーション ズ・リサーチ= Communications of the Operations Research Society of Japan: 経営の科学, 64(11), 655-660.
  44. 意味とコンテクストを理解することで データの価値を向上させる

  45. 経営学

  46. Data Strategy and Operation Center バックグラウンド 経営学 計量経済, 会計, ファイナンス,

    マーケティング 現在の研究テーマと⼿法 研究テーマ ⼿法 企業ブランド価値, 無形資産価値 パネルデータ分析、時系列分析 ブランド投資指標の開発 ファイナンス分析 ブランド・ファクターの分析 ⾃然⾔語処理
  47. Data Strategy and Operation Center 研究 • 企業ブランド投資指標の開発 • ブランド・コンサルティングツールの開発

    • ESG / SDGs 指標の開発 Eight Company Score を⽤いた研究
  48. Data Strategy and Operation Center Eight Company Score • 企業の名刺所有者に対して⾏われる

    「企業ブランド印象アンケート調査」 • 名刺アプリ Eight ユーザーを対象とした 任意のアンケート調査 名刺所有者を調査パネルとすることで、 取引先、営業先、企業関係者、近しい 業界など、その企業と接点のあるヒト からのブランド印象を得る 名刺所有者
  49. Data Strategy and Operation Center 調査内容 • 0 - 10

    までの 11 段階の評点 (3項⽬) • ⾃由記述⽂ ブランド 〇〇社のブランドイメージは 魅⼒的だと思いますか? モノ 〇〇社の製品・サービスは ⾃社/社会に有⽤だと思いますか? ヒト 〇〇社の⼈は好印象だと思いますか? Eight Company Score :調査内容 調査時期 • 半年に 1 回の頻度、過去 4 回実施 • 2018 年 5 ⽉、 11 ⽉、 2019 年 5⽉、 11 ⽉ 調査企業数 • 約 1400 社 • 上場企業 550 社 (B2B 企業 323 社) 調査⼈数 • 1 社あたり1500⼈に調査 • 平均回答率: 約 10 % • 1 社あたり約 150 ⼈の有効回答者
  50. Data Strategy and Operation Center スコアに影響する単語のうち、影響度の最も⾼い単語を15個抽出 ブランド・スコア の上昇と強い関係 ブランド・スコア の下落と強い関係

    • ⾃由記述⽂記⼊者の「単語」と 「ブランド・スコア」の関係性 結果 • ブランド⼒と正の相関のある単語には「最⾼」 「唯⼀無⼆」「ナンバーワン」など、その業界・ 業種でトップであることを表す単語が多く 出現している • ポジティブなワードに「ホワイト企業」ネガティ ブなワードに「ブラック企業」と、 ガバナンスに関するワードが表れている • スコアを引き下げる⾔葉には 古い企業体質を批判するような単語がみられる 2. ブランドを構成する要素の分析 分析1. ⾃由記述⽂の「語句」とブランド・スコア関係
  51. Data Strategy and Operation Center 2. ブランドを構成する要素の分析 • 業種別の分析 結果

    • 業種によって、スコアと関係のあるワードの種 類・性質は異なっている • IT 分野では「先進的」「最先端」が、 ブランドスコアに最も強く影響する • ⼀⽅、オフィス機器では、「安⼼感」「信頼」 などのワードが上位に出現する • 精密機器では「最先端」に加え、「最⼤⼿」 「⾼品質」などのワードが⾒受けられる • また、多くの業種で「世界」というワードが表れ ており、世界進出していることが評価される 傾向にあることも伺える 分析2. ⾃由記述⽂の「ワード」とブランド・スコアの関係 (業種別)
  52. Data Strategy and Operation Center ⾃由記述⽂にも重要な情報が含まれていそう ⾃由記述⽂を分類し、とのトピックの特徴と 「ブランド」および「企業価値」の関連を調査

  53. Data Strategy and Operation Center トピックと企業業績

  54. None