Slide 1

Slide 1 text

ネットワークデータサイエンス Sansan 株式会社 DSOC(Data Strategy & Operation Center) R&D Group ⾅井翔平

Slide 2

Slide 2 text

※ 掲載されている内容等は発表時点の情報です。 ※ 公開に当たり、資料の⼀部を変更・削除している場合があります。

Slide 3

Slide 3 text

Data Strategy and Operation Center ⾃⼰紹介 ⼯学博⼠ 個⼈情報保護⼠ 専⾨分野 計算社会科学 複雑ネットワーク科学 ⾅井翔平 Sansan 株式会社 DSOC (Data Strategy & Operation Center) R&D Group 研究員 Shohei Usui

Slide 4

Slide 4 text

Data Strategy and Operation Center 略歴 2015~2016 株式会社ホットリンク委託研究員 2016~2017 学振特別研究員 2017 東京⼤学⼤学院⼯学系研究科博⼠課程修了 2017~2019 東京⼤学先端科学技術研究センター特任助教 2019~ Sansan株式会社 DSOC 研究員

Slide 5

Slide 5 text

会社概要

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

Sansan株式会社が展開する2つの事業 法⼈向けクラウド名刺管理サービス 個⼈向け名刺アプリ

Slide 8

Slide 8 text

Data Strategy and Operation Center 組織構成 法⼈向け名刺管理サービス Sansanの開発、提供 個⼈向け名刺アプリサービス Eightの開発、提供 R&D データ分析・研究開発 (画像処理/機械学習・AI) Sansan事業部 Eight事業部 DSOC Sansan株式会社 データ統括部⾨

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

Data Strategy and Operation Center Agenda ・データサイエンスとはなにか ・データサイエンスの事例 ・当社のデータとデータ活⽤事例 ・データ活⽤と倫理の問題 ・データ活⽤討論 ・まとめ 11

Slide 14

Slide 14 text

データサイエンスとは何か・・・

Slide 15

Slide 15 text

Data Strategy and Operation Center データサイエンスとはなにか!? “データを⽤いて新たな科学的および社会に有益な知⾒を 引き出そうとするアプローチのこと” by Wikipedia “さまざまな意思決定の局⾯において、データにもとづいて 合理的な判断を⾏えるように意思決定者をサポートする” by SAS “21世紀 もっともSEXYな職業である” by Thomas H. Davenport(1954-) つまり!! データに基づき新しい可能性を模索する⼈たち 13

Slide 16

Slide 16 text

Data Strategy and Operation Center The best jobs in 2019 according to US News & World Report 14 1. 統計学 4. コミュニケーションサイエンス& ⾔語聴覚障害学 6. 経営情報システム 7. コンピューターサイエンス 10. ソフトウェア・エンジニアリング 就職に最も役⽴つ修⼠号トップ10

Slide 17

Slide 17 text

Data Strategy and Operation Center 必要な知識・講義 15 線形代数 確率・統計学 数値計算 パターン認識 プログラムだけやってれば⼗分ではありません!

Slide 18

Slide 18 text

なぜ今データサイエンスが熱いのか

Slide 19

Slide 19 text

Data Strategy and Operation Center そもそもビッグデータってなんや? 17 ビッグデータの条件:3V 1. Volume(量) 2. Variety(多様性) 3. Velocity(速度) ウェブサイト Facebook上のユーザ Youtube上の動画 Twitter上のtweet

Slide 20

Slide 20 text

Data Strategy and Operation Center なぜ今? 18 ハード⾯での発達 • 保存領域の拡⼤ • CPUの性能向上 企業にデータが蓄積されてきた 企業にノウハウが蓄積されてきた ソフト⾯での発達 • 機械学習の発展 • Deep learning

Slide 21

Slide 21 text

Data Strategy and Operation Center データの時代 19 多くの企業が⾮常に多くのデータを持っている • ⼤量の名刺 • 視聴ログ • ゲームのプレイログ • 商品の購買ログ 多くの企業がデータを持て余している • データを集約しておく技術がない • データをどうやって使っていいかわからない

Slide 22

Slide 22 text

Data Strategy and Operation Center Sansanの扱っているデータ 20 繋がりデータ 地域・業種

Slide 23

Slide 23 text

複雑ネットワーク

Slide 24

Slide 24 text

Data Strategy and Operation Center データの形 〜ネットワーク〜 22 複雑ネットワーク • ノードとエッジを定義すれば なんでも複雑ネットワーク 名刺交換ネットワークの場合 • ⼈をノードとして、名刺交換をリンクとする • 企業をノードとする • 地域をノードとする

Slide 25

Slide 25 text

Data Strategy and Operation Center 複雑ネットワーク科学(1998~) 23 Six Degrees of Separation (1998) Duncan J. Watts 6⼈経由すればつながれば世界中の⼈と繋がれる Scale-Free (1999) Barabási Albert-László パレートの法則

Slide 26

Slide 26 text

Data Strategy and Operation Center 様々なネットワークデータ 24 • 有向と無向 • ⼆部グラフ • 時系列 • ノードにattribute • エッジにattribute ・枚数 ・取引関係 ・時間 ・企業規模 ・売り上げ ・従業員数

Slide 27

Slide 27 text

Data Strategy and Operation Center データの巨⼤さ 25 1兆ノードのネットワークはメモリに乗らない! webサイトのネットワーク 商品購買履歴のネットワーク

Slide 28

Slide 28 text

Data Strategy and Operation Center 複雑ネットワーク科学(データサイエンティスト)の⼒ 26 究極的に⾔えば 可視化

Slide 29

Slide 29 text

Data Strategy and Operation Center

Slide 30

Slide 30 text

Data Strategy and Operation Center 可視化とは? 28 「⾒る」ことのできるものにすること • このネットワークの特徴は? • どんな塊があるの? • 重要なノードってどれ? • 重要なリンクってどれ? • どのノードとどのノードが似てるの?

Slide 31

Slide 31 text

データ活⽤事例

Slide 32

Slide 32 text

Data Strategy and Operation Center 重要なノードを⾒つける! 30 事例:google Google検索エンジンが重要なサイトをどうやって⾒つけているのか 関連度スコア+重要度スコア → webネットワーク上の重要なサイト Page Rank

Slide 33

Slide 33 text

Data Strategy and Operation Center ノードの重要性 31 どのノードが重要そう? w x y z

Slide 34

Slide 34 text

Data Strategy and Operation Center Page rank 32 = # 3 = # 2 + # 3 = # 2 + # 2 + # 3 = # 2 + # 3 重要なノードがリンクしている ノードは重要である 1. ⾃分の持っている重要度を リンク先に分ける w x y z

Slide 35

Slide 35 text

Data Strategy and Operation Center Page rank 33 重要なノードがリンクしている ノードは重要である 1. ⾃分の持っている重要度を リンク先に分ける = 0.129 = 0.194 = 0.290 = 0.387 w x y z

Slide 36

Slide 36 text

Data Strategy and Operation Center スケール 34 ⼀兆ノードの計算ができますか?

Slide 37

Slide 37 text

Data Strategy and Operation Center ⾏列計算 35 = # 3 = # 2 + # 3 = # 2 + # 2 + # 3 = # 2 + # 3 = 0 0 0 ' 1 3 ' 1 2 0 0 ' 1 3 ' 1 2 ' 1 2 0 ' 1 3 0 ' 1 2 0 ' 1 3 固有値問題として 解ける 固有値問題 = , ≠ 0 を満たすを固有値、 を固有ベクトル

Slide 38

Slide 38 text

Data Strategy and Operation Center 商品・サービスを推薦する ユーザーへのレコメンド あるユーザが⾒たそうな映画とはなにか? コンテストを開いて募集 事例:Netflix

Slide 39

Slide 39 text

Data Strategy and Operation Center Link Prediction 37 次にこの⼈は 何を⾒たい? A B C D ?

Slide 40

Slide 40 text

Data Strategy and Operation Center 協調フィルタリング 38 ○ ○ ○ 0.33 ○ ○ 0.25 ○ ○ 0.25 ○ ○ ○ 0.167 ○ ○ 0.25 ○ ○ - Cosine similarity cos(, ) = 8 || 8 || 0.25 + 0.167 + 0.25 = 0.667 0.33 + 0.25 + 0.167 = 0.747 A B C D B C

Slide 41

Slide 41 text

Data Strategy and Operation Center スケール 39 ⼗億ユーザの計算ができますか?

Slide 42

Slide 42 text

Data Strategy and Operation Center Matrix Factorization 〜⾏列を分解する〜 40 次元削減 ユーザを個の特徴で表す ( ≪ ) 個の特徴

Slide 43

Slide 43 text

線形代数をちゃんとやっておこう!

Slide 44

Slide 44 text

Sansanの事例

Slide 45

Slide 45 text

Data Strategy and Operation Center

Slide 46

Slide 46 text

Data Strategy and Operation Center Sansanの扱うデータ 44 ・名刺交換関係 ・企業情報 1. 企業規模 2. 住所 3. 企業間の取引 4. 企業のブランド価値 ・ノード情報 1. 所属企業 2. 役職

Slide 47

Slide 47 text

~ 推薦する ~ 友⼈推薦

Slide 48

Slide 48 text

Data Strategy and Operation Center 知り合いですか? 46 気づいていなかった繋がりに 気づく

Slide 49

Slide 49 text

Data Strategy and Operation Center Eightの友⼈推薦機能 47 コンテンツフィルタリング • ユーザの属性を利⽤ • 会社・業種・部署等 • 友⼈の友⼈ 協調フィルタリング • ユーザの名刺交換記録を利⽤ コンテンツフィルタリング+協調フィルタリング

Slide 50

Slide 50 text

~データを解釈する~ ユーザに情報を提供する

Slide 51

Slide 51 text

Data Strategy and Operation Center Sansan Labs 49 未来の働き⽅を実現する

Slide 52

Slide 52 text

Data Strategy and Operation Center ビジネスマンタイプ分析 50 社内で重要な⼈は誰? 他の社員のプロファイリング ⾃⼰理解やチーム編成 Sansanに取り込まれた名刺データから ユーザがどのようなタイプかを分析する

Slide 53

Slide 53 text

Data Strategy and Operation Center ビジネスマンタイプ分析 51 社外の業種接触多様性 社内の業種接触多様性 社内ネットワークでの重要さ 社外の⾼い役職との接触 社内での繋がりの強さ

Slide 54

Slide 54 text

Data Strategy and Operation Center 社内ネットワークの構築 52

Slide 55

Slide 55 text

Data Strategy and Operation Center 社内ネットワークでの重要さ 53 どう解釈しますか?

Slide 56

Slide 56 text

Data Strategy and Operation Center 社内ネットワークでの重要さ 54 繋がりをたくさん持って いる⼈が重要な⼈物 が多い⼈はチームで 動く⼈数が多い!

Slide 57

Slide 57 text

~モデリングする~ 名刺交換を科学する

Slide 58

Slide 58 text

Data Strategy and Operation Center DSOC Science Report 56 都道府県間のビジネスの 出会いに法則はあるか?

Slide 59

Slide 59 text

Data Strategy and Operation Center 都道府県間の出会いをモデル化 57 国と国の貿易量 = 国の経済規模 × 国の経済規模 国と国の距離 都道府県間の出会いに応⽤ 県と県の出会いの量 = 県の経済規模 × 県の経済規模 県と県の距離 重⼒モデル 出会いのモデル

Slide 60

Slide 60 text

Data Strategy and Operation Center モデルの精度 58 ・当てはまり率は80% ・当てはまりが悪い県間 ・予測結果よりも交流が多い 距離や経済状況では説明できない 活発な交流をしている

Slide 61

Slide 61 text

~調査する~ 企業のブランドを調査

Slide 62

Slide 62 text

Data Strategy and Operation Center ⾜りないデータは調査する 60 • 名刺交換をしている⼈にその企業の印象を調査 • 企業を知っている⼈から調査可能 • 普通ではとれないデータがとれる! BBES (BtoB engagement score) ※ BBES(BtoB Engagement Score)は、2020年2月より「Eight Company Score」として提供されています。

Slide 63

Slide 63 text

Data Strategy and Operation Center BBESと企業規模の相関 61 BBESは企業規模や名刺交換と強く相関している 企業の印象を強く表している ※ BBES(BtoB Engagement Score)は、2020年2月より「Eight Company Score」として提供されています。

Slide 64

Slide 64 text

データ活⽤倫理

Slide 65

Slide 65 text

Data Strategy and Operation Center イギリスの事例 63 Network Diversity and Economic Development (2010, Science, Eagle et al) 地域ネットワークの多様性と経済活性には⾼い相関がある

Slide 66

Slide 66 text

Data Strategy and Operation Center ルワンダの事例 64 “Predicting poverty and wealth from mobile phone metadata”, Science, 2015 携帯電話の通話記録から機械学習でその⼈の富を推定する

Slide 67

Slide 67 text

Data Strategy and Operation Center Cambridge Analyticaのケース 65 フェイスブック上で、性格のタイプを診断するクイズが勧められた • ケンブリッジ⼤学のアレクサンダー・コーガン⽒によって開発された • 回答したユーザーの友達に関するデータも収集するよう設計 • 主に⽶国に住む約5000万⼈分のデータを収集 データはケンブリッジ・アナリティカ社に売却される 親トランプ的な素材を送り届けるのに利⽤された

Slide 68

Slide 68 text

Data Strategy and Operation Center できる事とやってはいけない事 66 携帯電話の通話記録 個⼈の富の推定 Suicaのレコード 居住範囲、勤務先の推定 Twitterの⽂字情報 個⼈・居住地・経済状況の特定 企業規模と役職 個⼈の収⼊・経済状況 購買情報 個⼈の信条・指⽰の推定 多分できるけどやってもいいのか?

Slide 69

Slide 69 text

Data Strategy and Operation Center データの取り扱い 67 データの取り扱いは⾮常にセンシティブ 弊社では社員の個⼈情報保護⼠の資格取得を義務化

Slide 70

Slide 70 text

データ活⽤議論

Slide 71

Slide 71 text

Data Strategy and Operation Center Sansanの扱うデータ(再掲) 69 ・名刺交換関係 ・企業情報 1. 企業規模 2. 住所 3. 企業間の取引 4. 企業のブランド価値 ・ノード情報 1. 所属企業 2. 役職

Slide 72

Slide 72 text

Data Strategy and Operation Center 議論 70 どんな事が出来そうか⾃由に議論してください • 不可能そうでも全然構いません! それが現実的にできそうなのかどうかを議論してください • 想像でいいです!⾃由に議論してください • 技術的なブレイクスルーはどこにありますか? 倫理的にやっても⼤丈夫そうなのかどうかを議論してください

Slide 73

Slide 73 text

No content