Data Strategy and Operation Center
⾃⼰紹介
⼯学博⼠
個⼈情報保護⼠
専⾨分野
計算社会科学
複雑ネットワーク科学
⾅井翔平
Sansan 株式会社
DSOC (Data Strategy & Operation Center)
R&D Group 研究員
Shohei Usui
Slide 4
Slide 4 text
Data Strategy and Operation Center
略歴
2015~2016 株式会社ホットリンク委託研究員
2016~2017 学振特別研究員
2017 東京⼤学⼤学院⼯学系研究科博⼠課程修了
2017~2019 東京⼤学先端科学技術研究センター特任助教
2019~ Sansan株式会社 DSOC 研究員
Slide 5
Slide 5 text
会社概要
Slide 6
Slide 6 text
No content
Slide 7
Slide 7 text
Sansan株式会社が展開する2つの事業
法⼈向けクラウド名刺管理サービス 個⼈向け名刺アプリ
Slide 8
Slide 8 text
Data Strategy and Operation Center
組織構成
法⼈向け名刺管理サービス
Sansanの開発、提供
個⼈向け名刺アプリサービス
Eightの開発、提供
R&D
データ分析・研究開発
(画像処理/機械学習・AI)
Sansan事業部 Eight事業部 DSOC
Sansan株式会社
データ統括部⾨
Slide 9
Slide 9 text
No content
Slide 10
Slide 10 text
No content
Slide 11
Slide 11 text
No content
Slide 12
Slide 12 text
No content
Slide 13
Slide 13 text
Data Strategy and Operation Center
Agenda
・データサイエンスとはなにか
・データサイエンスの事例
・当社のデータとデータ活⽤事例
・データ活⽤と倫理の問題
・データ活⽤討論
・まとめ
11
Slide 14
Slide 14 text
データサイエンスとは何か・・・
Slide 15
Slide 15 text
Data Strategy and Operation Center
データサイエンスとはなにか!?
“データを⽤いて新たな科学的および社会に有益な知⾒を
引き出そうとするアプローチのこと” by Wikipedia
“さまざまな意思決定の局⾯において、データにもとづいて
合理的な判断を⾏えるように意思決定者をサポートする” by SAS
“21世紀 もっともSEXYな職業である” by Thomas H. Davenport(1954-)
つまり!!
データに基づき新しい可能性を模索する⼈たち
13
Slide 16
Slide 16 text
Data Strategy and Operation Center
The best jobs in 2019 according to US News & World Report
14
1. 統計学
4. コミュニケーションサイエンス&
⾔語聴覚障害学
6. 経営情報システム
7. コンピューターサイエンス
10. ソフトウェア・エンジニアリング
就職に最も役⽴つ修⼠号トップ10
Slide 17
Slide 17 text
Data Strategy and Operation Center
必要な知識・講義
15
線形代数
確率・統計学
数値計算
パターン認識
プログラムだけやってれば⼗分ではありません!
Slide 18
Slide 18 text
なぜ今データサイエンスが熱いのか
Slide 19
Slide 19 text
Data Strategy and Operation Center
そもそもビッグデータってなんや?
17
ビッグデータの条件:3V
1. Volume(量)
2. Variety(多様性)
3. Velocity(速度)
ウェブサイト
Facebook上のユーザ
Youtube上の動画
Twitter上のtweet
Slide 20
Slide 20 text
Data Strategy and Operation Center
なぜ今?
18
ハード⾯での発達
• 保存領域の拡⼤
• CPUの性能向上
企業にデータが蓄積されてきた 企業にノウハウが蓄積されてきた
ソフト⾯での発達
• 機械学習の発展
• Deep learning
Slide 21
Slide 21 text
Data Strategy and Operation Center
データの時代
19
多くの企業が⾮常に多くのデータを持っている
• ⼤量の名刺
• 視聴ログ
• ゲームのプレイログ
• 商品の購買ログ
多くの企業がデータを持て余している
• データを集約しておく技術がない
• データをどうやって使っていいかわからない
Slide 22
Slide 22 text
Data Strategy and Operation Center
Sansanの扱っているデータ
20
繋がりデータ 地域・業種
Slide 23
Slide 23 text
複雑ネットワーク
Slide 24
Slide 24 text
Data Strategy and Operation Center
データの形 〜ネットワーク〜
22
複雑ネットワーク
• ノードとエッジを定義すれば
なんでも複雑ネットワーク
名刺交換ネットワークの場合
• ⼈をノードとして、名刺交換をリンクとする
• 企業をノードとする
• 地域をノードとする
Slide 25
Slide 25 text
Data Strategy and Operation Center
複雑ネットワーク科学(1998~)
23
Six Degrees of Separation (1998)
Duncan J. Watts
6⼈経由すればつながれば世界中の⼈と繋がれる
Scale-Free (1999)
Barabási Albert-László
パレートの法則
Slide 26
Slide 26 text
Data Strategy and Operation Center
様々なネットワークデータ
24
• 有向と無向
• ⼆部グラフ
• 時系列
• ノードにattribute
• エッジにattribute
・枚数
・取引関係
・時間
・企業規模
・売り上げ
・従業員数
Slide 27
Slide 27 text
Data Strategy and Operation Center
データの巨⼤さ
25
1兆ノードのネットワークはメモリに乗らない!
webサイトのネットワーク 商品購買履歴のネットワーク
Slide 28
Slide 28 text
Data Strategy and Operation Center
複雑ネットワーク科学(データサイエンティスト)の⼒
26
究極的に⾔えば
可視化
Slide 29
Slide 29 text
Data Strategy and Operation Center
Slide 30
Slide 30 text
Data Strategy and Operation Center
可視化とは?
28
「⾒る」ことのできるものにすること
• このネットワークの特徴は?
• どんな塊があるの?
• 重要なノードってどれ?
• 重要なリンクってどれ?
• どのノードとどのノードが似てるの?
Slide 31
Slide 31 text
データ活⽤事例
Slide 32
Slide 32 text
Data Strategy and Operation Center
重要なノードを⾒つける!
30
事例:google
Google検索エンジンが重要なサイトをどうやって⾒つけているのか
関連度スコア+重要度スコア
→ webネットワーク上の重要なサイト
Page Rank
Slide 33
Slide 33 text
Data Strategy and Operation Center
ノードの重要性
31
どのノードが重要そう?
w x
y
z
Slide 34
Slide 34 text
Data Strategy and Operation Center
Page rank
32
= #
3
= #
2 + #
3
= #
2 + #
2 + #
3
= #
2 + #
3
重要なノードがリンクしている
ノードは重要である
1. ⾃分の持っている重要度を
リンク先に分ける
w x
y
z
Slide 35
Slide 35 text
Data Strategy and Operation Center
Page rank
33
重要なノードがリンクしている
ノードは重要である
1. ⾃分の持っている重要度を
リンク先に分ける
= 0.129
= 0.194
= 0.290
= 0.387
w x
y
z
Slide 36
Slide 36 text
Data Strategy and Operation Center
スケール
34
⼀兆ノードの計算ができますか?
Data Strategy and Operation Center
商品・サービスを推薦する
ユーザーへのレコメンド
あるユーザが⾒たそうな映画とはなにか?
コンテストを開いて募集
事例:Netflix
Slide 39
Slide 39 text
Data Strategy and Operation Center
Link Prediction
37
次にこの⼈は
何を⾒たい?
A
B
C
D
?
Slide 40
Slide 40 text
Data Strategy and Operation Center
協調フィルタリング
38
○ ○ ○ 0.33
○ ○ 0.25
○ ○ 0.25
○ ○ ○ 0.167
○ ○ 0.25
○ ○ -
Cosine similarity
cos(, ) =
8
|| 8 ||
0.25 + 0.167 + 0.25 = 0.667
0.33 + 0.25 + 0.167 = 0.747
A B C D
B
C
Slide 41
Slide 41 text
Data Strategy and Operation Center
スケール
39
⼗億ユーザの計算ができますか?
Slide 42
Slide 42 text
Data Strategy and Operation Center
Matrix Factorization 〜⾏列を分解する〜
40
次元削減
ユーザを個の特徴で表す ( ≪ )
個の特徴
Slide 43
Slide 43 text
線形代数をちゃんとやっておこう!
Slide 44
Slide 44 text
Sansanの事例
Slide 45
Slide 45 text
Data Strategy and Operation Center
Slide 46
Slide 46 text
Data Strategy and Operation Center
Sansanの扱うデータ
44
・名刺交換関係 ・企業情報
1. 企業規模
2. 住所
3. 企業間の取引
4. 企業のブランド価値
・ノード情報
1. 所属企業
2. 役職
Slide 47
Slide 47 text
~ 推薦する ~
友⼈推薦
Slide 48
Slide 48 text
Data Strategy and Operation Center
知り合いですか?
46
気づいていなかった繋がりに
気づく
Slide 49
Slide 49 text
Data Strategy and Operation Center
Eightの友⼈推薦機能
47
コンテンツフィルタリング
• ユーザの属性を利⽤
• 会社・業種・部署等
• 友⼈の友⼈
協調フィルタリング
• ユーザの名刺交換記録を利⽤
コンテンツフィルタリング+協調フィルタリング
Slide 50
Slide 50 text
~データを解釈する~
ユーザに情報を提供する
Slide 51
Slide 51 text
Data Strategy and Operation Center
Sansan Labs
49
未来の働き⽅を実現する
Slide 52
Slide 52 text
Data Strategy and Operation Center
ビジネスマンタイプ分析
50
社内で重要な⼈は誰?
他の社員のプロファイリング
⾃⼰理解やチーム編成
Sansanに取り込まれた名刺データから
ユーザがどのようなタイプかを分析する
Slide 53
Slide 53 text
Data Strategy and Operation Center
ビジネスマンタイプ分析
51
社外の業種接触多様性
社内の業種接触多様性
社内ネットワークでの重要さ
社外の⾼い役職との接触
社内での繋がりの強さ
Slide 54
Slide 54 text
Data Strategy and Operation Center
社内ネットワークの構築
52
Slide 55
Slide 55 text
Data Strategy and Operation Center
社内ネットワークでの重要さ
53
どう解釈しますか?
Slide 56
Slide 56 text
Data Strategy and Operation Center
社内ネットワークでの重要さ
54
繋がりをたくさん持って
いる⼈が重要な⼈物
が多い⼈はチームで
動く⼈数が多い!
Slide 57
Slide 57 text
~モデリングする~
名刺交換を科学する
Slide 58
Slide 58 text
Data Strategy and Operation Center
DSOC Science Report
56
都道府県間のビジネスの
出会いに法則はあるか?
Slide 59
Slide 59 text
Data Strategy and Operation Center
都道府県間の出会いをモデル化
57
国と国の貿易量 =
国の経済規模 × 国の経済規模
国と国の距離
都道府県間の出会いに応⽤
県と県の出会いの量 =
県の経済規模 × 県の経済規模
県と県の距離
重⼒モデル
出会いのモデル
Slide 60
Slide 60 text
Data Strategy and Operation Center
モデルの精度
58
・当てはまり率は80%
・当てはまりが悪い県間
・予測結果よりも交流が多い
距離や経済状況では説明できない
活発な交流をしている
Slide 61
Slide 61 text
~調査する~
企業のブランドを調査
Slide 62
Slide 62 text
Data Strategy and Operation Center
⾜りないデータは調査する
60
• 名刺交換をしている⼈にその企業の印象を調査
• 企業を知っている⼈から調査可能
• 普通ではとれないデータがとれる!
BBES (BtoB engagement score)
※ BBES(BtoB Engagement Score)は、2020年2月より「Eight Company Score」として提供されています。
Slide 63
Slide 63 text
Data Strategy and Operation Center
BBESと企業規模の相関
61
BBESは企業規模や名刺交換と強く相関している
企業の印象を強く表している
※ BBES(BtoB Engagement Score)は、2020年2月より「Eight Company Score」として提供されています。
Slide 64
Slide 64 text
データ活⽤倫理
Slide 65
Slide 65 text
Data Strategy and Operation Center
イギリスの事例
63
Network Diversity and Economic Development (2010, Science, Eagle et al)
地域ネットワークの多様性と経済活性には⾼い相関がある
Slide 66
Slide 66 text
Data Strategy and Operation Center
ルワンダの事例
64
“Predicting poverty and wealth from mobile phone metadata”, Science, 2015
携帯電話の通話記録から機械学習でその⼈の富を推定する
Slide 67
Slide 67 text
Data Strategy and Operation Center
Cambridge Analyticaのケース
65
フェイスブック上で、性格のタイプを診断するクイズが勧められた
• ケンブリッジ⼤学のアレクサンダー・コーガン⽒によって開発された
• 回答したユーザーの友達に関するデータも収集するよう設計
• 主に⽶国に住む約5000万⼈分のデータを収集
データはケンブリッジ・アナリティカ社に売却される
親トランプ的な素材を送り届けるのに利⽤された
Slide 68
Slide 68 text
Data Strategy and Operation Center
できる事とやってはいけない事
66
携帯電話の通話記録 個⼈の富の推定
Suicaのレコード 居住範囲、勤務先の推定
Twitterの⽂字情報 個⼈・居住地・経済状況の特定
企業規模と役職 個⼈の収⼊・経済状況
購買情報 個⼈の信条・指⽰の推定
多分できるけどやってもいいのか?
Slide 69
Slide 69 text
Data Strategy and Operation Center
データの取り扱い
67
データの取り扱いは⾮常にセンシティブ
弊社では社員の個⼈情報保護⼠の資格取得を義務化
Slide 70
Slide 70 text
データ活⽤議論
Slide 71
Slide 71 text
Data Strategy and Operation Center
Sansanの扱うデータ(再掲)
69
・名刺交換関係 ・企業情報
1. 企業規模
2. 住所
3. 企業間の取引
4. 企業のブランド価値
・ノード情報
1. 所属企業
2. 役職
Slide 72
Slide 72 text
Data Strategy and Operation Center
議論
70
どんな事が出来そうか⾃由に議論してください
• 不可能そうでも全然構いません!
それが現実的にできそうなのかどうかを議論してください
• 想像でいいです!⾃由に議論してください
• 技術的なブレイクスルーはどこにありますか?
倫理的にやっても⼤丈夫そうなのかどうかを議論してください