Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Science Report 09 - ビジネスの出会いはどれだけあるか / DSR09

59d6ec9d4308628a6009b2ec5bc6d2d8?s=47 Sansan R&D
February 07, 2020

Data Science Report 09 - ビジネスの出会いはどれだけあるか / DSR09

■ ビジネスの出会いはどれだけあるか

日本国内において、イノベーションへの関心が高まっている。イノベーションにはその種子となる「出会い」が重要であるが、それがどの程度存在するかは把握できていない。本稿では、ビジネスにおける出会いには名刺交換が伴うことに着目。当社が提供するサービス上で観測できる名刺交換枚数をもとにいくつかの推定を行い、国内のビジネスシーンで1年間に生まれる出会いの概数を算出した。

※本誌は当社サービスで定める利用規約の許諾範囲内で匿名化したデータを統計的に利用しています。

■ Sansan R&D Twitter
https://twitter.com/SansanRandD

59d6ec9d4308628a6009b2ec5bc6d2d8?s=128

Sansan R&D

February 07, 2020
Tweet

More Decks by Sansan R&D

Other Decks in Research

Transcript

  1. Ϗδωεͷग़ձ͍͸ͲΕ͚ͩ͋Δ͔ Shohei Usui, Juan Nelson Martínez Dahbura R&D Group Researcher,

    Sansan, Inc. Data Science Report 09
  2. 01 |  © Sansan, Inc. Data Science Report Ϗδωεͷग़ձ͍͸ͲΕ͚ͩ͋Δ͔ 1ɹ͸͡Ίʹ 近年、日本においてイノベーションへの関心が高まっている。WEF(World

    Economic Forum:世界経済フォーラム)が毎 年発表するThe Global Competitiveness Reportによると、日本のイノベーションスコアは緩やかに下がっているという[1]。こ れを受けて、第3次安倍内閣(2015–2017)は「日本再興戦略2016」の中で、日本をWEFのイノベーションランキングで世 界1位にすることを重要経営指標に掲げた[2]。実際にこの目標が達成されることはなかったが、 日本国内におけるイノベーショ ンへの関心は依然として高い。急速に変化する社会の中で、今後もイノベーションの重要性はますます高まると予測される。 イノベーションには「①アイディアが新しい(=発明)だけではなく」 「②それが広く社会に受け入れられる(=商業的に 成功する) 」という二つの条件があるとされている[3]。これら二つを満たすためにはソーシャルネットワークが必要である。 Pentlandらは、素晴らしいアイデアは社会的探究の継続からのみ生まれると述べた[4]。この社会的探究とは、自らのソーシャ ルネットワーク内でのコミュニケーションを意味し、ソーシャルネットワークを広げる行為も含まれる。また、Barabásiら によると、成功の鍵はその人が持つソーシャルネットワークにある[5]。これは、新しいものが社会に受け入れられるかどうか は、それをもたらした本人が所属するネットワークに依存するからであるとされる。このように、①と②のどちらにおいても ソーシャルネットワークの重要性は明らかである。 そして、ソーシャルネットワークを築くためには、まず他者と出会う必要がある。したがって、イノベーションを起こすた めには、 「出会い」が重要であると言える。しかし、 日本のビジネスシーンにおける出会いの数を定量的に測定した記録はなく、 どの程度の出会いが存在するかは未知である。これは、ビジネスにおける出会いが主にオフラインであり、データが残らない ことに起因する。すなわち、イノベーションの種子となる出会いの全体像を把握できていないことを意味している。本稿の目 的は、その出会いの全体像を把握することにある。 日本においては、ほとんどのビジネスパーソンが、初めて会ったときのあいさつとして名刺の交換を行う。すなわち、名刺 交換の記録は、ビジネスシーンにおける出会いの記録と呼べるであろう。本稿では、この名刺交換の記録から日本国内でどの 程度の出会いが起こっているのかを推定する。これを日本における出会いの全容を把握するための第一歩とし、日本における イノベーションの一助となることを期待する。 2ɹ෼ੳର৅ 本稿では、 Sansan株式会社が提供するサービス上で2018年に観測された名刺のやりとりを扱う。なお、 分析に当たっては、 全てのデータについて個人を匿名化し、利用規約で許諾を得ている範囲で使用する。分析に用いたデータは、日本国内のビジ ネスシーンにおける出会いのデータであると見なせる。しかし、サービス上で観測できる出会いは日本全体の数パーセントで しかなく、全てを観測することはできない。そのため、観測されている領域から、全数を推定することを試みる。 また、名刺の情報を同社のサービスに登録するには、ユーザーがその名刺をスキャンして取り込む必要がある。これにより ユーザーと、 ユーザーが名刺を交換した相手の情報が記録される。すなわち、 本稿で扱うデータの中には、 ユーザーとユーザー が名刺交換をした非ユーザーが含まれる。なお、全てのユーザーが全ての名刺を取り込むとは限らない点に注意したい。この ため、 ユーザー間におけるネットワークでも、 相互リンク(互いに名刺を取り込んでいる関係)の割合は100%とはならない。
  3. Data Science Report 02 |  © Sansan, Inc. 3ɹਪఆํ๏ 3.1ɹਪఆͷ֓ཁ まず、同社のサービス上で観測できるデータを用いて、日本のビジネスパーソンが年間平均で何枚の名刺を交換しているの

    か(平均次数: )を算出する方法について検討する。次に「ユーザーは非ユーザーよりも多くの名刺を交換する」という仮 説を立て、どの程度多いのか(バイアス係数:α)を算出する。また、2章で述べたように、ユーザーは全ての名刺を取り込 んでいるわけではない。そこでユーザーの名刺取り込み確率を算出する。これらの要素を考慮して平均次数を算出し、最後に 日本全体の名刺交換枚数を推定する。次節からこれらの推定方法について順に述べ、次章で結果を示す。 3.2ɹฏۉ࣍਺ͷࢉग़ํ๏ͷݕ౼ 本稿では、 名刺交換をした人をノードとし、 名刺交換をした関係をリンクとした無向ネットワークを考える。このネットワー クにおけるリンクの総数が本稿の目的とする名刺交換総数である。ここで扱うデータは、全体のネットワークに対して、観測 できる部分のみのサブグラフであると考える。このサブグラフには「ユーザー」と「ユーザーではないが、ユーザーによって 名刺を取り込まれた人」がノードとして存在している。また、少なくとも1人のユーザーによって名刺を取り込まれた関係が リンクとして存在する。すなわち、ユーザーと実際に名刺交換をしたかどうかにかかわらず、ユーザーによって名刺を取り込 まれていない人はノードとしてサブグラフに存在しない。本稿の目的は、このサブグラフを用いて、全体のネットワークを推 計することにある。 ここで、単純化のために以下のように仮定する。 • ໊ࢗަ׵͸ৗʹ૒ํ޲Ͱ͋Δ • ಉ͡Ϣʔβʔಉ࢜͸1೥ʹෳ਺ճ໊ࢗަ׵Λ͠ͳ͍ この仮定は、多くの名刺交換が「初めて会ったときに」 「互いに」名刺を交換することで行われることに起因する。この仮 定の下で、全体のネットワーク のノード数をN、サブネットワーク のノード数を とする。 図1に、全体のネットワークの概略図を示す。 ਤ1ɿωοτϫʔΫͷུ֓ਤ ؍ଌͰ͖ͳ͍ ֎෦ϦϯΫ ಺෦ϦϯΫ k Gall Gsub Nsub
  4. Data Science Report 03 |  © Sansan, Inc. 青 い ノ

    ー ド が ユ ー ザ ー を 表 し、 グ レ ー の ノ ー ド が 非 ユ ー ザ ー を 表 す。 実 線 の 部 分 が 観 測 で き る ネ ッ ト ワ ー ク で、点線の部分が観測できないノードやリンクである。この観測できないノードやリンクまで含めた全体のネットワーク が本稿の目的のネットワークである。このとき、実線で表されるリンクの中で、ユーザー間の接続を示す青いリンクを内 部リンク、ユーザーと非ユーザー間の接続を示すグレーのリンクを外部リンクと呼ぶ。 ただし、全てのユーザーが、交換した名刺の全てを取り込むわけではないため、青いリンクも全てを観測できるわけでは ないことに注意する。ユーザーが交換した1枚の名刺を取り込む確率を pとすれば、内部リンクにおいて、少なくとも1人が 名刺を取り込む確率は1−(1−p)2である。外部リンクにおいては、1人のユーザーに依存するため、pで表される。これらを考 慮すれば、全体のグラフにおける内部リンクの総数 と外部リンクの総数 について、サブグラフの内部リンクの総数 と外部リンクの総数 を用いて以下の式(1)が成立する。 上記に基づき、ユーザーの平均次数 は以下の式(2)で算出できる。 ここで「ユーザーは非ユーザーよりも多くの名刺を交換する」と仮定する。名刺交換が多い人にとっては、少ない人よりも 名刺管理サービスによるメリットを感じやすく、そのようなサービスを利用する可能性が高いと考えられるためである。この 仮定に基づき、非ユーザーの平均次数 は以下の式(3)で表される。 すなわち、本稿の目的とする名刺交換の総回数Mは以下の式(4)で表せることが分かる。 3.3ɹόΠΞε܎਺ͷࢉग़ํ๏ 本節では「ユーザーは非ユーザーよりも多くの名刺を交換する」という仮説を実証する。 ここで「全てのユーザーは名刺を取り込む際に、相手がサービスのユーザーであるかどうかは意識しない」と仮定する。こ の仮定の下では、 ユーザーの名刺と非ユーザーの名刺は偏りなく取り込まれることになる。すなわち、 ユーザーの名刺も非ユー ザーの名刺も取り込まれる数(入次数 )の分布に差はない。例えば、あるユーザーが交換した名刺のうち、qの確率で名刺 が取り込まれたとすれば、名刺交換枚数 は = である。 図2にユーザーの名刺と非ユーザーの名刺の入次数の次数分布を示す。 M sub out pMall out M sub in M 1 1 p 2 all in 式(1) ku 2Mall in 2M N N p 2M sub in 2M sub out all out 1 1 p 2 式(2) kn αk 0 α 1 u 式(3) M kN kuNu knNn 式(4) Gall Gsub Mall in Mall out Msub in Msub out ku kn kin ku q in ku ku
  5. Data Science Report 04 |  © Sansan, Inc. ਤ2ɿϢʔβʔͱඇϢʔβʔͷೖ࣍਺ͷ࣍਺෼෍ この図から、ユーザーの分布は、明らかに次数の高い方にバイアスが掛かっていることが分かる。すなわち、ユーザーは非 ユーザーよりも多くの名刺交換をしていることになる。このとき、ユーザーの平均名刺交換枚数

    と非ユーザーの平均名刺 交換枚数 の割合は以下の式(5)で表せる。 式(5)から、非ユーザーの平均名刺交換枚数 はユーザーの平均名刺交換枚数 のα=0.244倍であることが分かった。 3.4ɹ໊ࢗऔΓࠐΈ֬཰ͷਪఆํ๏ 本節では、ユーザーが交換した名刺のうち、何パーセントの名刺を取り込んでいるかを検討する。本章3節での推定と同様 に、全てのユーザーは名刺を取り込む際に相手がサービスのユーザーであるかどうかは意識しないものとする。この仮定の下 では、各ユーザーの取り込み確率pは、相手がユーザーである場合と、非ユーザーである場合において一定である。すなわち、 内部リンクのみを対象とすれば十分である。 そこで、 本節では、 名刺を取り込んだユーザーから、 取り込まれたユーザーに対してリンクを生成した、 ユーザー間有向ネッ トワークを構築する。このネットワークにおいて、 ユーザー vの出次数(取り込んだ数)および入次数(取り込まれた数)を、 それぞれ 、 とする。ユーザーの持つ相互リンク数を とし、観測されていない名刺の数をδとすれば、ユーザー vの 名刺交換枚数 は以下の式(6)で表すことができる。 また、δは名刺交換をした双方が名刺を取り込まなかった場合であり、ユーザー vとユーザー u間で、そのような名刺が発 生する確率q(v, u) は である。ここで、ユーザー vに関する観測されない名刺の枚数は、隣接ユーザー集合 を 用いて、式(7)で表される。 α kn kn q ku in ku q in kn in ku in 式(5) kv cv δ kv kv out kv in kv rec 式(6) 0 1 2 3 4 5 6 औΓࠐ·Ε໊ͨࢗͷ਺ ໊ ࢗ Λ औ Γ ࠐ · Ε ͨ ਓ ͷ ਺ Ϣʔβʔ ඇϢʔβʔ 0.5 0.0 1.0 1.5 2.0 2.5 ku kn kv out kv in kv rec cv Nv pv pu 1 1 kn ku
  6. Data Science Report 05 |  © Sansan, Inc. ここで、相手側の取り込み確率の平均値を全体の取り込み確率の平均値 で近似すれば、以下のように表せる。 ここで、取り込み確率の定義から

    と表されるので、式(9)と書ける。 また、 であることを考慮すれば、以下のように表せる。 このとき、未知の値は のみであるため、最急降下法を用いて の近似解を求めることが可能である。 なお、年間の名刺交換枚数が10枚に満たないユーザーは、正確に取り込み確率を推定できないため計算から除外する。こ の方法によって計算された結果は、 = 0.568、すなわち、ユーザーは平均して交換した名刺の中の56.8%の名刺を取り込んで いることが分かった。 cv cv pv u δ 1 Nv q v,u 1 pu 1 Nv u 1 Nv Nv pv 1 p 1 cv cv kv δ cv pv 1 p 1 kv cv cv pcv cvpv p 1 pcv kv kv p 1 out cv p kv kv p 1 out kv kv pv cv v v p N 1 1 out pkv out kv out N 1 v N 1 p 式(7) 式(8) 式(9) 式(10) kv out cvpv kv cv v N 1 out p p pv p p
  7. Data Science Report 06 |  © Sansan, Inc. 4ɹਪఆ݁Ռ 3章4節で示したユーザーの平均名刺取り込み確率 =

    0.568を考慮すれば、ユーザーに対して、年間平均名刺交換枚数 = 325が 得 ら れ た。 ま た、3章3節 の バ イ ア ス 係 数α = 0.244を 考 慮 す れ ば、 非 ユ ー ザ ー の 年 間 平 均 名 刺 交 換 枚 数 = 79が得られた。このとき、非ユーザーの全ノード数は1179万5384であった。総務省統計局が実施する労働力 調査[6] によれば2018年の役員を含む15歳以上正規雇用者の人口は3815万人であるため、このネットワークにおい て、全てのノードを把握していないことは明らかである。図2から、非ユーザーの平均名刺交換枚数はスケールフリー 性を持つことが確認できる。なお、3章4節における「全てのユーザーは名刺を取り込む際に、相手がサービスのユー ザーであるかどうかは意識しないものとする」という仮定の下では、非ユーザーの名刺はランダムにサンプリングさ れると考えることができる。このとき、スケールフリー性の下では、全体の人数が増えても確率分布 は 変化せず、平均次数 は に依存するため変化しない。したがって、正規雇用者の3815万人からユーザー数 を引いた値を、非ユーザーの数 と見なせる。これらの値を式(4)に代入すると、ネットワークのリンク数は M = 1,539,432,562、すなわち、2018年の1年間で30.7億枚の名刺が交換されていることが分かった。 なお、推定値の安定性を検証するために、2015年から2018年までの各年のデータを用いて同じ分析を行った。図3は平均 名刺取り込み確率、バイアス係数と名刺交換枚数(平均次数)の推移を示している。各年において、平均名刺取り込み確率と バイアス係数には大きな変化がないことが分かった。 ਤ3ɿ2015೥͔Β2018೥·Ͱͷਪఆ݁Ռ 平均名刺交換枚数は2017年の36億枚に対して、2018年に急激に減少していることが見られる。同社サービスでは取り込 んだ名刺に「名刺交換日」を設定することができるため、2018年に交換した名刺を翌年以降にまとめて取り込むユーザーが 存在するからであると考えられる。しかし、35億枚程度であることは安定しており、平均して年間で35億枚程度の名刺交換 が行われていると言えるであろう。 p kn ku p(k)=N(k) N kp(k) k p(k) Nn ฏۉ໊ࢗऔΓࠐΈ֬཰ 0.4 0.5 0.6 0.7 2015 2016 2017 2018 όΠΞε܎਺ 0.10 0.15 0.20 0.25 0.30 0.35 0.40 2015 2016 2017 2018 ໊ࢗަ׵ຕ਺ʢฏۉ࣍਺ʣ 20 25 30 35 40 45 50 2015 2016 2017 2018 ʢ୯Ґɿԯຕʣ
  8. Data Science Report 07 |  © Sansan, Inc. 5ɹ݁࿦ 本稿では、現在、Sansan株式会社が提供するサービスを利用しているユーザーの名刺交換データを用いて、日本国内にお ける1年間の総名刺交換枚数を推定した。そのために、名刺交換をするビジネスパーソンをノードとした無向ネットワークを

    想定し、ノードの平均次数を推定する手法を用いた。サービスに登録されている名刺のデータを用いて上記ネットワークのサ ブネットワークを構築し、サブネットワークのトポロジーから、ユーザーと非ユーザーの平均次数を算出することで、全体の リンク数を概算した。その結果、2018年の1年間におけるリンク数は15億以上であることが示された。このリンク数は、名 刺交換イベントの数を示しており、年間で少なくとも30億枚の名刺がやりとりされていることが分かった。すなわち、日本 国内のビジネスシーンにおいて、1年間に15億回以上の出会いが存在していると想定される。 出会いの活用は、イノベーションを起こすための重要なミッションである。本稿の成果である出会いの数の把握が、日本国 内でのビジネスチャンスの活用を後押しすることを期待する。
  9. Data Science Report 08 |  © Sansan, Inc. 6ɹReferences [1] 経済産業省産業技術環境局,

    「我が国の産業技術に関する研究開発活動の動向-主要指標と調査データ-」, 技術調査, 2019/9, https://www.meti.go.jp/policy/economy/gijutsu_kakushin/tech_research/aohon2019.pdf(参照2020/1/10) [2] 内閣府, 「平成29年度産業競争力強化のための重点施策等に関する報告書」, これまでの成長戦略について, 2019/2/6, https://www.kantei.go.jp/jp/singi/keizaisaisei/pdf/houkoku_honbun_180206.pdf(参照2020/1/10) [3] 玉田俊平太, 『日本のイノベーションのジレンマ = Innovator's Dilemma in Japan : 破壊的イノベーターになるための7つの ステップ』, 翔泳社, 2015 [4] アレックス・ペントランド, 『ソーシャル物理学 : 「良いアイデアはいかに広がるか」の新しい科学』, 小林啓倫訳, 草思社, 2015 [5] Albert-László Barabási, “The Formula: The Universal Laws of Success”, Hachette UK, 2018 [6] 総務省統計局, 「平成30年労働力調査結果」, http://www.stat.go.jp/data/roudou/index.html(参照 2020/1/10)
  10. 2020年2月7日 発行 担当研究員 臼井翔平 Shohei Usui フアン・ネルソン・マルティネス・ダブラ Juan Nelson Martínez Dahbura ※本誌は当社サービスで定める利用規約の許諾範囲内で匿名化したデータを統計的に利用して

    います。 ※本誌は情報提供の目的のみのために提供されるものです。 本誌を利用される方は、 その使用に ついて独自に評価する責任を負うものとし、 明示または黙示を問わずその正確性、 完全性、 有用性 等のいかなる保証も本誌には伴いません。 ※掲載されている情報等は作成時点のものです。 ※本誌の一部あるいは全部を無断で複製、 転載、 複写することを禁じます。 © Sansan, Inc. Data Science Report ໰͍߹Θͤ Data Science Report事務局 (Sansan株式会社 技術本部内) 33tech@sansan.com https://jp.corp-sansan.com/