Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Science Report 11 - ビジネスネットワークで鍵となる市区町村はどこ...

Sansan R&D
November 27, 2020

Data Science Report 11 - ビジネスネットワークで鍵となる市区町村はどこか / DSR11

■ ビジネスネットワークで鍵となる市区町村はどこか

名刺交換データに基づいた南関東の市区町村間のビジネスネットワークを用いて、南関東地域の経済活動を支える「キーシティー」を推定する。本稿でのキーシティーは「ネットワークから取り除かれたとき、ネットワーク全体の経済活動が最も下落する市区町村」を指す。分析の結果、キーシティーの上位となる市区町村は、他の市区町村とのつながりが多い、または経済活動が盛んな市区町村とは限らないことが分かった。その市区町村の持つ機能が他の市区町村によって代替できないことが、キーシティーの要素の1つであると結論付けた。

※本誌は当社サービスで定める利用規約の許諾範囲内で匿名化したデータを統計的に利用しています。

■ R&Dの採用情報
https://media.sansan-engineering.com/randd

Sansan R&D

November 27, 2020
Tweet

More Decks by Sansan R&D

Other Decks in Research

Transcript

  1. Data Science Report 01 |  © Sansan, Inc. ビジネスネッ トワークで鍵となる市区町村はどこか 1 概要

    ネットワークにおけるキープレーヤーは誰か。それは、営業職にとっては、営業先で商談成立の鍵を握る人であり、社内で 新規プロジェクトを進める担当者にとっては、その意思決定に影響を与える人である。そうしたキープレーヤーを特定し、彼 らの心をつかむことが物事の成否に大きく関わるというのは、全ての人が大なり小なり経験していることであろう。あるネッ トワークにおけるキープレーヤーを把握することが、実務上重要であることは論をまたない。 キープレーヤーの特定は、 実務上だけでなく学問上でも重要な問いである。Ballesterらは、 あるネットワークでのキープレー ヤーを 「取り除かれたときにネットワーク全体の活動量が最も下落するようなプレーヤー」 と定義した[1]。そのキープレーヤー を特定する課題は「キープレーヤー問題」と呼ばれる[2]。このキープレーヤー問題の例として、Leeらはアメリカの青少年ネット ワークにおける非行のキープレーヤーを特定し、ターゲティングすることがネットワーク全体の非行活動の下落に効果的であ ることを示した[3]。ここで考えるキープレーヤーとは、必ずしも人だけを指すものではなく、さまざまな規模のプレーヤーを 考えることができる。例えばKönigらは、アメリカの企業間R&Dネットワークにおいて、上記のキープレーヤーの定義を満 たすような企業を特定している[4]。またAmarasingheらは、アフリカの経済活動ネットワークにおけるキー地区の特定を試み ている[5]。多種多様なネットワークデータの蓄積と計算処理能力の著しい向上がキープレーヤー問題への解答を可能にしつつ あり、その応用範囲は幅広い。 本稿の目的は、 キープレーヤー問題の実証研究の一例として、 日本の市区町村間のビジネスネットワークにおけるキープレー ヤー、 すなわち「キーシティー」を特定することである。上記のキープレーヤーの定義に従い、 本稿では「その市区町村をネッ トワークから仮に除外したとき、ネットワーク全体の経済活動が最も下落するような市区町村」をキーシティーと定義する。 例えば、仮にある市区町村が機能不全となるケースを考えたとき、その影響がネットワーク全体に最も大きく波及するような 市区町村がキーシティーである。 キーシティーの特定は、市区町村レベルの政策運営に関して重要な意味を持ち得る。例えば、経済的ショックが発生した場 合、そのショックが市区町村間でどのように拡散するか把握する必要がある。加えて、拡散を最小限に食い止めるにはどこに 政策介入を行うべきか優先順位を決める必要があろう。キーシティーの特定は、その判断材料の1つとして用いることができ るはずである。また、一時期は新型コロナウイルスの影響で都市のロックダウンが政策議題になったが、その経済的損失がど れくらいになるかは政策運営上重要な問いである。都市がロックダウンされるという状況は、その都市が市区町村ネットワー クから取り除かれるという状況と似ており、 キープレーヤー問題で用いる分析の枠組みを応用すれば経済的損失を算出できる。 さらにキーシティーを特定することだけでなく、市区町村の経済活動がネットワーク上でどのように決定されるかをモデル化 することなど、キーシティーを特定するための分析の枠組みそのものが、政策運営上の重要な問いに答える上で役に立つ可能 性がある。 本稿では、名刺交換データから市区町村間で名刺交換が行われたか否かを計測し、そこからどの市区町村がどの市区町村と つながっているかを表現したビジネスネットワークを構築する。そのネットワーク上の経済活動を支えるキーシティーを特定 する。
  2. Data Science Report 02 |  © Sansan, Inc. 2 分析対象 2.1 ビジネスネットワーク 本稿では、市区町村間のビジネスネットワークを表すものとして、個人向け名刺アプリ「Eight」の名刺交換に関するデー

    タを用いる。分析に当たっては、Eightのデータについて個人を匿名化し、2017年1月1日から2017年12月31日までにEight のユーザーによって登録された名刺の情報をEightの利用規約で許諾を得ている範囲において使用する。どの名刺とどの名刺 が交換されたかという情報から、それぞれの会社の所在地と市区町村を対応させ、上記の期間にどの市区町間で名刺交換が行 われたかを計算する。本稿では、2つの市区町村間で少なくとも1回の名刺交換が行われたとき、それらは「つながっている」 と定義する。また、ビジネスの中心という点から、市区町村を南関東の4つの県(東京都、神奈川県、埼玉県、千葉県)に限 定し、その間で行われた名刺交換に絞っている。その上で、どの市区町村ともつながらなかった市区町村を除き、合計248の 南関東の市区町村間で行われた名刺交換を対象とした。このネットワークにおいて、1つの市区町村がどれだけの数の市区町 村とつながっているかを表す次数中心性の平均値は129.5、中央値は139であった。 図1:南関東(東京都、神奈川県、埼玉県、千葉県)における名刺交換ネットワーク 2.2 市区町村データ 本稿では各市区町村の経済活動の指標として、経済産業省の調査による年間商品販売額(円)[6] を使用する。本データは5 年に1度の頻度で取られており、ここで使用するものは2014年に集められたものである。ビジネスネットワークのデータと は時間のギャップがあるが、商品の販売額が数年では大きく変化しないと仮定して使用する。 市区町村の特性を捉えた要素としては、都道府県ダミー、政令指定都市ダミー、千代田区からの距離(km) 、各市区町村の 人口(万人) 、2014年の各市区町村における各産業の従業者数の割合を用いる。都道府県ダミーは、その市区町村が4つの県 のどこに所属するかを示し、政令指定都市ダミーはその市区町村が政令指定都市かどうかを示す変数である。千代田区からの 距離について、これは市区町村ネットワークにおける中心部と周辺部の関係、いわゆるCore-Peripheryを考慮するために加 えている。千代田区を中心として選択したのは、 その年間商品販売額が最も高かったからである。市区町村の人口は国勢調査[7] から2015年のデータを使用する。各産業の従業者数については、経済センサス[8] から2014年のデータを使用し、日本標準産 業分類の19項目(分類不能の産業を除く)について類似の分類をまとめ、合計10項目を対象とする。各市区町村の産業構造 を捉えた変数とするため、総従業者数に占める各産業の従業者数の割合を計算し使用する。以上の変数の要約統計量を、表1 に示す。年間商品販売額、人口、千代田区からの距離は自然対数を取った値となっている。 ※スペースの都合上、島しょ部は省略している。
  3. Data Science Report 03 |  © Sansan, Inc. 表1:市区町村の変数の要約統計量 2.3 市区町村間のホモフィリー指標 後の分析方法の章で説明するが、本稿では市区町村間の相互作用を推定する際に、2つの市区町村がつながる確率、つまり

    ネットワークにおいて各ノードがリンクを形成する確率を予測する。そこでは、ノード間でリンクが形成される確率が、市区 町村iとjの類似度を表したホモフィリー指標Wij によって決まるとしている。本稿ではそのホモフィリー指標Wij として、同 じ都道府県に属するか、 自然対数を取った市区町村間の距離(距離が何%異なるか) 、 自然対数を取った人口の差の絶対値(人 口が何%異なるか) 、コサイン類似度で測られた産業人口の類似度の4つの要素を用いる。以上、つながった市区町村のペア の割合とホモフィリー指標Wij の要約統計量を表2に示す。 表2:南関東の市区町村ペアについての要約統計量 変数名 N 平均値 中央値 標準偏差 最小値 最大値 log (年間商品販売額) 248 11.84 12.03 1.92 5.93 17.67 神奈川県ダミー 248 0.23 0 0.42 0 1 千葉県ダミー 248 0.24 0 0.43 0 1 埼玉県ダミー 248 0.29 0 0.45 0 1 政令指定都市ダミー 248 0.18 0 0.38 0 1 log ( 千代田区からの距離 ) 248 3.55 3.65 0.81 -2.3 6.97 log ( 人口 ) 248 4.36 4.69 1.3 0.64 6.81 第一次産業従事者の割合 248 0.01 0 0.01 0 0.07 第二次産業従事者の割合 248 0.21 0.2 0.1 0.05 0.54 インフラ産業従事者の割合 248 0.02 0.01 0.03 0 0.18 運輸業従事者の割合 248 0.06 0.05 0.04 0 0.31 卸売・小売業従事者の割合 248 0.19 0.19 0.04 0.05 0.36 金融業従事者の割合 248 0.02 0.01 0.01 0 0.12 不動産業従事者の割合 248 0.02 0.02 0.01 0 0.06 学術研究・教育業従事者の割合 248 0.03 0.02 0.03 0 0.23 娯楽業の従事者の割合 248 0.14 0.14 0.05 0.05 0.62 公務員の割合 248 0.24 0.24 0.07 0.04 0.47 変数名 N 平均値 中央値 標準偏差 最小値 最大値 2017年に市区町村 i と j で名刺交換があったか 30628 0.52 1 0.5 0 1 同一都道府県ダミー 30628 0.25 0 0.43 0 1 log(距離) 30628 3.91 3.99 0.75 0.94 7.04 | log ( 市区町村 i の人口 ) – log( 市区町村 j の人口 ) | 30628 1.44 1.17 1.13 0 6.17 産業人口のコサイン類似度 30628 0.88 0.92 0.1 0.26 1
  4. Data Science Report 04 |  © Sansan, Inc. 3 分析方法 3.1 キーシティー特定上の課題 キーシティーの定義を、ここでフォーマルに表記しておく。yi

    を市区町村iの経済活動レベル、gをどの市区町村とどの市 区町村がつながっているかを表すネットワークとし、ネットワークgにおける市区町村の経済活動の総和をy*(g) = ∑i yi と 置く。ネットワークgにおけるキーシティー i*とは、それが取り除かれたときネットワーク全体の経済活動が最も下落する 市区町村のことであり、 と表される。ただし、g−i は、市区町村iが取り除かれたネットワークgを表す。y*(g) − y*(g−i )を、キープレーヤー中心性と 呼ぶ。つまり、キープレーヤー中心性が最大となるような市区町村がキーシティーとなる。 しかし、キーシティーの特定は容易ではなく、その特定のためには2つの課題に対処しなければならない。1つ目の課題は、 市区町村間の相互依存関係をモデル化し推定することである。その中で重要な要素の1つに、他の市区町村の経済活動が自身 の経済活動にどの程度影響を与えるかという、スピルオーバー効果がある。そのスピルオーバー効果の推定は、一般に困難で ある。例えばA市の経済活動の上昇は、B市の経済活動を上昇させる効果があるとする。そのとき、B市の経済活動の上昇が、 逆にA市の経済活動の上昇をもたらす。こうした逆の因果が存在するとき、 「A市の経済活動がB市の経済活動に与える影響」 は過小評価されてしまう。また、A市とB市の経済活動がどちらも上昇したからといって、それがスピルオーバー効果による ものだとは結論付けられない。好景気などのマクロな影響で、たまたま同時に経済活動が上昇しただけかもしれない。こうし た要因を排除した上で、スピルオーバー効果を推定する必要がある。 2つ目の課題は、 ネットワークの変化をモデル化することである。 式 (1) で定義されたキープレーヤー中心性を計算するには、 各プレーヤーをネットワークから取り除く必要がある。その際、取り除かれた後のネットワークの情報が必要になるが、ここ での問題は、プレーヤーを取り除いた後、残りのネットワークの構造が変化するかどうか、またどのように変化するかである。 すなわちキープレーヤー中心性を推定する前段階として、ネットワークの生成過程をモデル化する必要がある。 以上2つの課題について、本稿では以下のように対処する。まず1つ目のスピルオーバー効果については、どの市区町村が つながっているかを表現した隣接行列(adjacency matrix)から操作変数を構築した上で推定する。しかし市区町村同士がつ ながる確率と、それぞれのアウトカムの両方に影響を与えるような要因がデータから観察できないとき、ネットワークそのも のが内生的になる。このため、実際に観察された隣接行列を用いた操作変数では、内生性への対処には不十分である。そこで 本稿では、市区町村のつながりが発生する確率を、市区町村がどれだけ似ているかを捉えた外生的な指標を用いて予測する。 その予測された隣接行列を用いて構築された操作変数を用いて、パラメーターを推定する。市区町村がどれだけ似ているかを 捉えた指標が外生的ならば、この手順によりスピルオーバー効果を正しく推定できることが分かっている[9]。 2つ目のネットワーク生成過程のモデル化について、本稿では Exponential Random Graph Model(ERGM)によってモデ ル化する。ERGMは社会ネットワーク分析でよく用いられるモデルであるが、経済学的な意味付けをERGMに与える研究も 出てきている[10]。本稿では、ネットワーク生成過程を単純なERGMによってモデル化し、推定されたERGMを用いてある市 区町村が取り除かれた後のネットワークをシミュレーションする。そうして計算されたキープレーヤー中心性に基づき、市区 町村ネットワークにおけるキーシティーを特定する。 3.2 市区町村の経済活動決定モデル キープレーヤー中心性を計算するためには、 各市区町村の経済活動がどのように決定されるのかをモデル化する必要がある。 そこで、理論モデルから導出される以下のモデルのパラメーター θ = ( λ, β0 , β1 ⊤, β2 ⊤ )⊤ を推定したい。なお、理論モデルの詳 細については補足として6章で述べる。 i arg max y (g) y (g− i) ⟮ ⟯ i * * * 式(1) yi λ∑gijyj β0 i xi⊤ β1 x ˉi⊤ β2 j≠i 式(2)
  5. Data Science Report 05 |  © Sansan, Inc. gij は市区町村 i

    と j のつながりを表し、市区町村 i と j がつながっている場合は gij = 1 を、そうでない場合は gij = 0 を 取る。ループのない無向グラフを考えるため、全ての iとj に対して、gii = 0、gij = gji が成り立つ。yi は市区町村 i の経済 活動レベルで、年間商品販売額の自然対数値を用いる。xi は市区町村 i の観察可能な特性ベクトル(人口など)を用いる。xi として用いる変数は、表1にある、年間商品販売額以外の変数である。x ¯i ≔ ∑j ≠i gij xj ∕ ∑j=i gij は市区町村 i とつながってい る市区町村の平均的な特性を表す。εi は市区町村 i の誤差項を表す。λは他のつながっている市区町村の経済活動からのスピ ルオーバー効果を、β2 は他のつながっている市区町村の平均的な特性が自身の経済活動にどのように影響を与えるかという コンテクスト効果を、それぞれ表している。 しかし、パラメーターの識別において、以下の要因が妨げとなる。1つ目は、3.1節で前述した通りスピルオーバー効果の 推定に影響を与える、経済活動の決定の同時性バイアスである。理論モデルでは、市区町村iの経済活動yi はiとつながって いる他の市区町村の経済活動によって決定していた。それは同時に、iとつながっている他の市区町村も、iの経済活動を考慮 に入れた上で経済活動のレベルを決定することを意味している。こうした相互依存関係が存在する場合、スピルオーバー効果 の真の値が分からなくなり、スピルオーバー効果を捉えた係数λを識別することができない。 2つ目は、ネットワーク生成の内生性である。もしyi 、 yj とgij に影響を与える観察不可能な要因が存在するならば、gij は内 生的となる。例えば、yi とyj が似ていると両者がよりつながりやすいといった、いわゆるホモフィリーが存在すると、gij は yi とyj に影響されて内生的となる。これは、 gij を用いて作成されているX ¯や、 コンテクスト効果を表すβ2 の識別にも影響する。 3つ目は、市区町村全てに影響を与える共通の要因が存在するが分析者から観察できない場合である。これはManskiの言 うcorrelated effect [11] であり、このような要因が存在すると、スピルオーバー効果と交絡してしまい、λを識別することがで きない。 4つ目は、個々の市区町村が持つ、分析者には観察できない異質性の存在である。今回用いるデータで観察できないような 特性があると、スピルオーバー効果やネットワーク生成を正しく推定することができなくなる。 以上が、パラメーターの識別に影響を与え得る問題である。こうした要因が存在する場合、説明変数と誤差項の間に相関が 生まれ、推定されたパラメーターは一致性を持たなくなる。これらの問題に対して、本稿では以下のように対処する。まず、 1つ目の同時性バイアスに対処するため、操作変数を用いたパラメーターの推定を行う。ここで、 と定義する。ここで、 Y = (y1 , y2 , ..., yN )、 X = (x1 , x2 , ..., xN )⊤、¯ X= (¯ x1 , x ¯2 , ..., x ¯N )⊤、 1N は1がN個並んだベクトル、 G = [gij ] は市区町村間のつながりを表現した隣接行列である。もし隣接行列Gが外生的であるならば、以下の操作変数行列Z から、モーメント条件 を用いることによって、一致性を持つようにパラメーターを推定することができる[12][13]。直感的には、この操作変数の妥当 性は「友達の友達」の行動が、友達の行動を通じてのみ自分に影響を与えるという点から来ている[14]。 上記の議論は、隣接行列Gが外生的であることを前提としている。しかし現実では、Gが外生的であることはまれである。 実際、本稿が対象とする市区町村間のビジネスネットワークは、各市区町村の企業同士が戦略的に形成しているものであるか ら、そのネットワークが外生的であるとすることは難しい。これは、パラメーターの識別問題で挙げた2つ目の点、すなわち ネットワーク生成の内生性に対応する。この問題への処方箋として、Kelejianらはiとjがどれだけ似ているかを捉えた外生的 なホモフィリー指標から隣接行列の予測値G ˆを得て、G ˆを用いて構築した操作変数行列を使用することを提案している[9]。本 稿では、Königら[4] やLeeら[3] に倣い、ロジットモデルでリンクの生成確率を予測し、そこから得られる隣接行列の予測値を 用いて操作変数行列を構築する。そして、予測された隣接行列G ˆ = [g ˆij ]を作成し、操作変数行列 を得る。ただし、X ˆ ¯はG ˆを用いて計算されたX ¯である。Kelejianらは、こうして構築されたZ ˆを操作変数に用いて推定された パラメーターは一致性を持つことを示した[9]。 u(θ) Y λGY β01N Xβ1 X ˉβ2 ≔ 式(3) Z ≔ [1N,X,X ˉ,G1N,GX,GX ˉ] 式(4) E 0 [Z⊤u(θ)] 式(5) Z ˆ [1N,X,X ˆ ¯,G ˆ1N ,G ˆX,G ˆX ˆ ¯] 式(6)
  6. Data Science Report 06 |  © Sansan, Inc. こうして構築された操作変数の妥当性は、直感的には以下のように説明できる。市区町村iとjの類似度を測る変数として、 同じ都道府県に位置するかというダミー変数を考える。同じ都道府県に位置する場合、iとjがつながる確率、つまりgij =

    1 となる確率はより高くなるものと考えられる。このとき、都道府県による経済活動への効果を式(2)の右辺で制御している ならば、iとjが同じ都道府県に位置していることは、直接iとjの経済活動に影響を及ぼさないと考えられる。すなわち、gij の予測に用いられる変数が外生的であるならば、G ˆが除外制約を満たすといえる。 パラメーターの識別の3つ目と4つ目の問題点、すなわち同じネットワークに存在する市区町村全てに影響与える共通の要 因と、観察不可能な市区町村の異質性への対処は、理想的には、ネットワークの固定効果を入れたり、パネルデータにより時 間の固定効果を入れたり、市区町村の固定効果を入れたりすることが望ましい。しかし本稿では、対象とするネットワークが 南関東の名刺交換ネットワーク単体であり、かつクロスセクションデータを用いるため、上記のような対応ができない。そこ で、各市区町村の人口、各産業の従業者数、都道府県ダミー、政令都市ダミーを加えることで、上で列挙した要因をできるだ け制御するように努めている。 以上の推定手順をまとめると、以下の通りとなる。 1. 市区町村 iとjの類似度を捉えた外生的なホモフィリー指標を用いて、iとjがリンクを生成する確率モデルを、 ロジットにより推定する。 2. 推定されたロジットモデルを使用し、iとjがリンクを生成する確率 g ˆij を予測する。 3. 予測された隣接行列 G ˆ = [g ˆij ]を用いて、操作変数行列 Z ˆ を構築する。 4. Z ˆ を用いた二段階最小二乗法により、式(2)のパラメーターを推定する。 しかし、 この操作変数を用いた推定は、 内生変数について操作変数が強い予測力を持たない、 いわゆる弱相関操作変数の問題 が発生する場合、 パラメーターの識別と推定に問題が生じる。 この弱相関操作変数の問題に対処するため、 以下のモーメント条件 を加え、パラメーターを一般化モーメント法(Generalized method of moments, GMM)により推定することを考える。こう して得られた推定量は一致性を持つこと、モンテカルロ法から二段階最小二乗法より効率的であることが示されている[4]。 3.3 ネットワーク生成モデル 本稿の目的は南関東のビジネスネットワークにおけるキーシティーを特定することであり、その下準備として式(2)の係 数を求めた。そのキーシティーを、 本稿では「取り除いたときにネットワーク全体の経済活動が最も低下するような市区町村」 と定義した。キーシティーを見つける上で問題となるのが、ある市区町村をネットワークから取り除いたときに、残りのネッ トワークが変化するか否かであった。本稿では、市区町村を取り除いた後ネットワークはその変化に適応すると仮定し、キー プレーヤー中心性を計算する。その際、ノードを除いた残りのネットワークがどのように適応するかを考えるために、ネット ワークの生成過程をモデル化する必要がある。このモデル化に当たってはExponential Random Graph Model(ERGM)を考 える。 ネットワークの確率変数をG、そのサポートをG、ネットワークの実現値をg∈Gと置く。ERGMは、ネットワークの生成 過程を以下のように記述する。 ここで、Xはノードの特徴量行列、t (g, X) はネットワーク生成モデルの十分統計量、例えばリンクの数などが考えられる。 操作変数を構築する際、隣接行列Gを予測するために用いられたロジットモデルは、式(8)の特殊形と考えられる。 しかしここでの問題は、式 (8) の分母∑ω∈G exp(t(ω, X)⊤θ)の計算である。これは、 全てのあり得るネッ トワークω∈Gに 対してexp(t(ω, X)⊤θ)を計算する必要がある。しかし、仮にネットワークのノードの数が10であったとしても、考えられる 有向グラフの数は2n(n-1)=290≈1027 通り存在する。たとえ1012 のオーダーであったとして、かつスーパーコンピューターを 用いたとしても、上記の和の計算を終えるには4000万年かかる[10]。したがって、この分母の計算を回避してパラメーター θ を推定する必要がある。そうした手法はこれまでに数多く提案されている[15]。 E 0 [u(θ)⊤G ˆu(θ)] 式(7) P(G g) exp(t(g,X)⊤θ) ∑ω∈ exp(t(ω,X)⊤θ) 式(8)
  7. Data Science Report 07 |  © Sansan, Inc. 本稿ではERGMに含める変数として、ネットワークのエッジの数、市区町村iとjの自然対数を取った人口の和、市区町村i とjの距離の自然対数値、以上3つを用いた単純なモデルを考える。この変数選択は、都市間の流動を説明する重力モデルに 基づいている。ここでは、iとjがつながる確率にiとj以外のつながりが及ぼす影響を考えていない。すなわち、このとき考

    えるネットワーク生成モデルはロジットモデルと等価であり、式(8)における分母の計算不可能性は問題とならない。 本稿では、まずこのERGMのパラメーターを推定する。そして、キープレーヤー中心性を計算するときに、ノードが取り 除かれた後のネットワークがどのように変化するかをシミュレーションするために、推定したERGMを用いる。 4 推定結果 4.1 スピルオーバー効果の推定 まず隣接行列の予測値G ˆ を得るために、市区町村間のホモフィリー指標Wij を用いてロジットモデルを推定する。この予測 されたロジットモデルのMcFaddenʼs pseudo R2 は 0.27 であり、ホモフィリー指標のつながりの予測力はそれほど大きくな いことが示唆される。その場合、予測された隣接行列G ˆ から作られた操作変数が内生変数と十分な相関を持たない可能性が ある。操作変数と内生変数に十分な相関がない場合、推定値の信頼性が損なわれてしまう。この弱相関操作変数の問題を緩和 するため、Leeらが提案[3] したように、追加のモーメント条件を加えたGMMによる推定も行う。 次に、二段階最小二乗法、GMMによる式(2)のパラメーターの推定値を示す。ここでは簡潔にするため、スピルオーバー 効果(λ)の推定結果のみ示す。そして、隣接行列の内生性によるスピルオーバー効果への影響を見るため、以下の3つの推 定結果を示す。 • 実際に観察された隣接行列Gから構築した操作変数行列Zを用いて、二段階最小二乗法で推定した結果(2SLS-1) • 予測された隣接行列G ˆ から構築した操作変数行列Z ˆを用いて、二段階最小二乗法で推定した結果(2SLS-2) • モーメント条件に式 (7)を加えて、一般化モーメント法で推定した結果(GMM) その推定値と95%信頼区間を示したものが図2である。信頼区間の計算には、不均一分散に対して頑健な標準誤差を用いて いる。 図2:スピルオーバー効果の推定結果 0.0000 0.0005 0.0010 0.0015 0.0020 0.0025 GMM 2SLS-2 2SLS-1 ਪఆํ๏ ਪఆεϐϧΦʔόʔޮՌ まず、 内生性を考慮して推定した2SLS-2とGMMによるスピルオーバーの推定値は、 両者とも0.0015であり、有意に0と異 なる。推定されたλの値は正であり、その変数は他のつながっている市区町村の経済活動の和であるから、 市区町村iがより多 くの活発な市区町村とつながるほど、自身の経済活動が高まることになる。また説明変数、 被説明変数ともに自然対数値であ るから、 つながっているある1つの市区町村の経済活動が1%上昇した場合、 自身の市区町村の経済活動が0.15%上昇すると解 釈できる。
  8. Data Science Report 08 |  © Sansan, Inc. 次に、隣接行列の内生性を考慮せずに推定した2SLS-1の推定結果が、 他の2つの隣接行列の内生性を考慮した推定値に比べ て小さいことが分かる。2SLS-2とGMMの推定値が正しくスピルオーバー効果を推定できていると仮定したとき、

    隣接行列の 内生性を考慮しないと、スピルオーバー効果を過小に評価してしまうことになる。ただし、 2SLS-1と2SLS-2・GMMの推定 結果の差は非常に小さく、 少なくともスピルオーバー効果については内生性によるバイアスはそれほど大きくないと思われる。 ここでの懸念は、 用いている操作変数が外生的であるかである。そこで、 得られたGMMの推定値に基づき、Sargan-Hansen のJ検定を行った。この検定の帰無仮説は「操作変数が外生性を満たしている」であるが、結果は有意水準5%で帰無仮説を 棄却した。すなわち、推定で用いている操作変数の外生性に疑義が生じていることが分かった。本稿では、2つの市区町村間 で1回以上名刺交換が行われた場合、それらの市区町村はつながっていると定義しており、交換された名刺の数を考慮できて いない。市区町村間のつながりの強さを捉えきれておらず、 結果、 予測された隣接行列G ˆ にも影響を与えている可能性がある。 このあたりの問題の原因の追究と対処法については、将来の研究課題としたい。 4.2 ERGM の推定結果 前述のERGMのパラメーターの推定結果を示したものが表3 である。括弧の中の数字は、パラメーターの推定値の標準誤差 を表す。推定された係数は、距離については負に出ている。 すなわち、市区町村間の距離が離れているほど、両者がつな がる確率はより低くなることが示唆される。一方、人口の和 については正となっている。これは、市区町村の人口の和が 大きいほど、つながる確率が高いことを示唆する。以上の推 定結果は、重力モデルとも整合的である。加えて、このモデ ルからネットワークをシミュレーションし、実際に観察され たネットワークとのつながりを比較したところ、観察された ネットワークに対して良いフィットを示していることが分 かった。例えば、観察されたネットワークとシミュレーショ ンされたネットワークの各ノードの次数中心性の相関係数は 0.98であった。この推定されたERGMを用いて、南関東の 各市区町村のキープレーヤー中心性を計算する。 4.3 キーシティーの特定 本稿で定義するキープレーヤーは、ネットワークから仮に取り除かれたとき、ネットワーク全体の活動量が最も下がるよう なプレーヤーであった[1]。そのキープレーヤーを特定するために、市区町村iのキープレーヤー中心性を、 のように定義する。ここで、 y*(g) = ∑N k=1 y* k はネットワークgが均衡状態にあるときのネットワーク全体の活動量、 g−i はノー ドiが取り除かれた後のネットワークである。Leeら[3] に従い、このキープレーヤー中心性を各市区町村iに対して以下のよう に計算する。 1. 市区町村 iを元のネットワークgから除外する。 2. 市区町村 iを除外した後ネットワークがどのように変化するかを、推定したERGMに基づきシミュレーションを行う。 そうして得られたネットワークを g−i と置く。 3. シミュレーションで生成されたネットワークg−i に対して、GMMによって推定された係数を用いて y ˆ*(g−i ) = (1⊤ N-1 −λ ˆG−i )−1(β ˆ 0 1N−1 + X−i β ˆ 1 + X ¯ −i β ˆ 2 )を計算する。 4. 元のネットワークgに対してもy ˆ*(g)を同様に計算し、y ˆ*(g) − y ˆ*(g−i )を計算する。 5. 以上の過程を1000回繰り返し、y ˆ*(g) − y ˆ*(g−i )の平均値を市区町村iのキープレーヤー中心性とする。 y∗(g) − y∗(g−i) 式(9) 表3:ERGMの推定結果 従属変数 : ネットワーク (パラメーターの推定値の標準誤差) エッジの数 - 4.421 (0.158) 市区町村 iとj のlog(人口 ) の和 1.062 (0.013) log ( 市区町村 i と j 間の距離 ) - 1.215 (0.027)
  9. Data Science Report 09 |  © Sansan, Inc. こうして得られたキープレーヤー中心性について、南関東の上位10市区町村を列挙し、地図上に表したものが図3である。 図3 :南関東(東京都、

    神奈川県、 埼玉県、 千葉県) におけるキーシティー上位10市区町村 なぜこれらの都市が、 高いキープレーヤー中心性を持つのであろうか。探索的な分析ではあるが、 東京都新宿区については、 人口に占める不動産業従事者の割合のコンテクスト効果が、千葉県旭市については第一次産業従事者の割合のコンテクスト効 果が、それぞれキープレーヤー中心性に大きく寄与していることが分かった。特に千葉県旭市は、今回対象としている南関東 の市区町村の中で農業従事者の割合が最も高く、また日本全国で見ても有数の農業が盛んな地域である。本分析で上位にラン クインしたのは、南関東の他の市区町村と比較して農業が盛んであり、その代替が利かないから、というのが一つの自然な解 釈であろう。 また、ここでのキーシティーとは、単につながりが多い市区町村、または経済活動が活発な市区町村が選ばれているだけな のではないか、 と思われるかもしれない。実際、 キープレーヤー中心性と次数中心性(ある市区町村がどれだけ他の市区町村 とつながりがあるか)との相関係数は0.39、 年間商品販売額の自然対数値との相関係数は0.36であり、 正の相関が確認できる。 その関係をより詳細に確認するため、各市区町村の次数中心性、年間商品販売額の自然対数値と、キープレーヤー中心性の散布 図を図4に示す。 図4:キープレーヤー中心性と次数中心性・年間商品販売額の自然対数値の散布図 都道府県名 東京都 東京都 東京都 千葉県 東京都 東京都 神奈川県 東京都 東京都 東京都 市区町村名 新宿区 世田谷区 渋谷区 旭市 杉並区 品川区 横浜市神奈川区 武蔵野市 中野区 港区 20 40 60 20 40 60 0 50 100 150 200 6 9 12 15 18 250 ΩʔϓϨʔϠʔத৺ੑ ࣍਺த৺ੑ log ( ೥ؒ঎඼ൢചֹ ) ΩʔϓϨʔϠʔத৺ੑ
  10. Data Science Report 10 |  © Sansan, Inc. 両方の図について、相関係数が示すように緩やかな正の相関が見られるものの、ネットワークにおいて最も活発なノード、 つながりが多いノードがキープレーヤーに必ずしもなっていないことが確認できる。この点は、既存の実証研究の結果とも整 合的である[3][4][5]。キープレーヤー中心性は、ネットワーク上のノード間のコンテクスト効果を考慮に入れた上で、ネットワー

    ク上で重要な役割を果たしているノードを特定していることが示唆される。 5 結論 本稿では、日本の南関東におけるビジネスネットワークのキーシティーの特定を目的とし、分析を行った。分析上の困難は 2つあり、1つは内生性を考慮した上でのスピルオーバー効果・コンテクスト効果の推定、もう1つがキープレーヤー中心性 を計算する際にノードを取り除いた後のネットワークの変化をどのようにモデル化するかであった。前者については、市区町 村間の外生的なホモフィリー指標を用いてつながりが生成される確率を予測し、そこから得られる隣接行列を用いて操作変数 行列を作成することで対処した。後者については、 ネッ トワーク生成過程をERGMによってモデル化し、 市区町村をネッ トワー クから取り除いた後のネットワークをシミュレーションすることで、ノードを取り除いた後のネットワークの変化を捕捉する ことが可能になった。そして分析の結果、ランキング上位の市区町村は必ずしもつながりが最も多い市区町村ではないこと、 そして最も経済活動が活発な市区町村とは限らないことが明らかとなった。千葉県旭市の例で見たように、ある市区町村の果 たす機能が他の市区町村によって代替できるか否かが、キープレーヤーを決める要因の1つであると考えられる。 本稿では、企業間で交わされた名刺に基づくネットワークのみを考慮に入れていたが、例えば路線に代表される交通ネット ワークを追加して分析を行うことも可能である。さらに、キーシティーを特定するためにスピルオーバー効果・コンテクスト 効果を推定したが、これらの推定値に基づいて反実仮想分析を行うこともできるようになる。例えば、ある市区町村に新たな 駅が建設されたりするなどして交通網のつながりが改善した場合、ネットワーク全体でどれくらいの経済効果があるかという 分析がその一例である。そうした知見は、都市計画を担う政策決定者に対して重要な含意を与えるものと考えられる。 なお、本稿ではロジットモデルを用いてリンク発生確率の分析をする関係上、名刺交換の枚数を考慮せず、名刺交換の有無 をバイナリ変数としてネットワークを表現した。しかし、名刺交換枚数は市区町村間のつながりの強さを捕捉した重要な変数 であることは言うまでもなく、そうした情報を捨象している点が、本分析の限界の1つである。名刺交換枚数を考慮したキー プレーヤー分析を試みること、加えて本稿で考えたモデルを精緻化すること、推定したモデルから反実仮想シミュレーション を行い政策的な含意を導くこと、これらについては将来の研究課題としたい。 6 補足 3.2節で考えた計量モデルの、理論モデルからの導出をここで説明する。この理論モデルはAmarasingheらの補論[5] に基づ いている。 市区町村の集合を 𝒩 = {1, 2, ..., N}と置く。これらの市区町村はビジネスを通じてネットワークを形成し、 そのネットワー クをgと置く。gij を、市区町村iとjのビジネスのつながりを表現する変数とする。すなわち、市区町村iとjがつながっている 場合はgij = 1を、そうでない場合はgij = 0を取る。ループのない無向グラフを考えるため、全てのi, j ∈ 𝒩に対して、gii = 0、 gij = gji が成り立つ。市区町村のビジネスのつながりを表現した隣接行列を、gij を用いてG = [gij ]と置く。 このネットワークを所与として、各市区町村の政策決定者が経済活動を決定すると考える。yi を、市区町村iの経済活動と 定義して、y = (y1 , y2 , ..., yN )と置く。市区町村iは、他の市区町村の経済活動を所与として、自身の経済活動を決定する。 市区町村iの経済活動をyi と置き、iの経済の生産性πi が以下のように与えられるとする。 πi = α + λ∑gijyj + xi⊤ β1 + x ˉi⊤ β2 + i j=1 N 式(10)
  11. Data Science Report 11 |  © Sansan, Inc. すなわち市区町村iの経済の生産性は、各市区町村に共通な要因α、ビジネスでつながっている他の市区町村の経済活動、 市区町村iの観察可能な特性xi (人口など)

    、ビジネスでつながっている他の市区町村の観察可能な特性の平均 x ¯i ≔∑N j=1 gij xj ∕ ∑N j=1 gij 、 そして市区町村iの分析者にとって観察不可能な特性εi 、 以上5つで決まるとしている。 この式でλは、 ビジネスでつながっている他の市区町村の経済活動が、自身の市区町村の経済活動に影響を及ぼすというスピルオーバー効果 を、β2 が他のつながっている市区町村の観察可能な特性が自身の経済活動に影響を及ぼすというコンテクスト効果を、それ ぞれ表している。ここでは、λ ≥ 0を仮定する。 市区町村iの経済繁栄度pi が以下のように与えられるとする。 そして、他の市区町村の経済活動を所与として、市区町村iが以下の利得ui を得るとする。 直感的には、pi は市区町村iが経済活動yi によって得られる収入、 ηyi +1 2 ̶ y2 i はその経済活動を維持するために発生するコス ト(インフラのメンテナンスコストなど)と考えられる。 各市区町村が、他の市区町村の経済活動を所与として、自身の市区町村の経済活動を決めるとする。式(12)において一 階の条件を取ることで、以下の関係式が得られる。 ただし、 β0 ≔ α−η である。 この式は、 他の市区町村の経済活動を所与としたときの、 市区町村iの最適応答関数を表している。 したがって、全ての市区町村について式(13)が成り立つような経済活動プロファイルY* = (y* 1 , y* 2 , ..., y* N )⊤ が、このゲーム のナッシュ均衡となる。Y = (y1 , y2 , ..., yN )⊤、X = (x1 , x2 , ..., xN )⊤、X ¯ = ( ¯ x1 , x ¯2 , ..., x ¯N )⊤、ε = (ε1 , ε2 , ..., εN )⊤、1N を1が N個並んだベクトルとして、式(13)を行列で表記すると以下の通りとなる。 N × Nの単位行列を IN 、隣接行列Gの固有値の絶対値の最大値を ρ(G)とすると、|λ| < 1/ρ(G)のとき、I − λGは逆行列 を持つことが知られている。このときナッシュ均衡Y*は、式(14)から と一意に得られることが分かる。 本稿で考えるネットワークにおけるキープレーヤーとは、ネットワークから取り除かれたとき、そのネットワーク全体の活 動量が最も低下するようなノードと定義される[1]。すなわち、 y∗(g) =∑N k=1 y∗ k をネットワークgの下での均衡におけるネット ワーク全体の活動量、g−i をノードiが取り除かれた後のネットワークと置くとき、 ネッ トワークgにおけるキープレーヤー i∗ は と表される。こうして計算されるy∗(g) − y∗(g−i )を、キープレーヤー中心性と呼ぶ。 ui = pi − = yi α + λ∑gijyj + xi⊤ β1 + x ˉi⊤ β2 + i j=1 N ηyi + y2 i 1 2 式(12) yi = λ∑gijyj + β0 + xi⊤ β1 + x ˉi⊤ β2 + i j=1 N 式(13) pi = πiyi = yi α + λ∑gijyj + xi⊤ β1 + x ˉi⊤ β2 + i j=1 N Y = λGY +β01N + Xβ1 + X ˉβ2 + 式(14) Y* = (I−λG)−1(β01N + Xβ1 + X ˉβ2 + ) 式(15) i* = arg max(y*(g) −y*(g−i)) i∈ 式(16) 式(11)
  12. Data Science Report 12 |  © Sansan, Inc. ここでの問題は、 あるノードiを取り除いてy∗(g−i )を計算する際に、

    残りのネットワークが変化するか否かである。あるノー ドを取り除いた後に残りのネットワークが変化しないという仮定が妥当性を持つのは、ノードを取り除いたという変化に他の 市区町村が適応しようとする前の短期的な話であるか、全ての市区町村について、つながりの形成に関係があるのはそのつな がりの当事者だけであるという仮定(pairwise independence)が成り立つときである[3]。しかし上で考えた経済活動のモデ ルでは、各市区町村の経済活動は均衡という形で得られるため、ノードを取り除いても残りのネットワークが変わらないと考 えるよりも、変化に適応し新たな均衡に行き着くと考える方がモデルと整合的である。つまり、考えているモデルは短期では なく長期の経済活動を描写するものと考えた方が自然である。 また、 経済活動が相互に入り組んでいる市区町村のビジネスネッ トワークにおいて、 pairwise independenceの仮定が成り立つと考えるのは難しい。以上から本稿では、 ノードを取り除いた後、 残りのネットワークはその変化に適応するものとして、キープレーヤー中心性を計算している。 7 Reference [1] Coralio Ballester, Antoni Calvó-Armengol and Yves Zenou, “Who's Who in Networks. Wanted: The Key Player”, Econometrica, Econometric Society, 2006, vol. 74, no. 5, pp. 1403-1417 [2] Stephen P. Borgatti, “Identifying sets of key players in a social network”, Computational & Mathematical Organization Theory, Springer Science+Business Media, 2006, vol. 12, no. 1, pp. 21-34 [3] Lung-Fei Lee, Xiaodong Liu, Eleonora Patacchini and Yves Zenou, “Who is the Key Player? A Network Analysis of Juvenile Delinquency”, Journal of Business & Economic Statistics, American Statistical Association, 2020, Forthcoming [4] Michael D. König, Xiaodong Liu and Yves Zenou, “R&D Networks: Theory, Empirics, and Policy Implications”, Review of Economics and Statistics, MIT Press, 2019, vol. 101, no. 3, pp. 476-491 [5] Ashani Amarasinghe, Roland Hodler, Paul Raschky and Yves Zenou, “Key Players in Economic Development”, IZA Discussion Papers, Institute for the Study of Labor, 2020, no. 13071 [6] 経済産業省, 「平成26年商業統計調査」, http://www.meti.go.jp/statistics/tyo/syougyo/index.html(参照2020/9/8) [7] 総務省統計局, 「平成27年国勢調査」, http://www.stat.go.jp/data/kokusei/2015/kekka.html(参照2020/9/8) [8] 総務省統計局, 「令和元年経済センサス ‐ 基礎調査」 , https://www.stat.go.jp/data/e-census/2019/index.html(参照 2020/9/8) [9] Harry H.Kelejian and Gianfranco Piras, “Estimation of spatial models with endogenous weighting matrices, and an application to a demand model for cigarettes”, Regional Science and Urban Economics, Elsevier, 2014, vol. 46, pp. 140- 149 [10] Angelo Mele, “A Structural Model of Dense Network Formation”, Econometrica, Econometric Society, 2017, vol. 85, no. 3, pp. 825-850 [11] Charles F. Manski, “Identification of Endogenous Social Effects: The Reflection Problem”, Review of Economic Studies, Oxford University Press, 1993, vol. 60, no. 3, pp. 531-542 [12] Yann Bramoullé, Habiba Djebbari and Bernard Fortin, “Identification of peer effects through social networks”, Journal of Econometrics, Elsevier, 2009, vol. 150, no. 1, pp. 41-55 [13] Xiaodong Liu and Lung-fei Lee, “GMM estimation of social interaction models with centrality”, Journal of Econometrics, Elsevier, 2010, vol. 159, no. 1, pp. 99-115 [14] Steve Gibbons, Henry G. Overman and Eleonora Patacchini, “Spatial Methods”, Handbook of Regional and Urban Economics, Elsevier, 2015, vol. 5, pp. 115-168 [15] Garry Robins, Pip Pattison, Yuval Kalish and Dean Lusher, “An introduction to exponential random graph (p*) models for social networks”, Social Networks, Elsevier, 2007, vol. 29, no. 2, pp. 173-191
  13. © Sansan, Inc. 問い合わせ 2020年11月27日 発行 担当研究員 小松 尚太 Shota Komatsu

    西田 貴紀 Takanori Nishida フアン・ネルソン・マルティネス・ダブラ Juan Nelson Martínez Dahbura ※本誌は当社サービスで定める利用規約の許諾範囲内で匿名化したデータを統計的に利用して います。 ※本誌は情報提供の目的のみのために提供されるものです。本誌を利用される方は、 その使用に ついて独自に評価する責任を負うものとし、 明示または黙示を問わずその正確性、 完全性、 有用 性等のいかなる保証も本誌には伴いません。 ※掲載されている情報等は作成時点のものです。 ※本誌の一部あるいは全部を無断で複製、 転載、 複写することを禁じます。 Data Science Report Data Science Report事務局 (Sansan株式会社 技術本部内) [email protected] https://jp.corp-sansan.com/