#イノベーション研究のための実践的データ分析 η. 経営学でもデータを使ったほうがよい理由/(重)回帰分析を notebook/python を使って解いてみよう

イノベーション研究経済学のための実践的データ分析 η. 経営学でもデータを使ったほうが良い理由+回帰分析をやってみよう @甲南大学 2019.11.09 一橋大学大学院経済学研究科原泰史
[email protected]

数学はどのくらい勉強しましたか？

統計学はどのくらい勉強しましたか？

計量経済学はどのくらい勉強しましたか？

プログラミング、やったことありますか？何の言語でしたか？

データサイエンス ≒ ඵ 0 ∞ 統計学, 計量経済学, 数学, プログラミング

自己紹介

自己紹介 • Yasushi HARA • 1998-2004 • TOYOTA NATIONAL COLLEGE
OF TECHNOLOGY • 2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University

Recent Activities Research 11/8/2019 9

自己紹介(2) • 主な研究テーマ • 大規模データを活用したイノベーションプロセスの解析が現在の主な研究テーマです。大学あるいは研究機関で生み出された基礎研究が、特許あるいは論文などの著作物を媒介して企業の研究開発へと活用され、それがどのような経済的・社会的価値を生み出すイノベーションへと結実するか、 •
複数のデータソースを組み合わせることでその動態を解析しています。特許、学術論文、財務データベースおよび、企業活動を包括的に記述したデータベースを相互に結合することで、定量的な解析を行っています。具体的なフィールドとしては、製薬・バイオ産業および再生医療分野に関連した解析を行ってきました。また、無形資産が果たす役割についても近年関心を持っています。

今日の内容なぜデータが必要なのだろう？ Notebook 環境を導入する Notebook で計算を行う Notebook で(重)回帰分析を行う

なぜ、データが必要なのだろう？

経営といえばひとものかね情報

経営を分析する (オールドスクールな方法) ひとものかね情報話を聞きにいくか、文献を調査することでなぜその企業/製品がうまくいったのか、要因を経営理論に照らし合わせて解析する(定性的調査)

経営を分析する (最近みんなが好きな手法) ひとものかね情報データベースを入手するか、サーベイデータを作成し、それらのデータセットを接合し合うことで、なぜその企業/製品がうまくいったのか、要因を経営理論に照らし合わせて解析する(定量的調査)

Framework of Innovation Indicators [modified. 2] (Pakes and Griliches 1984)
Other Economi c Factors Non-Knowledge Factors of Production Output: Productivity Firm’s Value Paten t Patenting Propensity Inputs to Innovation R&D, designing, marketing research etc… Knowhow and First Mover Advantag Paper In- tangible knowledg e 3/8/2015 16

研究手法のダイアグラム • 定性的なアプローチ • なにかしらの理論モデルにもとづき、文献調査や実地調査、インタビューなどを使って証拠を集める。集まった証拠にもとづきロジックを組み立てて、結果を観察する • データソース
• 誰かが書いた文章 (論文や特許や報告書や白書 etc…) • 誰かの頭のなか (をインタビューを使って収集する) • 定量的なアプローチ • なにかしらの理論モデルにもとづき、統計データベースを使ってデータを集める。それを回帰分析 etc… などの統計的な処理をして、結果を観察する • データソース • 統計データベースを使う • サーベイ調査をする • 政府統計を使う結論インプリケーション (ex. 政策的な含意) 問い (リサーチクエスチョン) Literature Review (先行研究の調査) Hypothesis (問いに対する仮説の提示) 3/8/2015 17

Q. データを使えばビジネスはわかるか？ • ちょっと昔に言われたこと • 「データは数をみているだけ。経営者の心の機微や組織体制の細やかな変容や経営者の意思決定の変化を、細かくデータで追うことは出来ない」 • 実際の世の中で起きたこと •
テキスト解析手法の進化 • 機械学習のあっという間の普及 • データ解析に係る導入コストの低下 (as 統計ソフトを買わなくても良くなった) • A. 2019年11月段階の(ぼくの)答え • データがあれば、かなり色々なことがわかる。でも、データで説明しきれない特殊性や特筆性については、まだ定性分析に出来ることはたくさんある

テキスト分析: SMAP会見 • 共起ネットワーク

Twitter の口コミを Wordcloud にプロット • 早稲田大学 • 慶應大学

Word2vec モデルに基づく Similarity Words の抽出(from Wikipedia の経営学者リスト) イノベーションマーケティング論
技術経営コーポレート・ガバナンス医療 0.92人的資源 0.92MOT 0.98 神戸大学大学院経営学研究科 0.93 静岡 0.91評価 0.92開発 0.92第一人者 0.92 地域 0.91ほか 0.91システム 0.92人 0.91 経営情報学部 0.9勲 0.91知識 0.91組織論 0.91 県立大学 0.88技術 0.9マネジメント 0.9および 0.9 センター 0.88流通 0.9監事 0.88消費者 0.89 研究科 0.87分析 0.9課題 0.85にて 0.89 経営情報 0.87委員会 0.9Certified 0.85問題 0.88 研究所 0.84課題 0.9客員研究員 0.84受章 0.88 所長 0.83人 0.89技術 0.82期 0.87 長 0.82監事 0.89関係 0.82現代 0.87 准教授 0.81および 0.89プロジェクト 0.82勲 0.87 国際企業 0.8多摩大学 0.89 マーケティング論 0.81アドバイザー 0.87 経済 0.8地域経済 0.88領域 0.81及び 0.87 研究員 0.79サービス 0.88ホスピタリティ 0.8社会学 0.86

1930s 1960s 1970s 1990s 2000s 青色LEDに至るまでの研究開発プロセス: 1910-2007 (1次引用すべて導入; 上位12社明記) 1980s
引用: 清水2011

Schumpeter 1947 の後方引用数推移 (Web of Science) 11/9/2019 24

決定木分析

ということで、データを使えるようになりましょう。

1. Jupyter Notebook または Google Colaboratory の導入

Anaconda Distribution (aka Jupyter Notebook)とは • プログラムを実行し、実行結果を記録できるツール • 数値計算・データ解析で広く用いられている •
実行結果は notebook 形式で保存可能 • 便利なので使ってみましょう。

Jupyter Notebook のインストール(1) • 1. https://anaconda.com にアクセスし右上の [Download] を
クリックする

Anaconda Distribution のインストール(1) • 利用しているオペレーティングシステム (Windows/Mac/Linux)に基づき, Python3.7 バージョンの [Download] をクリック
Windows版 Mac版ダウンロードが終わるまで待つ。

Anaconda Distributionのインストール (3) • “Next >” をクリックする • “I Agree”
をクリックする

Anaconda Distributionのインストール(3) • “Next >” をクリックする • “Next >” をクリックする

Anaconda Distributionのインストール (4) • “Install” をクリックする

Jupyter Lab の起動 (1) • スタートメニューから, Jupyter Lab を選択する

Jupyter Lab の起動 (2) • コンソールが表示される

Jupyter Lab の起動 (3) • New から Python 3 を選択する

Jupyter Lab の起動(4) • 1+1 を入力し, Run をクリック • “2”
が出力される

Google Colaboratory • SaaS な Notebook by Google. • https://youtu.be/inN8seMm7UI

3-1. Google Colaboratory を開く • https://colab.research.google.com/notebooks/welcome.ipyn b?authuser=1#scrollTo=9J7p406abzgl を, google にログインした状態でオープンする.

3-1. Google Colaboratory を開く • 以下のような画面が表示される

3-2. 新しいnotebook を作成する • [ファイル]-[python3 の新しいノートブック] を選択する

Exercise 1: 数値計算をやってみる

今日の notebook Google Colaboratory 版 https://colab.research.google.com/drive/1 qeYXrHXGE5yTxP5SVSvfxK9zmmXnyokD Jupyter Notebook 版
https://www.dropbox.com/s/xj4uhfr6ycpt4 21/Empirical%20Analysis%20for%20Econo mics%20%232.ipynb?dl=0

Exercise 1: 1+1 = 2 を計算する • Jupyter notebook の
in: に, 1+1 をタイプする • 2 がout: に出力される

Exercise 2: 3*9-12+14/3 を計算する • Jupyter notebook の in: に,
3*9-12+14/3 をタイプする • 19.66666… がout: に出力される

Exercise 3(1): sin(1)+cos(2)+tan(3) を計算する Exercise 3(2): 円周率を確認する • Math パッケージをインポートする
• python の場合, データ処理 etc… を円滑を行うためにはパッケージをインポートします. • ここでは, 数学関数の含まれる math パッケージをインポートして, 続いて三角関数を計算してみます • Sin(1)+cos(2)+tan(3)を計算する • ついでに, 円周率を確認する • Out に以下の通り出力されます

Numpy パッケージを利用してみる • NumPy • 数値の配列・行列などを効率的に処理するパッケージ • http://www.numpy.org • インポートの方法
• 先程の数学関数と同じく import numpy as np とタイプし, ライブラリをインポートする

Exercise 4(1): ベクトル計算をやってみる • まずはnumpy をインポート • ベクトルaとベクトルbを定義 • ベクトルaとベクトルbの
中身を確認

Exercise 4(2): ベクトル計算をやってみる • ベクトルa の2乗を求める • ベクトルa+bの要素ごとの積を求める •
ベクトルの内積を求める

Exercise 5: 行列演算をやってみる • 5x5 の行列cをランダムな値で作成する • 出力してみる

Exercise 5(2): 行列演算をやってみる • 逆行列C-1を求める np.linalg.inv(c) • 行列C*C-1 して, 単位行列E
になることを確認する c.dot(np.linalg.inv(c))

Panda パッケージを利用してみる • pandas • Python でデータ解析を行うためのパッケージ • Excel の表やSQL
を直接取り込んで処理するのにピッタリ • データ構造 • 一次元: Series • 二次元: DataFrame (※. 個人的にはよく使います) • 行タイトルや列タイトルがつけられる • 文字列と数字を excel みたいに混在出来る • インポートの方法 • import pandas as pd

Exercise (6): Pandas パッケージで行列を DataFrame に変換する • Pandas パッケージをインポートする
• import pandas as pd • 先程作成した行列c を DataFrame に変換する • Data “F”rame になってるようにチェック • 出力する • 行番号と列番号が付いていることが確認できる

Exercise (6-2): 行番号と列番号を名称変更する • Pandas パッケージをインポートする • import pandas
as pd • 先程作成した行列c を DataFrame に変換する • Data “F”rame になってるようにチェック • 出力する • 行番号と列番号が付いていることが確認できる

Exercise (6-3): 行番号と列番号を名称変更する • 行番号を変更する • df1.columns で指定 • (データフレーム名).変更箇所
• 列番号を変更する • df1.index で指定 • (データフレーム名).変更箇所 • 出力して確認

Exercise (7): DataFrame 内の要素を指定する • 行と列の位置を指定して, 値を取り出す • 特定の列の値を取り出す
• at を用いて, 単一要素を取り出す • 特定の行の値を取り出す

回帰分析 • 変数 X, Y のデータがあるとき, データからY をX で説明する回帰方程式と呼ばれる式を求めること
• Y; 被説明変数 • X; 説明変数 • X と Y それぞれの観測数を i とすると、 • = 0 + 1 + , = 1,2, … , と書ける. 0 と1 は未知パラメータ. は誤差項または撹乱項となる.

回帰分析 (cont.) • 回帰分析における仮定 • Xi は確率変数ではなく, 固定された値をとる • 誤差項は確率変数であり,
期待値は0 となる. すなわち, E( ) = 0 • 誤差項とは無相関となる. ( , ) = = 0 • 誤差項の分散は一定となる. ( ) = 2 = 2

回帰分析 (cont.) • 最小自乗推定量 • ෢ 1 = σ(− ത
)(−ത ) σ(− ത )2 = σ(− ത ) σ(− ത )2 • ෢ 0 = ത - ෢ 1 ത • ത および ത はそれぞれ , の標本平均となる. • 前述の仮定において, 最小自乗推定量は最良線形不偏推定量を満たす. (ガウス・マルコフの定理) • 決定係数 • 誘導系 (reduced form) の回帰式の説明力を示す値 • R2 = σ(෢ − ത )2 σ(− ത )2 = 1 − σ 2 σ −ത 2 , ℎ = − ෢ 0 - ෢ 1

単回帰分析を廻してみる • Y=αX+β をベタに求めてみましょう • 決定係数や係数を求める • 使うデータ • 落合博満(ロッテ,
中日, 巨人, 日本ハム) の打率(X)と年俸(Y) • データソース • https://nipponbaseball.web.fc2.com/personal/batter/ochiai_hiromitsu.html

Excercize (8): 単回帰のために必要なライブラリを取り込み, データを入れ込む • matplot.lib.pyplot と scipy.stats をインポートする
• avg 変数と salary 変数を作成する

Exercise (8-2): 単回帰分析を回す • avg とsalary をそれぞれ, Numpy x, yに変換する
• 回帰分析を lingregress で実施する • 回帰分析の結果を出力する (p値的に, 打率は年俸を説明できていない可能性)

Exercise (8-3): 単回帰分析を回す • x,y の散布図と回帰曲線をプロットして表示する • どうやら、打率は年俸を説明出来ていない様子
• Self Exercise • 打率ではない、別の変数 (Ops やホームラン数) を引っ張ってきて, 同じように単回帰を廻してみましょう

Exercise (8-4); 単回帰を回す alternative バージョン • statsmodels.api モジュールを使う •
add_constatnt によって定数項を追加する • Excel やStata で解析したのと似たような表が出力される

重回帰分析 • 複数の説明変数が被説明変数に影響を与えると推定する • 複数の説明変数を, 1 , 2 , …
, と表した場合 • = 0 + 1 1 + ⋯ + + , = 1,2, … , と表される. 0 … は未知パラメータとなる. また, は誤差項である. • 仮定 • 説明変数1 , 2 , … , は確率変数ではなく, 固定された値を取る • 誤差項は確率変数であり, 期待値は0 となる. すなわち, E( ) = 0 • 誤差項とは無相関となる. ( , ) = = 0 • 誤差項の分散は一定となる. ( ) = 2 = 2 • 説明変数は他の変数の一次結合として表すことはできない. すなわち, 0 + 1 1 + ⋯ + = 0 となる 0 , 1 , … , は 0 = 1 = ⋯ = = 0以外に存在しない. このことを, 変数間に多重共線性がないという.

重回帰分析 (cont.) • それぞれ, 以下の通りベクトルおよび行列を仮定する. • = 1 2 …
, = 1 ⋯ ⋮ ⋱ ⋮ 1 ⋯ , = 0 1 … , = 1 2 … • 行列表示で表すと, • = + • = 0 • ′ = 2

重回帰分析 (cont.) • 最小自乗推定量 • ෡ = (′)−′ • 決定係数
• R2 = σ(෢ − ത )2 σ(− ത )2 = 1 − σ 2 σ −ത 2 , ℎ = − ෢ 0 - ෢ 1 • ところが, 重回帰分析の場合, 説明変数を増やすと誤差項 σ 2 が小さくなり, 結果, 決定係数が大きくなる可能性がある. そこで, 自由度修正済み決定係数を用いる • 2 = 1 − σ 2/(−−1) σ −ത 2/(−1)

重回帰分析 (cont.) • 多重共線性 • 0 + 1 1 +
⋯ + = 0; = 1,2, … , が成立するとき, 説明変数間に多重共線性があるという. • 多重共線性がある場合, ≠ 0であれば, = − 0 + 1 1 + ⋯ + −1 −1 となり, すなわち, を他の説明変数で説明できる. • 対処方法; • VIF を用い, 多重共線性のチェックを行う

重回帰分析を行う • サンプルデータ • Scikit-learn の住宅価格データ • ボストンの506地区について, 犯罪率や固定資産税率, 教師あたりの生
徒数などの属性値と, 住宅平均価格をテーブルに • 目的変数を target, 説明変数を boston に振り分ける

重回帰分析を行う CRIM 町ごとの人口一人あたりの犯罪率 AGE 1940年以前に建てられた、所有者が住む建物の割合 ZN 宅地の比率。25,000平
方フィート以上のゾーンで数えた値 DIS ボストンの5つの雇用中心からの距離 INDUS 町ごとの非小売業の面積比 RAD 放射状幹線道路からの距離 CHAS チャールズ川に道がつながっているか TAX 固定資産税率 NOX NOx 濃度 PTRATIO 町ごとの教師あたりの生徒数 RM 住宅あたり部屋数 B 町ごとの黒人比率 LSTAT 低階層人口の比率 MEDV 所有者が住む住宅の価値の中央値

Exercise(9) 重回帰分析を行う • データセットをsklearn から取り込む • データを dset に放り込む
• boston に説明変数を放り込む • target に被説明変数を放り込む • 結果をアウトプットする

Exercise(9-2) 重回帰分析を行う • 出力結果

Exercise(10): VIF 値を確認する • 多重共線性のチェック • statsmodels.stats.ou tliers_influence から
variance_inflation_fa ctor を使って VIF(Variance Inflation Factor) をチェックする

Extension; パネルデータ解析 • パネルデータ • N 個の主体（人，企業，団体，県，国など）の各々に関して T 期間にわたって観測された
データ • パネルデータのメリット • (a) データ数が増えることにより，自由度が大きくなるので，推定精度が向上する． • (b) 主体間の異質性をモデルに取り込むことは，単一の時系列，あるいはクロスセクションのみでは不可能であるが，それが可能になる． • (c) 主体間の異質性は，一般に観測不可能な主体固有の要因であり，そのような要因以外の全体の関係を分析することが主目的ならば，固有の要因を除去した分析が可能である． Source: https://www-cc.gakushuin.ac.jp/~20130021/ecmr/panel.pdf

Extension; パネルデータ解析 • = + ′ + (i =1 ,···,N;
t =1 ,···,T) • このとき, 誤差項は以下の仮定を満たす. • = 0, = { 2 = かつ = のとき , 0(その他) • ; 未知の係数ベクトル • ′ ; 説明変数の p*1 確率ベクトル • 誤差項との独立性が仮定される (狭義外生性; strict exogeneity) • ; 主体 i に特有の個別効果 (individual effect) Source: https://www-cc.gakushuin.ac.jp/~20130021/ecmr/panel.pdf

Extension; パネルデータ解析 • 固定効果モデル (Fixed Effect Model) • を定数のパラメータと仮定する •
変動効果モデル (Random Effect Model) • を主体ごとに独立な確率変数と仮定し, • = 0, 2 = 2, = 0 を満たす。

Extension; パネルデータ解析 • パネルデータ • 識別IDと時系列が含まれているデータ

Extension; パネルデータ分析 • Linearmodels パッケージをインストールする # !pip install linearmodels

Extension; パネルデータ分析 • Linearmodels から PanelOLS, RandomEffects パッケージをインポートする

Extension; パネルデータ分析 • サンプルのデータセットを読み出す • データセットから, 年データを取り出しインデックスとしての設定を行う

Extension; パネルデータ分析 • データの構造

Extension; パネルデータ分析 • 被説明変数と説明変数を指定し, 変動効果モデルを解析する

Extension; パネルデータ分析 • 固定効果モデルを解析する

Exercise 2: FIFA19 or Airbnbのデータで重回帰分析を行う

今日の notebook (その2; FIFA19) Google Colaboratory 版 https://colab.research.google.com/drive/1 h7NY4ByUp5MkB1-eU__Lp8jAwTMLTFiT Jupyter
Notebook 版 https://www.dropbox.com/s/y3xiinmkp6w 6lbj/fifa19%20%E3%81%AE%E3%83%87%E 3%83%BC%E3%82%BF%E3%81%A7%E5%8 D%98%E5%9B%9E%E5%B8%B0%E3%81% A8%E9%87%8D%E5%9B%9E%E5%B8%B0 %E5%88%86%E6%9E%90%E3%82%92%E8 %A1%8C%E3%81%A3%E3%81%9F%E7%B5 %90%E6%9E%9C..ipynb?dl=0

今日の Notebook (その2; Airbnb) Jupyter Notebook 版 https://www.dropbox.com/s/x0d4yr2eiy5a z07/Airbnb%20%E3%81%AE%E3%83%87% E3%83%BC%E3%82%BF%E3%81%A7%E5%
9B%9E%E5%B8%B0%E5%88%86%E6%9E% 90%E3%82%92%E8%A1%8C%E3%81%A3% E3%81%9F%E7%B5%90%E6%9E%9C.ipynb ?dl=0 Google Colaboratory 版 https://colab.research.google.com/drive/1 tdkQ2ucGz1IlY1Auoabywpkq0FMQLQoJ

データセット(FIFA19) CSV ファイル https://www.dropbox.com/s/n6vvh772nut nr75/data2.csv?dl=0 XLSX ファイル https://www.dropbox.com/s/7vl5p1vsfo3k bsf/data.xlsx?dl=0

データセット(Airbnb) • CSV ファイル • https://www.dropbox.com/s/2y32zvncbu2l6ex/AB_NYC_2019_2.csv ?dl=0 • XLSX ファイル
• https://www.dropbox.com/s/klrc47m9uurcrgn/AB_NYC_2019_2.xlsx ?dl=0

データセット (その1) • FIFA19 Datasets; クロスセクションデータ • https://www.kaggle.com/karangadiya/fifa19 FIFA 19
に収録されているフットボールプレイヤー選手の能力値や市場価値をまとめたデータ

データセット(その1)

データセット (その2) • New York City Airbnb Open Data •
https://www.kaggle.com/dgomonov/new-york-city-airbnb-open- data

データセット(その2) • Columns • Id; listing ID • Name; name
of the listing • host_id; host ID • host_name; name of the host • neighbourhood_grouplocation • neighbourhoodarea • Latitude; latitude coordinates • Longitude; longitude coordinates • room_type; listing space type • Price; price in dollars • minimum_nights; amount of nights minimum • number_of_reviews; number of reviews • last_review; latest review • reviews_per_month; number of reviews per month • calculated_host_listings_count; amount of listing per host • availability_365; number of days when listing is available for booking

データセット(その2)

分析について • どれを説明変数/被説明変数にするかはおまかせします • サラリー and/or 市場価値 and/or 能力? •
ダミー変数の作成などもおまかせします

考えうる仮説 • 選手の加齢は市場価値を押し下げる • クラブの移籍は選手のサラリーを押し上げる • 国際的な認知度は選手の市場価値を押し上げる • 現在の契約終了年までの期間が短いほど、市場価値を上げる •
南米出身の選手は、欧州出身の選手に比べサラリーの水準が低い • Etc…

Notebook の解説(FIFA19) やっていること・Excel にしたデータをJupyter Notebook に取り込む (同じディレクトリにデータを入れておくこと) ・シートの1枚目
(0番目) を input_sheet_df にインポートする・input_sheet_df.head(10) で, データの 10番目までを表示する Messi や Ronaldo, Suarez などのデータが表示されていることが確認できる

Notebook の解説(FIFA19) やっていること・説明変数と被説明変数をそれぞれの列から取り出す (.iloc [行, 列]で, 行を指定せず列のみを指定する)
・scipy.stats.lingress(説明変数, 被説明変数) で単回帰を回す・散布図および, 単回帰分析の結果をアウトプットする

Notebook の解説(FIFA19) 被説明変数; overall (ゲーム上での総合評価) 説明変数; age (年齢) 年齢が高くなるほど, 総合的な評価が高くなる
-> おそらく, 評価の高くない選手は引退している

Notebook の解説(FIFA19) sm.OLS(被説明変数, 定数項+説明変数) で回帰分析を行い, 結果を表として出力する被説明変数; overall (ゲーム上での総合評価)
説明変数; age (年齢) 定数項および説明変数はそれぞれプラスに有意だが, R修正項は高くない。

Notebook の解説(FIFA19) sm.OLS(被説明変数, 定数項+説明変数) で回帰分析を行い, 結果を表として出力する被説明変数; wage (年俸)
説明変数; age (年齢) 定数項はマイナス, 説明変数はプラスに有意だが, R修正項はかなり高くない。

Notebook の解説(FIFA19) • plt.scatter パッケージを用い, wage (年俸)とage(年齢) をプロットする •
30歳までは年俸は上昇していくが, その後下方トレンドがあることが確認できる • いくつか外れ値があることが確認できる

Notebook の解説(FIFA19) • Seaborn パッケージで, ヒストグラムと散布図を同時にプロットする • 年齢はF分布,
年俸はべき乗分布に近いことが確認できる • 外れ値はメッシやクリスティアーノロナウドなど.

Notebook の解説(FIFA19) • 同様に, 重回帰分析を sm.OLS パッケージを用いて行う • 説明変数が空の行を削除する
(x_list.drop… 以下) • 年齢とレピュテーション, 契約満期までの残り年数および評価値はプラスに有意, 定数項はマイナスに有意, 利き足ダミーは有意であるとはいえないことが確認できる

Notebook の解説(FIFA19) • VIF値を確認する (第二回の講義参照) • いずれも10は超えてないことが確認できる

Notebook の解説(FIFA19) • sns.pairplot を使って, 変数間の散布図および, ヒストグラムを表示する •
.savefig を用いて, 出力結果を保存する

わかること・年俸の分布はかなりskew ・年齢と年俸の単回帰の傾きは, 右利きと左利きでかなり違う(メッシエフェクト?) ・年齢が高くなると, 残りの契約期間は短くなる（自明）・国際的なレピュテーションと, 総合的な
評価は正の関係・年齢と総合的な評価もやはり正の関係 (生存バイアス)

やってみよう • 被説明変数/説明変数を入れ替える • 異なるデータセットと接合する • 今までのケース in 一橋や慶應や早稲田 •
FIFA ランキングのデータを持ってきて, 国名をベースにデータセットに統合する • OECD の per capita GDP のデータを持ってきて, 国名をベースにデータセットに統合する • 面白い結果が出たら発表してみましょう

ここからの展開 • 他のデータセットを持ってくる • 特許や論文 • SNSの口コミデータ • Wikipedia(dbpedia.org) •
分析手法を広げる • 決定木 • Word2vec • スパース推定 • 感情分析

To whom it may concern… • 今日の内容は一橋大学講義「経済学のための実践的データ分析」の一部を加筆修正したものです • 講義資料は以下にアップロードしているので,
ご興味あれば御覧ください • https://speakerdeck.com/yasushihara/ • https://www.slideshare.net/yasushihara

References • 羽森茂之 (2000) 計量経済学, 中央経済社

THANKS [email protected]

#イノベーション研究のための実践的データ分析 η. 経営学でもデータを使ったほうがよい理由/(...

#イノベーション研究のための実践的データ分析 η. 経営学でもデータを使ったほうがよい理由/(重)回帰分析を notebook/python を使って解いてみよう

More Decks by yasushihara

Other Decks in Education

Featured

Transcript