Rで計量経済学#1 単回帰分析

R Lecture #1 Tomoya Ozawa 実証分析⼊⾨ -とりあえずやってみる-

6⽉応⽤的な分析 2 Overview 5⽉実証分析⼊⾨ 7⽉パネル
データ分析三⽥論で実証分析出来るようになりましょう！ 3回のハンズオンと1回のグループワーク/⽉で進める予定です．

02 とりあえずやってみる 3 Goal ＆ Agenda 01 実証分析とは？
03 理論的補⾜実証分析の全体像を掴んで，分析の⾯⽩さを感じましょう！

5 実証分析とは， 01 実証分析とは？ ※1: この理論では賃⾦の差は⼈的資本の差であるとしています．教育は⼈的資本への投資と捉えることが出来るみたいです． ※仮説は疑問形で書くと良いらしいです．データを⽤いて経済学的に根拠のある仮説を検証すること仮説に対して統計学的視点から答える．仮説の例：
⼈的資本理論1を根拠として，”教育年数が増えると，賃⾦は増加するのでは？” 新規参⼊阻⽌効果を根拠として，”競合ブランドの多い地域には，新規参⼊が起こりづらいのでは？”

6 分析の流れ以下の流れに沿って，分析を⾏います．何回か分析していく中で，この流れを掴んでいきましょう．仮説⽴てデータ収集データ加⼯＆把握計量経済学モデル構築
推定解釈 01 実証分析とは？

8 今⽇のTry 先ほど紹介した⼈的資本理論をもとにこの仮説を考えました．これから3週間ほどは，この仮説を検証していきます．とりあえず⼿を動かして分析してみましょう． ”教育年数が増えると，賃⾦は増加するのでは？”という仮説を検証していきます！ 02 とりあえずやってみる

9 どうやって検証するのか？教育年数と賃⾦の関係を直線の式で表し，その直線の傾きが正であるかどうかをデータから検証する．教育年数賃⾦賃⾦教育年数傾きが正傾きが負
02 とりあえずやってみる

10 R studioの準備新しいプロジェクトを⽴ち上げます．（プロジェクト名は“R Lecture”） “File” -> “New Project...” ->
“New Directory” -> ”New Project”で作れます！仮説⽴て収集把握モデル推定解釈

11 データの収集 female_labor.csvというデータを使⽤します．先ほど作った“R Lecture”フォルダに保存してください．仮説⽴て収集把握モデル
推定解釈 ▼データの詳細1 ▼こんなデータのはず ▼データの⾒⽅・4950時間働いている⼈は，年齢は35歳，教育年数は12年で…

12 データの把握：データの読み込みデータをR studioに⼊れましょう． R Scriptを開いて，以下のコードを書いてください！仮説⽴て収集把握
モデル推定解釈 # 指定したcsvファイルを読み込んで，dfという名前をつける# df <- read.csv("female_labor.csv") # dfという名前のデータを表⽰する # View(df) ・他のコードの書き⽅として，以下のようなものがあります．この場合，データ名を書かずに直接ファイルをPC上から選ぶことが出来ます． df <- read.csv(file.choose())

13 データの把握：ヒストグラム作成今回興味のある教育年数（education）と賃⾦（hourly_wage）にどのような値が⼊っているのかグラフを作って⾒てみましょう！仮説⽴て収集把握モデル推定
解釈 # dfというデータの中のeducationという列に関して，ヒストグラムを作成する # hist(df$education) ・12年間の教育を受けている⼈がかなり多いことがわかります．・賃⾦に関しても各⾃でヒストグラムを作成してみてください！

14 データの把握：2次元プロット X軸に教育年数（education），Y軸に賃⾦（hourly_wage)をプロットして，両者の関係性を探ってみましょう！仮説⽴て収集把握モデル推定
解釈 # x軸に教育年数，y軸に賃⾦をプロットする # plot(df$education, df$hourly_wage) ・教育年数が⻑い⼈の⽅が，賃⾦が⾼い傾向にありそうですね・実証分析に⼊る前に，このようにデータの傾向を視覚的に把握しておくことは⾮常に⼤事です．・では計量経済学モデルを⽤いて，統計的に分析してみましょう！

15 計量経済学モデル構築：単回帰分析単回帰モデル（≒直線の式）で考える．データから切⽚と傾きを推定する．傾きが > であれば1，仮説が検証されたことになる．賃金 = + ×教育年数
+ 仮説⽴て収集把握モデル推定解釈被説明変数⽬的変数説明変数従属変数教育年数賃⾦賃金 = + ×教育年数・賃金：番⽬の⼈の賃⾦・教育年数：番⽬の⼈の教育年数・：教育年数が1年増加した際の賃⾦の増加分を⽰す．限界効果という．・：回帰式から算出された予測値と実際の値との差分を⽰す．誤差項という． ※1: 厳密には統計的に有意である必要があります．これは次回に扱います．

16 推定：単回帰分析 Rで単回帰分析を実⾏してみましょう！仮説⽴て収集把握モデル推定解釈
## 計量経済学モデル構築 ## # 被説明変数を賃⾦，説明変数を教育年数として単回帰分析を実⾏して，その結果をoutという名前の箱に格納 # out <- lm(df$hourly_wage ~ df$education) ・lmが回帰分析をしてもらうコードになります．・今回は分析結果にoutという名前をつけていますが，なんでもOKです．・別の書き⽅もあります． out <- lm(data = df, hourly_wage ~ education)

17 解釈：単回帰分析の結果の⾒⽅分析結果を確認してみましょう！結果の詳細な⾒⽅（統計的有意，決定係数）は次回解説します．仮説⽴て収集把握モデル推定
解釈 # 分析結果を出す # summary(out) 推定値統計的有意性（P値）決定係数 ◦この結果を数式で表すと… 賃金 = −. + . ×教育年数 1年教育年数が増えると， 0.45264ドル賃⾦が上昇すると解釈出来ます ⇨ > より仮説は検証された！ ◦教育年数が12年の⼈の賃⾦は賃金 = −. + . × つまり，2.24474ドルと予測されます

18 解釈：分析結果をプロットしてみる推定した回帰式を可視化してみましょう！仮説⽴て収集把握モデル推定解釈
# x軸に教育年数，y軸に賃⾦をプロットする # plot(df$education, df$hourly_wage) # 回帰分析結果を追加でプロットする．col = で⾊の指定をしています．# abline(out, col = "blue") 確かに，右肩あがりの直線であることがわかります．

20 どうやってとは推定されているのか？誤差 ( ) の⼆乗和1が最⼩となるようなとを計算しています（最⼩⼆乗法）最⼩⼆乗法によって推定された値 (と) を最⼩⼆乗推定量といいます． 3
賃金 = 4 + 5 ×教育年数 03 理論的補⾜賃金 = + ×教育年数 + 教育年数賃⾦表記⽅法を抑えておきましょう！・賃金：番⽬のデータ・ $ 賃金：予測値（今回だと最⼩⼆乗法で計算された値）・賃金：データの平均値 6 ↔ = 賃金 − − ×教育年数 ※1: 誤差にはプラス・マイナス共にあるので，2乗和を使⽤しています． ※2: 実測値とはデータ上の値のことです．誤差賃金の予測値実測値2

21 どうやってとは推定されているのか？以下の過程をPCが⾃動でやってくれています．（PCは計算機なんです） 03 理論的補⾜今回の場合，誤差は以下のように表されます． = 賃金 − −
×教育年数誤差の2乗和は…（データの個数が個あるとすると） 9 " = 9 " (賃金 − − ×教育年数 ) 誤差の2乗和を最⼩にするとを求めるために，それぞれについて微分をした2式を連⽴⽅程式として解きます． 9 " = 9 " (賃金 − − ×教育年数 ) = 9 " = 9 " (賃金 − − ×教育年数 ) = ※1: この2式を正規⽅程式と⾔います．

22 注意：相関と因果相関関係とは⽚⽅の変数が変化すれば，もう⽚⽅の変数も変化する傾向にあること．因果関係は2つの変数の間に原因と結果の関係があること．因果関係を⽰すのは⼤変です．データを分析していく上で相関と因果をしっかり区別しましょう．今回の分析結果も因果関係があるかどうかはまた別の話です． 03 理論的補⾜

23 おまけ：相関があっても因果関係は… 03 理論的補⾜ ※https://www.tylervigen.com/spurious-correlations

24 参考書：相関と因果「原因と結果」の経済学オススメの本です．因果関係を測定する⽅法が載っています（因果推論）．データ分析の⼒因果関係に迫る思考法 03 理論的補⾜効果検証⼊⾨

Rで計量経済学#1 単回帰分析

Rで計量経済学#1 単回帰分析

TomoyaOzawa-DA

More Decks by TomoyaOzawa-DA

Other Decks in Education

Featured

Transcript

R Lecture #1 Tomoya Ozawa 実証分析⼊⾨ -とりあえずやってみる-

6⽉応⽤的な分析 2 Overview 5⽉実証分析⼊⾨ 7⽉パネル

02 とりあえずやってみる 3 Goal ＆ Agenda 01 実証分析とは？

02 とりあえずやってみる 4 Goal ＆ Agenda 01 実証分析とは？

6 分析の流れ以下の流れに沿って，分析を⾏います．何回か分析していく中で，この流れを掴んでいきましょう．仮説⽴てデータ収集データ加⼯＆把握計量経済学モデル構築

02 とりあえずやってみる 7 Goal ＆ Agenda 01 実証分析とは？

9 どうやって検証するのか？教育年数と賃⾦の関係を直線の式で表し，その直線の傾きが正であるかどうかをデータから検証する．教育年数賃⾦賃⾦教育年数傾きが正傾きが負

10 R studioの準備新しいプロジェクトを⽴ち上げます．（プロジェクト名は“R Lecture”） “File” -> “New Project...” ->

11 データの収集 female_labor.csvというデータを使⽤します．先ほど作った“R Lecture”フォルダに保存してください．仮説⽴て収集把握モデル

12 データの把握：データの読み込みデータをR studioに⼊れましょう． R Scriptを開いて，以下のコードを書いてください！仮説⽴て収集把握

13 データの把握：ヒストグラム作成今回興味のある教育年数（education）と賃⾦（hourly_wage）にどのような値が⼊っているのかグラフを作って⾒てみましょう！仮説⽴て収集把握モデル推定

14 データの把握：2次元プロット X軸に教育年数（education），Y軸に賃⾦（hourly_wage)をプロットして，両者の関係性を探ってみましょう！仮説⽴て収集把握モデル推定

15 計量経済学モデル構築：単回帰分析単回帰モデル（≒直線の式）で考える．データから切⽚と傾きを推定する．傾きが > であれば1，仮説が検証されたことになる．賃金 = + ×教育年数

16 推定：単回帰分析 Rで単回帰分析を実⾏してみましょう！仮説⽴て収集把握モデル推定解釈

17 解釈：単回帰分析の結果の⾒⽅分析結果を確認してみましょう！結果の詳細な⾒⽅（統計的有意，決定係数）は次回解説します．仮説⽴て収集把握モデル推定

18 解釈：分析結果をプロットしてみる推定した回帰式を可視化してみましょう！仮説⽴て収集把握モデル推定解釈

02 とりあえずやってみる 19 Goal ＆ Agenda 01 実証分析とは？

20 どうやってとは推定されているのか？誤差 ( ) の⼆乗和1が最⼩となるようなとを計算しています（最⼩⼆乗法）最⼩⼆乗法によって推定された値 (と) を最⼩⼆乗推定量といいます． 3

21 どうやってとは推定されているのか？以下の過程をPCが⾃動でやってくれています．（PCは計算機なんです） 03 理論的補⾜今回の場合，誤差は以下のように表されます． = 賃金 − −

23 おまけ：相関があっても因果関係は… 03 理論的補⾜ ※https://www.tylervigen.com/spurious-correlations

24 参考書：相関と因果「原因と結果」の経済学オススメの本です．因果関係を測定する⽅法が載っています（因果推論）．データ分析の⼒因果関係に迫る思考法 03 理論的補⾜効果検証⼊⾨