Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Rで計量経済学#2 重回帰分析

Rで計量経済学#2 重回帰分析

所属している研究会で扱った資料になります。
内容について間違いがある可能性もありますので、その際にはご連絡ください。

TomoyaOzawa-DA

August 15, 2020
Tweet

More Decks by TomoyaOzawa-DA

Other Decks in Education

Transcript

  1. 8 分析の流れ 前回と同様に以下の流れに沿って,分析を⾏っていきます. 仮説⽴て データ収集 データ 加⼯&把握 計量経済学 モデル構築 推定

    解釈 02 Rでの実装 新しい変数の作成 基本統計量 重回帰分析 統計的有意性 決定係数 ※今回登場する新しいトピック.
  2. 10 データの加⼯:新しい変数作成 このデータには⼦供の数を⽰す変数が2つあります. 1つにまとめてnumber_kidsという新しい変数を作ってみよう. 仮説 ⽴て 収集 加⼯ モデル 推定

    解釈 # 6歳未満の⼦供の数と18~6歳の⼦供の数の合計値を⽰すnumber_kidsという変数を作成する # df$number_kids <- df$number_kids_under6 + df$number_kids_6to18 # 新しい変数number_kidsが作成されているかどうか,データを確認してみる # View(df) ・View(df)の代わりに、head(df)というコードを書くと、 データの上から6⾏分が表⽰されます. ▼データの詳細
  3. 11 データの把握:ヒストグラム作成 新しく扱う変数である労働時間(working_hours)と⼦供の数(number_kids) にどのような値が⼊っているのか,グラフを作って⾒てみましょう! 仮説 ⽴て 収集 把握 モデル 推定

    解釈 # dfというデータの中のworking_hoursという列に関して,ヒストグラムを作成する # hist(df$working_hours) ・number_kidsに関しては,各⾃で取り組んでみてください. ・plot.new() でエラー: figure margins too largeというエラーが出たら,右下のPlotsのエリアを広げてみてください!
  4. データの把握:基本統計量 今回は基本統計量という指標を⽤いてデータを把握してみましょう. 基本統計量から先ほどのヒストグラムを想像出来るようになるといいですね. 仮説 ⽴て 収集 把握 モデル 推定 解釈

    # dfというデータに含まれている変数について,基本統計量を算出する# summary(df) ・1st Qu.:第1四分位数 ・3rd Qu.:第3四分位数 ・Median:中央値(平均値と区別しましょう) ・NAʼs:⽋損している値(詳細は来週) 12
  5. データの把握:平均値と中央値 平均値だけでデータの全体像を把握することはおすすめしません. 中央値まで捉えると,ざっくりデータの分布がわかります. 仮説 ⽴て 収集 把握 モデル 推定 解釈

    # 実際のデータを使って確かめてみましょう # # 平均を算出.meanというコマンドを使います# mean(test$age_1) # 各列ごとにヒストグラムを作成して、データの分布を確認してみましょう# # 今回は同時に2つのグラフを出⼒してみましょう # par(mfrow=c(1,2)) hist(test$age_1) hist(test$age_2) ・ヒストグラムを同時に出すにはparというコマンドを⽤います.c(1, 2)で縦1個横2個で配置することを指定しています ・y軸の範囲は, hist()の中にylim = c(最⼩値, 最⼤値)と書くことで指定できます.e.g. ylim = c(0, 40), xlim = c(20, 100) 13
  6. 14 計量経済学モデル構築:重回帰分析 重回帰分析では,説明変数が複数あるモデルを考えている. , , , (パラメータという)をデータから推定していく. _ = +

    × + ×_ + ×_ + 仮説 ⽴て 収集 把握 モデル 推定 解釈 ・_ : 番⽬の⼈の賃⾦, : 番⽬の⼈の教育年数, _ : 番⽬の⼈の労働時間, _ : 番⽬の⼈の⼦供の数 ・:教育年数が1年増加した際の賃⾦の増加分を⽰す.限界効果という. ・ :回帰式から算出された予測値と実際の値との差分を⽰す.誤差項という. ※これから英語表記にします.(カッコつけです)
  7. 15 推定:重回帰分析 Rで重回帰分析を実⾏してみましょう! 仮説 ⽴て 収集 把握 モデル 推定 解釈

    # 被説明変数を賃⾦,説明変数を教育年数,労働時間,⼦供の数として重回帰分析を実⾏して,そ の結果をout1という名前の箱に格納します # out1 <- lm(data = df, hourly_wage ~ education + working_hours + number_kids ) ・重回帰分析のコードは以下のようなイメージです. out1 <- lm (data = データの名前, 被説明変数 ~ 説明変数① +説明変数② +説明変数③…)
  8. 16 解釈:重回帰分析の結果の⾒⽅ 分析結果を確認してみましょう! 教育年数の限界効果はどのようになりましたか? 仮説 ⽴て 収集 把握 モデル 推定

    解釈 # 分析結果を出す # summary(out1) 推定値 統計的有意性(P値) (⾃由度調整済み)決定係数 _ = −. + . × + . ×_ − . ×_ この結果を先ほどのモデルに当てはめると… 労働時間と⼦供の数が⼀定の時(他の要因のコントロール), 教育年数が1年増加すると,賃⾦は0.3934232ドル増加する. ※e-09は10のマイナス9乗を⽰しています.要するにとても⼩さいということです.
  9. 17 解釈:統計的有意性(P値) 統計的に意味があるのかどうかに関してはP値(t値でも可)より判断します. 仮説 ⽴て 収集 把握 モデル 推定 解釈

    ・統計的有意とは,確率的に偶然ではないという意味.(ある程度確からしいということ.) ・P値とは,帰無仮説が正しい時に⼿元のデータよりも極端な分布のデータが⼿に⼊る確率.(≠帰無仮説が正しい確率) ・実際,パラメータについて帰無仮説 : = ,対⽴仮説 : ≠ として検定している.(⽇吉の統計学で扱ったはず) ・P値の扱いには注意したほうがよさそうです.(詳しくはアメリカ統計学会の声明を) P値 解釈 < . < . < . ⽔準1%で有意 ⽔準5%で有意 ⽔準10%で有意 先ほどの結果と照らし合わせると… : ⽔準1%で有意 _ : ⽔準1%で有意 _ : 統計的に有意ではない
  10. 18 解釈:決定係数 決定係数とはどのくらい⼿元のデータをモデルが説明できているかを⽰す指標. 0~1の値をとり,1に近づくほど説明できているとされています. 仮説 ⽴て 収集 把握 モデル 推定

    解釈 ・より正確にいうと,被説明変数の変動のうち,どの程度予測値がその変動を捉えられているのか?という指標 ・重回帰分析では,⾃由度調整済み決定係数(Adjusted R-squared)を⽤いる. 今回の分析では,⾃由度調整済み決定係数は0.252となっている. 賃⾦ 教育年数 賃⾦ 教育年数 決定係数は1に近い 決定係数は0に近い
  11. 単回帰分析との⽐較からバイアスを考えてみる 単回帰分析と重回帰分析とで教育年数の賃⾦に対する限界効果が異なります. どうしてでしょう? 03 バイアス⼊⾨ −. + . × +

    . ×_ − . ×_ + 21 _ = −. + . × + _ = 単回帰分析では限界効果が過剰に推定されてしまっています. →説明変数の不⾜により推定量が偏ることを⽋落変数バイアスといいます.
  12. ⽋落変数バイアスの直感的理解 03 バイアス⼊⾨ 22 _ _ _も_に対して有意な影響を持 っている場合に, のみで単回帰分析を⾏うと, _の_に対する影響が

    を通して, に上乗せされるイメージです. (あくまでイメージです.) 厳密にいうと説明変数と誤差項が相関しているからです. 単回帰分析での推定量が過剰に推定されている訳はざっくりこんな感じです. +の効果 (正の相関) +の効果 (正の相関) 単回帰分析 ※1: 詳しくは⼭本(2015)P.86~を参照してください.