Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rで計量経済学#1 単回帰分析
Search
TomoyaOzawa-DA
August 15, 2020
Education
0
450
Rで計量経済学#1 単回帰分析
所属している研究会で扱った資料になります。
内容について間違いがある可能性もありますので、その際にはご連絡ください。
TomoyaOzawa-DA
August 15, 2020
Tweet
Share
More Decks by TomoyaOzawa-DA
See All by TomoyaOzawa-DA
Rで計量経済学#0 事前準備
tom01
0
230
Rで計量経済学#2 重回帰分析
tom01
0
180
Rで計量経済学#3 重回帰分析とバイアス
tom01
0
280
Rで計量経済学#4 操作変数法
tom01
0
1.5k
Rで計量経済学#5 プロビット・ロジットモデル
tom01
0
300
Rで計量経済学#6 パネルデータ分析
tom01
0
5k
Other Decks in Education
See All in Education
1113
cbtlibrary
0
290
2024年度秋学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2024. 12. 4)
akiraasano
PRO
0
110
認知情報科学科_キャリアデザイン_大学院の紹介
yuyakurodou
0
160
中野区ミライ★ライター倶楽部presents『MINT』
nakamuramikumirai
0
620
書を持って、自転車で町へ出よう
yuritaco
0
140
Introduction - Lecture 1 - Information Visualisation (4019538FNR)
signer
PRO
0
4.3k
1030
cbtlibrary
0
340
Bitcoin Lightning Network en pratique
rlifchitz
0
110
Zero to Hero
takesection
0
150
Ch2_-_Partie_1.pdf
bernhardsvt
0
140
HyRead2425
cbtlibrary
0
120
Da Necessidade da Devoção à Virgem Santíssima
cm_manaus
0
120
Featured
See All Featured
Designing for Performance
lara
604
68k
Adopting Sorbet at Scale
ufuk
74
9.2k
Gamification - CAS2011
davidbonilla
80
5.1k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
8
270
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.2k
Rails Girls Zürich Keynote
gr2m
94
13k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.3k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
12
950
Agile that works and the tools we love
rasmusluckow
328
21k
How to train your dragon (web standard)
notwaldorf
90
5.8k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Transcript
R Lecture #1 Tomoya Ozawa 実証分析⼊⾨ -とりあえずやってみる-
6⽉ 応⽤的な 分析 2 Overview 5⽉ 実証分析 ⼊⾨ 7⽉ パネル
データ分析 三⽥論で実証分析出来るようになりましょう! 3回のハンズオンと1回のグループワーク/⽉ で進める予定です.
02 とりあえず やってみる 3 Goal & Agenda 01 実証分析 とは?
03 理論的補⾜ 実証分析の全体像を掴んで,分析の⾯⽩さを感じましょう!
02 とりあえず やってみる 4 Goal & Agenda 01 実証分析 とは?
03 理論的補⾜ 実証分析の全体像を掴んで,分析の⾯⽩さを感じましょう!
5 実証分析とは, 01 実証分析とは? ※1: この理論では賃⾦の差は⼈的資本の差であるとしています.教育は⼈的資本への投資と捉えることが出来るみたいです. ※仮説は疑問形で書くと良いらしいです. データを⽤いて経済学的に根拠のある仮説を検証すること 仮説に対して統計学的視点から答える. 仮説の例:
⼈的資本理論1を根拠として,”教育年数が増えると,賃⾦は増加するのでは?” 新規参⼊阻⽌効果を根拠として,”競合ブランドの多い地域には,新規参⼊が起こりづらいのでは?”
6 分析の流れ 以下の流れに沿って,分析を⾏います. 何回か分析していく中で,この流れを掴んでいきましょう. 仮説⽴て データ収集 データ 加⼯&把握 計量経済学 モデル構築
推定 解釈 01 実証分析とは?
02 とりあえず やってみる 7 Goal & Agenda 01 実証分析 とは?
03 理論的補⾜ 実証分析の全体像を掴んで,分析の⾯⽩さを感じましょう!
8 今⽇のTry 先ほど紹介した⼈的資本理論をもとにこの仮説を考えました. これから3週間ほどは,この仮説を検証していきます. とりあえず⼿を動かして分析してみましょう. ”教育年数が増えると,賃⾦は増加するのでは?”という仮説を検証していきます! 02 とりあえずやってみる
9 どうやって検証するのか? 教育年数と賃⾦の関係を直線の式で表し, その直線の傾きが正であるかどうかをデータから検証する. 教育年数 賃⾦ 賃⾦ 教育年数 傾きが正 傾きが負
02 とりあえずやってみる
10 R studioの準備 新しいプロジェクトを⽴ち上げます.(プロジェクト名は“R Lecture”) “File” -> “New Project...” ->
“New Directory” -> ”New Project”で作れます! 仮説 ⽴て 収集 把握 モデル 推定 解釈
11 データの収集 female_labor.csvというデータを使⽤します. 先ほど作った“R Lecture”フォルダに保存してください. 仮説 ⽴て 収集 把握 モデル
推定 解釈 ▼データの詳細1 ▼こんなデータのはず ▼データの⾒⽅ ・4950時間働いている⼈は,年齢は35歳, 教育年数は12年で…
12 データの把握:データの読み込み データをR studioに⼊れましょう. R Scriptを開いて,以下のコードを書いてください! 仮説 ⽴て 収集 把握
モデル 推定 解釈 # 指定したcsvファイルを読み込んで,dfという名前をつける# df <- read.csv("female_labor.csv") # dfという名前のデータを表⽰する # View(df) ・他のコードの書き⽅として,以下のようなものがあります. この場合,データ名を書かずに直接ファイルをPC上から選ぶことが出来ます. df <- read.csv(file.choose())
13 データの把握:ヒストグラム作成 今回興味のある教育年数(education)と賃⾦(hourly_wage)に どのような値が⼊っているのかグラフを作って⾒てみましょう! 仮説 ⽴て 収集 把握 モデル 推定
解釈 # dfというデータの中のeducationという列に関して,ヒストグラムを作成する # hist(df$education) ・12年間の教育を受けている⼈がかなり多いことがわかります. ・賃⾦に関しても各⾃でヒストグラムを作成してみてください!
14 データの把握:2次元プロット X軸に教育年数(education),Y軸に賃⾦(hourly_wage)をプロットして, 両者の関係性を探ってみましょう! 仮説 ⽴て 収集 把握 モデル 推定
解釈 # x軸に教育年数,y軸に賃⾦をプロットする # plot(df$education, df$hourly_wage) ・教育年数が⻑い⼈の⽅が,賃⾦が⾼い傾向にありそうですね ・実証分析に⼊る前に,このようにデータの傾向を視覚的に把握しておく ことは⾮常に⼤事です. ・では計量経済学モデルを⽤いて,統計的に分析してみましょう!
15 計量経済学モデル構築:単回帰分析 単回帰モデル(≒直線の式)で考える.データから切⽚と傾きを推定する. 傾きが > であれば1,仮説が検証されたことになる. 賃金 = + ×教育年数
+ 仮説 ⽴て 収集 把握 モデル 推定 解釈 被説明変数 ⽬的変数 説明変数 従属変数 教育年数 賃⾦ 賃金 = + ×教育年数 ・賃金 : 番⽬の⼈の賃⾦ ・教育年数 : 番⽬の⼈の教育年数 ・:教育年数が1年増加した際の賃⾦の増加分を⽰す.限界効果という. ・ :回帰式から算出された予測値と実際の値との差分を⽰す.誤差項という. ※1: 厳密には統計的に有意である必要があります. これは次回に扱います.
16 推定:単回帰分析 Rで単回帰分析を実⾏してみましょう! 仮説 ⽴て 収集 把握 モデル 推定 解釈
## 計量経済学モデル構築 ## # 被説明変数を賃⾦,説明変数を教育年数として単回帰分析を実⾏して,その結果をoutという名 前の箱に格納 # out <- lm(df$hourly_wage ~ df$education) ・lmが回帰分析をしてもらうコードになります. ・今回は分析結果にoutという名前をつけていますが,なんでもOKです. ・ 別の書き⽅もあります. out <- lm(data = df, hourly_wage ~ education)
17 解釈:単回帰分析の結果の⾒⽅ 分析結果を確認してみましょう! 結果の詳細な⾒⽅(統計的有意,決定係数)は次回解説します. 仮説 ⽴て 収集 把握 モデル 推定
解釈 # 分析結果を出す # summary(out) 推定値 統計的有意性(P値) 決定係数 ◦この結果を数式で表すと… 賃金 = −. + . ×教育年数 1年教育年数が増えると, 0.45264ドル賃⾦が上昇すると解釈出来ます ⇨ > より仮説は検証された! ◦教育年数が12年の⼈の賃⾦は 賃金 = −. + . × つまり,2.24474ドルと予測されます
18 解釈:分析結果をプロットしてみる 推定した回帰式を可視化してみましょう! 仮説 ⽴て 収集 把握 モデル 推定 解釈
# x軸に教育年数,y軸に賃⾦をプロットする # plot(df$education, df$hourly_wage) # 回帰分析結果を追加でプロットする.col = で⾊の指定をしています.# abline(out, col = "blue") 確かに, 右肩あがりの直線であることがわかります.
02 とりあえず やってみる 19 Goal & Agenda 01 実証分析 とは?
03 理論的補⾜ 実証分析の全体像を掴んで,分析の⾯⽩さを感じましょう!
20 どうやってとは推定されているのか? 誤差 ( ) の⼆乗和1が最⼩となるようなとを計算しています(最⼩⼆乗法) 最⼩⼆乗法によって推定された値 (と) を最⼩⼆乗推定量といいます. 3
賃金 = 4 + 5 ×教育年数 03 理論的補⾜ 賃金 = + ×教育年数 + 教育年数 賃⾦ 表記⽅法を抑えておきましょう! ・賃金 :番⽬のデータ ・ $ 賃金 :予測値(今回だと最⼩⼆乗法で計算された値) ・賃金 :データの平均値 6 ↔ = 賃金 − − ×教育年数 ※1: 誤差にはプラス・マイナス共にあるので,2乗和を使⽤しています. ※2: 実測値とはデータ上の値のことです. 誤差 賃金の予測値 実測値2
21 どうやってとは推定されているのか? 以下の過程をPCが⾃動でやってくれています.(PCは計算機なんです) 03 理論的補⾜ 今回の場合,誤差は以下のように表されます. = 賃金 − −
×教育年数 誤差の2乗和は…(データの個数が個あるとすると) 9 " = 9 " (賃金 − − ×教育年数 ) 誤差の2乗和を最⼩にすると を求めるために, それぞれについて微分をした2式を連⽴⽅程式として解きます. 9 " = 9 " (賃金 − − ×教育年数 ) = 9 " = 9 " (賃金 − − ×教育年数 ) = ※1: この2式を正規⽅程式と⾔います.
22 注意:相関と因果 相関関係とは⽚⽅の変数が変化すれば,もう⽚⽅の変数も変化する傾向にあること. 因果関係は2つの変数の間に原因と結果の関係があること. 因果関係を⽰すのは⼤変です. データを分析していく上で相関と因果をしっかり区別しましょう. 今回の分析結果も因果関係があるかどうかはまた別の話です. 03 理論的補⾜
23 おまけ:相関があっても因果関係は… 03 理論的補⾜ ※https://www.tylervigen.com/spurious-correlations
24 参考書:相関と因果 「原因と結果」の経済学 オススメの本です.因果関係を測定する⽅法が載っています(因果推論). データ分析の⼒ 因果関係に迫る思考法 03 理論的補⾜ 効果検証⼊⾨