Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rで計量経済学#5 プロビット・ロジットモデル
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
TomoyaOzawa-DA
August 15, 2020
Education
580
0
Share
Rで計量経済学#5 プロビット・ロジットモデル
所属している研究会で扱った資料になります。
内容について間違いがある可能性もありますので、その際にはご連絡ください。
TomoyaOzawa-DA
August 15, 2020
More Decks by TomoyaOzawa-DA
See All by TomoyaOzawa-DA
Rで計量経済学#0 事前準備
tom01
0
280
Rで計量経済学#1 単回帰分析
tom01
0
670
Rで計量経済学#2 重回帰分析
tom01
0
210
Rで計量経済学#3 重回帰分析とバイアス
tom01
0
390
Rで計量経済学#4 操作変数法
tom01
0
2.3k
Rで計量経済学#6 パネルデータ分析
tom01
0
6k
Other Decks in Education
See All in Education
理工学系 第1回大学院説明会2026|東京科学大学(Science Tokyo)
sciencetokyo
PRO
1
1.6k
自己紹介 / who-am-i
yasulab
6
6.6k
✅ レポート採点基準 / How Your Reports Are Assessed
yasslab
PRO
0
330
Tangible, Embedded and Embodied Interaction - Lecture 7 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
2.2k
SL AMIGOS 教育格差と私たちの取り組み - スリランカの支援学校への支援プロジェクト:リシンドゥ リオ 氏 (別府溝部学園短期大学 ビジネス観光コース 留学生):2720 Japan O.K. ロータリーEクラブ2026年4月6日卓話
2720japanoke
0
540
[2026前期火5] 論理学(京都大学文学部 前期 第3回)「形式言語と四つのキーワード:メタ・構成・意味論・ハーモニー」
yatabe
0
310
生成AIを授業の相棒にするデータサイエンス入門(「デジタル✕探究」イノベーターズフォーラム テクニカルセッション講演資料)
datascientistsociety
PRO
0
160
AI時代において英語学習は本当に必要? ~未経験からのバイリンガルキャリアの始め方を教えます~
kekekenta
0
130
[2026前期火5] 論理学(京都大学文学部 前期 第2回)「論理的な正しさはどこにあるのか」
yatabe
0
740
小学校5,6年生向けキャリア教育 大人になるまでの道
sat
PRO
8
3.5k
LinkedIn
matleenalaakso
0
4.1k
吉祥寺.pmは1つじゃない — 複数イベント並走運営の12年 —
magnolia
0
380
Featured
See All Featured
Bash Introduction
62gerente
615
210k
We Have a Design System, Now What?
morganepeng
55
8.1k
Optimizing for Happiness
mojombo
378
71k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
Design in an AI World
tapps
1
200
Evolving SEO for Evolving Search Engines
ryanjones
0
180
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.9k
Designing for Timeless Needs
cassininazir
0
210
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
360
Building Adaptive Systems
keathley
44
3k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
210
The Language of Interfaces
destraynor
162
26k
Transcript
R Lecture #5 Tomoya Ozawa 離散選択モデル -2択に確率で答える-
2 Goal & Agenda 1.どういう仮説を検証する際に⼆項モデルが役⽴つかを理解する 2.離散選択モデルをRで実装できるようになる 02 Rでの実装 01 離散選択
モデル 03 三⽥論 コンビニ班 ※⼭本(2015)P. 104- 参照.
3 Goal & Agenda 1.どういう仮説を検証する際に⼆項モデルが役⽴つかを理解する 2.離散選択モデルをRで実装できるようになる 02 Rでの実装 01 離散選択
モデル 03 三⽥論 コンビニ班 ※⼭本(2015)P. 104- 参照.
4 01 離散選択モデルとは? 今までは被説明変数が賃⾦,賃貸料など連続した数値でしたが, {参⼊する,参⼊しない}といった2値のみをとるケースも少なくありません. ⼈⼝が1000⼈増加すると,企業が参⼊する”確率”がどの程度⾼まるのか?といった仮説が考えられますね. この”確率”は重回帰分析で推定することが出来るのでしょうか? 振り返り
重回帰分析の限界 被説明変数が2値のものに回帰分析を⽤いるとどうなるでしょう? 2値を0, 1としてあげると確率として考えることが出来ますが…. 5 ⼈⼝ 1:参⼊する 0:参⼊しない 問題点1 ・確率が1を超えたり負の値をとってしまい,
確率が定義出来なくなる. 問題点2 ・誤差項の分散が不均⼀になり, OLS推定だとバイアスがかかる. 回帰直線(線形確率モデル) 01 離散選択モデルとは?
離散選択モデル ここで登場する分析⼿法が離散選択モデルになります. 0, 1の2値の被説明変数に対して,確率を推定する分析⼿法です! 6 ⼈⼝ 1:参⼊する 0:参⼊しない 線形確率モデル 01
離散選択モデルとは? ⼈⼝ 1:参⼊する 0:参⼊しない 離散選択モデル
離散選択モデル:数式でのイメージ 消費者が商品を購⼊するか否かを数式で捉えてみましょう. 離散選択モデルで書くと, ∗が商品から得られる効⽤に相当しますね. 7 01 離散選択モデルとは? = # ∶
購入する. ∶ 購入しない. とします. ∗ = + ×価格 + ×質 … = ( ( ∗ ≥ ) ( ∗ < ) = = ( + ×価格 + ×質 … ) 効⽤が以上であれば購⼊することを⽰すと, 選択確率は以下の式で推定する. ※ は関数を表しています.推定するモデルによって異なります.
離散選択モデル プロビットモデルとロジットモデルの2つがあります. それぞれ別の関数を⽤いて,0, 1の間に予測値をおさめているイメージです. 8 01 離散選択モデルとは? プロビットモデル ロジットモデル 正規分布関数
ロジスティック分布関数 ※ロジスティック分布の⽅が裾が⻑い分布になっています.つまり,分散が⼤きいです.
離散選択モデル パラメータの推定⽅法とその解釈がOLS推定とは異なります. 解釈については実際に分析しながら理解していきましょう. 9 01 離散選択モデルとは? 推定⽅法:最尤法 解釈:平均限界効果 尤度関数を最⼤化させる パラメータを推定しています.
尤度関数はモデルがどの程度 ⼿元のデータを再現するかを⽰します. パラメータをそのまま解釈する ことは出来ません. 平均的にどのくらい確率が 変化するのかを⽰す値になります. ※平均限界効果の他にも期待限界効果がある.
【応⽤編】最尤法とは? 最尤法とは,モデルから⼿元のデータが現れる確率を最⼤にするように パラメータを探索する⼿法 10 01 離散選択モデルとは? = × × …×
= , , ⋯ , ⼿元のデータがn個あるとする パラメータをとすると尤度関数は以下のように書ける この尤度関数を最⼤化するパラメータを計算する. (計算する際は対数尤度関数.指数があると⼤変だから) ※ :パラメータがである時にデータ が予測される確率.条件付き確率ですね! max () = 7 (
11 Goal & Agenda 1.どういう仮説を検証する際に⼆項モデルが役⽴つかを理解する 2.離散選択モデルをRで実装できるようになる 02 Rでの実装 01 離散選択
モデル 03 三⽥論 コンビニ班 ※⼭本(2015)P. 104- 参照.
12 今⽇のTry ドミナント戦略が取られていれば,この仮説の通りになっているはず… Familymartの参⼊⾏動に関するデータを⽤いて,検証してみます. 2011年〜2018年の沖縄のコンビニエンスストア市場において, ⾃社の店舗が多い地域ほど出店確率が⾼まるのでは?という仮説を検証しよう! 02 Rでの実装
13 本⽇のデータ:メイン 本⽇は Mitaron_convenience.csv というファイルをメインに使います. ▼データの詳細 ▼こんなデータのはず 変数の名前 変数の内容 Mesh_area
メッシュ地域番号 Open_year 参⼊年 Familymart_Entry Familymartが参⼊したら1をとるダミー変数 LAWSON_Entry LAWSONが参⼊したら1をとるダミー変数 Familymart_existed Familymartの既存店舗数 LAWSON_existed LAWSONの既存店舗数 pop メッシュ地域の⼈⼝ n_employee メッシュ地域の従業員数 super_count メッシュ地域に出店しているスーパーの店舗数
14 本⽇のデータ:メイン 沖縄本島を500m四⽅で区切った4次メッシュ地域を観察単位としています. コンビニの商圏が⼀般に500mと⾔われているためです. 4次メッシュ ※国⼟技術政策総合研究所研究資料より⼀部加⼯ ※メッシュ統計について詳しく知りたい⽅はhttps://www.stat.go.jp/data/mesh/gaiyou.html ◦メッシュデータの良いところ ・企業の出店情報(参⼊地域)に公的統計の データを組み合わせることができる!
=参⼊の状況がある程度再現可能になる. ・豊富な公的統計データ ・住所がわかれば、属するメッシュ地域も 簡単に計算することが出来ます.
15 本⽇のデータ:おまけ Familymart_mesh.csv というファイルもちょっと使います. Google Driveのサブゼミ -> R講義 -> Data
にあります. ▼データの詳細 ▼こんなデータのはず 変数の名前 変数の内容 store_name 店舗名 store_address 参⼊した場所の住所 opening_date 参⼊した⽇付 opening_year 参⼊した年 longitude 経度 latitude 緯度
【おまけ編】データの把握:地理データの可視化 Rでは簡単に位置情報を可視化することが出来ます. 緯度と経度のデータを⽤いてプロットしてみましょう! 仮説 ⽴て 収集 把握 モデル 推定 解釈
# leafletというライブラリを今回は使⽤します # install.packages("leaflet") library(leaflet) # R上で地図を作成します # map <- leaflet(df_map) %>% addTiles() # 経度と緯度で場所を指定して,プロットします.⾊はFamilymartなので緑⾊にしてみました# map %>% addCircles(lng = ~ longitude, lat = ~latitude, color = "green") 16
17 計量経済学モデル構築:モデル 今回検証したいことをモデル化してみましょう. ⾃社の参⼊状況に加えて,地域特性を⽰す⼈⼝を説明変数に加えてみます. 仮説 ⽴て 収集 把握 モデル 推定
解釈 ・この時, ∗は参⼊した際に得られる期待利潤にようなものを⽰しているイメージですね。 期待利潤 ∗がより⼤きければ参⼊の意思決定をするみたいな感じです. _ = = ( + ×_ + × ) ∗ = + ×_ + × _ = ( ∶ 参入する ( ∗ ≥ ) ∶ 参入しない ( ∗ < )
18 推定:プロビットモデル 仮説 ⽴て 収集 把握 モデル 推定 解釈 #
プロビットモデルで推定して,その結果をprobit1という名前の箱に格納 # probit1 = glm( Familymart_Entry ~ Familymart_existed + pop, family = binomial(link = "probit"), data = df_fam) まずはプロビットモデルで推定してみましょう! ・glm関数を使って離散選択モデルを推定します. glm(被説明変数 ~ 説明変数① + 説明変数②…, family = binomial(link = “logit” or = ”probit“ ), data = データ名 )
19 解釈:離散選択モデルの結果の⾒⽅:統計的有意 分析結果を確認してみましょう! 仮説 ⽴て 収集 把握 モデル 推定 解釈
# 分析結果を出す # summary(probit1) ・プロビットモデル,ロジットモデルの両⽅とも同じ操作になります. 係数をそのまま解釈できないことに注意してください! ・ここで⾒るのは統計的に有意かどうかですかね.AICでモデルの評価は出来ます. AICが⼩さい⽅が良いモデルと⾔えます.
20 解釈:離散選択モデルの結果の⾒⽅:平均限界効果 係数はそのまま解釈できないので,marginsというライブラリを使⽤して, 限界効果を求めてみます. 仮説 ⽴て 収集 把握 モデル 推定
解釈 # 平均限界効果を出す # install.packages("margins") library(margins) margins(probit1) summary(margins(probit1)) 【平均限界効果の解釈の仕⽅】 ・平均限界効果は,Xが1単位増加した際に確率が平均的にどのくらい変動するかを⽰したものです. ・既存のファミリーマートの店舗数が1店舗増えると,平均して参⼊する確率が4.2%低下する. ・⼈⼝が1⼈増加した場合,参⼊する確率は2.068e-03%増加する.つまり⼈⼝が1000⼈増えたら,2.068%増加する.
21 解釈:離散選択モデルの結果の⾒⽅:精度 離散選択モデルでは決定係数は算出されません. その代わりに擬似決定係数というものがあります. 仮説 ⽴て 収集 把握 モデル 推定
解釈 # 分析結果を出す # install.packages("BaylorEdPsych") library(BaylorEdPsych) PseudoR2(probit1) ・擬似決定係数の他にも対数尤度や混同⾏列に基づく正解率, F値などがあります.
22 推定:ロジットモデル 仮説 ⽴て 収集 把握 モデル 推定 解釈 #
プロビットモデルで推定して,その結果をprobit1という名前の箱に格納 # logit1 = glm( Familymart_Entry ~ Familymart_existed + pop, family = binomial(link = "logit"), data = df_fam) 次はロジットモデルで推定してみましょう! linkにlogitと指定すれば,ロジットモデルになります. ・glm関数を使って離散選択モデルを推定します. glm(被説明変数 ~ 説明変数① + 説明変数②…, family = binomial(link = “logit” or = ”probit“ ), data = データ名 )
23 おまけ:モデル 今までのモデルに加えて,競合の参⼊状況も考慮に⼊れて分析してみましょう. 仮説 ⽴て 収集 把握 モデル 推定 解釈
・2019年にセブンイレブンが沖縄に初出店したので,競合はLAWSONだけなんです. その他の変数も加えてみると,⾯⽩いかもしれません. _ = = ( + ×_ + ×_ + × ) ∗ = + ×_ + ×_ +× _ = ( ∶ 参入する ( ∗ ≥ ) ∶ 参入しない ( ∗ < )
24 Goal & Agenda 1.どういう仮説を検証する際に⼆項モデルが役⽴つかを理解する 2.離散選択モデルをRで実装できるようになる 02 Rでの実装 01 離散選択
モデル 03 三⽥論 コンビニ班 ※⼭本(2015)P. 104- 参照.