Rで計量経済学#5 プロビット・ロジットモデル

R Lecture #5 Tomoya Ozawa 離散選択モデル -2択に確率で答える-

2 Goal ＆ Agenda 1．どういう仮説を検証する際に⼆項モデルが役⽴つかを理解する 2．離散選択モデルをRで実装できるようになる 02 Rでの実装 01 離散選択
モデル 03 三⽥論コンビニ班 ※⼭本（2015）P. 104- 参照．

モデル 03 三⽥論コンビニ班 ※⼭本（2015）P. 104- 参照．

4 01 離散選択モデルとは？今までは被説明変数が賃⾦，賃貸料など連続した数値でしたが，｛参⼊する，参⼊しない｝といった2値のみをとるケースも少なくありません．⼈⼝が1000⼈増加すると，企業が参⼊する”確率”がどの程度⾼まるのか？といった仮説が考えられますね．この”確率”は重回帰分析で推定することが出来るのでしょうか？振り返り

重回帰分析の限界被説明変数が2値のものに回帰分析を⽤いるとどうなるでしょう？ 2値を0, 1としてあげると確率として考えることが出来ますが…． 5 ⼈⼝ 1：参⼊する 0：参⼊しない問題点1 ・確率が1を超えたり負の値をとってしまい，
確率が定義出来なくなる．問題点2 ・誤差項の分散が不均⼀になり， OLS推定だとバイアスがかかる．回帰直線（線形確率モデル） 01 離散選択モデルとは？

離散選択モデルここで登場する分析⼿法が離散選択モデルになります． 0, 1の2値の被説明変数に対して，確率を推定する分析⼿法です！ 6 ⼈⼝ 1：参⼊する 0：参⼊しない線形確率モデル 01
離散選択モデルとは？⼈⼝ 1：参⼊する 0：参⼊しない離散選択モデル

離散選択モデル：数式でのイメージ消費者が商品を購⼊するか否かを数式で捉えてみましょう．離散選択モデルで書くと， ∗が商品から得られる効⽤に相当しますね． 7 01 離散選択モデルとは？ = # ∶
購入する. ∶ 購入しない. とします． ∗ = + ×価格 + ×質 … = ( ( ∗ ≥ ) ( ∗ < ) = = ( + ×価格 + ×質 … ) 効⽤が以上であれば購⼊することを⽰すと，選択確率は以下の式で推定する． ※ は関数を表しています．推定するモデルによって異なります．

離散選択モデルプロビットモデルとロジットモデルの2つがあります．それぞれ別の関数を⽤いて，0, 1の間に予測値をおさめているイメージです． 8 01 離散選択モデルとは？プロビットモデルロジットモデル正規分布関数
ロジスティック分布関数 ※ロジスティック分布の⽅が裾が⻑い分布になっています．つまり，分散が⼤きいです．

離散選択モデルパラメータの推定⽅法とその解釈がOLS推定とは異なります．解釈については実際に分析しながら理解していきましょう． 9 01 離散選択モデルとは？推定⽅法：最尤法解釈：平均限界効果尤度関数を最⼤化させるパラメータを推定しています．
尤度関数はモデルがどの程度⼿元のデータを再現するかを⽰します．パラメータをそのまま解釈することは出来ません．平均的にどのくらい確率が変化するのかを⽰す値になります． ※平均限界効果の他にも期待限界効果がある．

【応⽤編】最尤法とは？最尤法とは，モデルから⼿元のデータが現れる確率を最⼤にするようにパラメータを探索する⼿法 10 01 離散選択モデルとは？ = × × …×
= , , ⋯ , ⼿元のデータがn個あるとするパラメータをとすると尤度関数は以下のように書けるこの尤度関数を最⼤化するパラメータを計算する．（計算する際は対数尤度関数．指数があると⼤変だから） ※ ：パラメータがである時にデータが予測される確率．条件付き確率ですね！ max () = 7 (

モデル 03 三⽥論コンビニ班 ※⼭本（2015）P. 104- 参照．

12 今⽇のTry ドミナント戦略が取られていれば，この仮説の通りになっているはず… Familymartの参⼊⾏動に関するデータを⽤いて，検証してみます． 2011年〜2018年の沖縄のコンビニエンスストア市場において，⾃社の店舗が多い地域ほど出店確率が⾼まるのでは？という仮説を検証しよう！ 02 Rでの実装

13 本⽇のデータ：メイン本⽇は Mitaron_convenience.csv というファイルをメインに使います． ▼データの詳細 ▼こんなデータのはず変数の名前変数の内容 Mesh_area
メッシュ地域番号 Open_year 参⼊年 Familymart_Entry Familymartが参⼊したら1をとるダミー変数 LAWSON_Entry LAWSONが参⼊したら1をとるダミー変数 Familymart_existed Familymartの既存店舗数 LAWSON_existed LAWSONの既存店舗数 pop メッシュ地域の⼈⼝ n_employee メッシュ地域の従業員数 super_count メッシュ地域に出店しているスーパーの店舗数

14 本⽇のデータ：メイン沖縄本島を500m四⽅で区切った4次メッシュ地域を観察単位としています．コンビニの商圏が⼀般に500mと⾔われているためです． 4次メッシュ ※国⼟技術政策総合研究所研究資料より⼀部加⼯ ※メッシュ統計について詳しく知りたい⽅はhttps://www.stat.go.jp/data/mesh/gaiyou.html ◦メッシュデータの良いところ・企業の出店情報（参⼊地域）に公的統計のデータを組み合わせることができる！
＝参⼊の状況がある程度再現可能になる．・豊富な公的統計データ・住所がわかれば、属するメッシュ地域も簡単に計算することが出来ます．

15 本⽇のデータ：おまけ Familymart_mesh.csv というファイルもちょっと使います． Google Driveのサブゼミ -> R講義 -> Data
にあります． ▼データの詳細 ▼こんなデータのはず変数の名前変数の内容 store_name 店舗名 store_address 参⼊した場所の住所 opening_date 参⼊した⽇付 opening_year 参⼊した年 longitude 経度 latitude 緯度

【おまけ編】データの把握：地理データの可視化 Rでは簡単に位置情報を可視化することが出来ます．緯度と経度のデータを⽤いてプロットしてみましょう！仮説⽴て収集把握モデル推定解釈
# leafletというライブラリを今回は使⽤します # install.packages("leaflet") library(leaflet) # R上で地図を作成します # map <- leaflet(df_map) %>% addTiles() # 経度と緯度で場所を指定して，プロットします．⾊はFamilymartなので緑⾊にしてみました# map %>% addCircles(lng = ~ longitude, lat = ~latitude, color = "green") 16

17 計量経済学モデル構築：モデル今回検証したいことをモデル化してみましょう．⾃社の参⼊状況に加えて，地域特性を⽰す⼈⼝を説明変数に加えてみます．仮説⽴て収集把握モデル推定
解釈・この時， ∗は参⼊した際に得られる期待利潤にようなものを⽰しているイメージですね。期待利潤 ∗がより⼤きければ参⼊の意思決定をするみたいな感じです． _ = = ( + ×_ + × ) ∗ = + ×_ + × _ = ( ∶ 参入する ( ∗ ≥ ) ∶ 参入しない ( ∗ < )

18 推定：プロビットモデル仮説⽴て収集把握モデル推定解釈 #
プロビットモデルで推定して，その結果をprobit1という名前の箱に格納 # probit1 = glm( Familymart_Entry ~ Familymart_existed + pop, family = binomial(link = "probit"), data = df_fam) まずはプロビットモデルで推定してみましょう！・glm関数を使って離散選択モデルを推定します． glm(被説明変数 ~ 説明変数① + 説明変数②…, family = binomial(link = “logit” or = ”probit“ ), data = データ名 )

19 解釈：離散選択モデルの結果の⾒⽅：統計的有意分析結果を確認してみましょう！仮説⽴て収集把握モデル推定解釈
# 分析結果を出す # summary(probit1) ・プロビットモデル，ロジットモデルの両⽅とも同じ操作になります．係数をそのまま解釈できないことに注意してください！・ここで⾒るのは統計的に有意かどうかですかね．AICでモデルの評価は出来ます． AICが⼩さい⽅が良いモデルと⾔えます．

20 解釈：離散選択モデルの結果の⾒⽅：平均限界効果係数はそのまま解釈できないので，marginsというライブラリを使⽤して，限界効果を求めてみます．仮説⽴て収集把握モデル推定
解釈 # 平均限界効果を出す # install.packages("margins") library(margins) margins(probit1) summary(margins(probit1)) 【平均限界効果の解釈の仕⽅】・平均限界効果は，Xが1単位増加した際に確率が平均的にどのくらい変動するかを⽰したものです．・既存のファミリーマートの店舗数が1店舗増えると，平均して参⼊する確率が4.2%低下する．・⼈⼝が1⼈増加した場合，参⼊する確率は2.068e-03％増加する．つまり⼈⼝が1000⼈増えたら，2.068%増加する．

21 解釈：離散選択モデルの結果の⾒⽅：精度離散選択モデルでは決定係数は算出されません．その代わりに擬似決定係数というものがあります．仮説⽴て収集把握モデル推定
解釈 # 分析結果を出す # install.packages("BaylorEdPsych") library(BaylorEdPsych) PseudoR2(probit1) ・擬似決定係数の他にも対数尤度や混同⾏列に基づく正解率, F値などがあります．

22 推定：ロジットモデル仮説⽴て収集把握モデル推定解釈 #
プロビットモデルで推定して，その結果をprobit1という名前の箱に格納 # logit1 = glm( Familymart_Entry ~ Familymart_existed + pop, family = binomial(link = "logit"), data = df_fam) 次はロジットモデルで推定してみましょう！ linkにlogitと指定すれば，ロジットモデルになります．・glm関数を使って離散選択モデルを推定します． glm(被説明変数 ~ 説明変数① + 説明変数②…, family = binomial(link = “logit” or = ”probit“ ), data = データ名 )

23 おまけ：モデル今までのモデルに加えて，競合の参⼊状況も考慮に⼊れて分析してみましょう．仮説⽴て収集把握モデル推定解釈
・2019年にセブンイレブンが沖縄に初出店したので，競合はLAWSONだけなんです．その他の変数も加えてみると，⾯⽩いかもしれません． _ = = ( + ×_ + ×_ + × ) ∗ = + ×_ + ×_ +× _ = ( ∶ 参入する ( ∗ ≥ ) ∶ 参入しない ( ∗ < )

モデル 03 三⽥論コンビニ班 ※⼭本（2015）P. 104- 参照．

Rで計量経済学#5 プロビット・ロジットモデル

Rで計量経済学#5 プロビット・ロジットモデル

TomoyaOzawa-DA

More Decks by TomoyaOzawa-DA

Other Decks in Education

Featured

Transcript

R Lecture #5 Tomoya Ozawa 離散選択モデル -2択に確率で答える-

2 Goal ＆ Agenda 1．どういう仮説を検証する際に⼆項モデルが役⽴つかを理解する 2．離散選択モデルをRで実装できるようになる 02 Rでの実装 01 離散選択

3 Goal ＆ Agenda 1．どういう仮説を検証する際に⼆項モデルが役⽴つかを理解する 2．離散選択モデルをRで実装できるようになる 02 Rでの実装 01 離散選択

離散選択モデルここで登場する分析⼿法が離散選択モデルになります． 0, 1の2値の被説明変数に対して，確率を推定する分析⼿法です！ 6 ⼈⼝ 1：参⼊する 0：参⼊しない線形確率モデル 01

離散選択モデル：数式でのイメージ消費者が商品を購⼊するか否かを数式で捉えてみましょう．離散選択モデルで書くと， ∗が商品から得られる効⽤に相当しますね． 7 01 離散選択モデルとは？ = # ∶

離散選択モデルプロビットモデルとロジットモデルの2つがあります．それぞれ別の関数を⽤いて，0, 1の間に予測値をおさめているイメージです． 8 01 離散選択モデルとは？プロビットモデルロジットモデル正規分布関数

【応⽤編】最尤法とは？最尤法とは，モデルから⼿元のデータが現れる確率を最⼤にするようにパラメータを探索する⼿法 10 01 離散選択モデルとは？ = × × …×

11 Goal ＆ Agenda 1．どういう仮説を検証する際に⼆項モデルが役⽴つかを理解する 2．離散選択モデルをRで実装できるようになる 02 Rでの実装 01 離散選択

13 本⽇のデータ：メイン本⽇は Mitaron_convenience.csv というファイルをメインに使います． ▼データの詳細 ▼こんなデータのはず変数の名前変数の内容 Mesh_area

15 本⽇のデータ：おまけ Familymart_mesh.csv というファイルもちょっと使います． Google Driveのサブゼミ -> R講義 -> Data

【おまけ編】データの把握：地理データの可視化 Rでは簡単に位置情報を可視化することが出来ます．緯度と経度のデータを⽤いてプロットしてみましょう！仮説⽴て収集把握モデル推定解釈

17 計量経済学モデル構築：モデル今回検証したいことをモデル化してみましょう．⾃社の参⼊状況に加えて，地域特性を⽰す⼈⼝を説明変数に加えてみます．仮説⽴て収集把握モデル推定

18 推定：プロビットモデル仮説⽴て収集把握モデル推定解釈 #

19 解釈：離散選択モデルの結果の⾒⽅：統計的有意分析結果を確認してみましょう！仮説⽴て収集把握モデル推定解釈

20 解釈：離散選択モデルの結果の⾒⽅：平均限界効果係数はそのまま解釈できないので，marginsというライブラリを使⽤して，限界効果を求めてみます．仮説⽴て収集把握モデル推定

21 解釈：離散選択モデルの結果の⾒⽅：精度離散選択モデルでは決定係数は算出されません．その代わりに擬似決定係数というものがあります．仮説⽴て収集把握モデル推定

22 推定：ロジットモデル仮説⽴て収集把握モデル推定解釈 #

23 おまけ：モデル今までのモデルに加えて，競合の参⼊状況も考慮に⼊れて分析してみましょう．仮説⽴て収集把握モデル推定解釈

24 Goal ＆ Agenda 1．どういう仮説を検証する際に⼆項モデルが役⽴つかを理解する 2．離散選択モデルをRで実装できるようになる 02 Rでの実装 01 離散選択