[Gunosy研究会]データ解析のための統計モデリング6章(前篇)

データ解析のための統計モデリング入門 6章 GLMの応用範囲を広げる (6.1 ~ 6.5) Yoshifumi Seki
(Gunosy Inc) 2014.09.30@Gunosy研究会

これまでのおさらい •  ポアソン分布・対数リンク関数のGLMを題材に – どのようにデータからモデルを作るか – どのように良いモデルを選ぶか – どうしたらモデルが本当に良いことがわかるか？

本章でやること •  さまざまなGLMを取り扱う – 確率分布・リンク関数・線形予測子を組み合わせる •  ロジステック回帰
•  ポアソン回帰(次回) •  正規分布、ガンマ分布(次回) – 交互作用項 – オフセット項(次回)

GLMのよく使われる組み合わせ分布リンク関数特性二項分布 logit 離散・上限ありポアソン分布 log 離散・上限なし
ガンマ分布 log(正準リンク関数はinverseだが使いにくい) 連続値・ゼロ以上正規分布 indenGty 連続値

例題: 上限のあるカウントデータ •  ある架空植物の個体iそれぞれにおいて – Ni個の観察種子の打ち生きているのはyi個 •  Niはどの個体でも8個
•  全部で100個の個体を調べる – 個体サイズ: xi – 肥料を与えたかどうか: fi •  与えていたらfi=T, 与えていなければfi=C

•  サイズが大きくなると生存する種子の数が多くなる •  肥料をやると生存種子数が多くなる

二項分布で表現するカウントデータ •  N個のうちy個が生存していたという構造のカウントデータ – 上限が存在する離散値 •  ポアソン分布のときは上限がどこにあるかわからないデータ
•  n=1, y=[0, 1]のときをベルヌーイ分布と呼ぶ

ロジスティック回帰とロジット関数 •  ロジスティック関数ロジット関数はロジスティック関数の逆関数

パラメータ推定 •  尤度関数 •  最尤推定する – R • 
glm(cbind(y, N-‐y)~ x+f, data=d, family=binomial) – 同様にAICでモデル選択可能

ロジット関数の意味・解釈 •  ロジット関数と線形予測子 – 左辺をオッズと呼ぶ – どのぐらい増えたらオッズがどれだけ増えるかを示す

交互作用項 •  交互作用項 –  例題: x_iとf_iの積 –  R
•  glm(cbind(y, N-‐y)~ x*f, data=d, family=binomial) –  x*fはx+y+x:fを省略している •  むやみに入れないほうが良い –  交互作用項をいれてAICが改善しても、過大評価していることが多い –  個体差・場所差によるばらつきの影響の可能性が高い •  7章以降で説明するモデルを使えば、交互作用項の見かけ上の影響は消える

割り算値のモデリングをやめよう •  なぜわざわざ二項分布のモデルを使ったか？ – 情報が失われる •  1000打数300安打の打者と100打数30安打の打者を同等に評価してよいのか？
– 変換された情報がどのような分布に従うのかわからなくなる

[Gunosy研究会]データ解析のための統計モデリング6章(前篇)

[Gunosy研究会]データ解析のための統計モデリング6章(前篇)

ysekky

More Decks by ysekky

Other Decks in Research

Featured

Transcript

データ解析のための統計モデリング入門 6章 GLMの応用範囲を広げる (6.1 ~ 6.5) Yoshifumi Seki

これまでのおさらい •  ポアソン分布・対数リンク関数のGLMを題材に – どのようにデータからモデルを作るか – どのように良いモデルを選ぶか – どうしたらモデルが本当に良いことがわかるか？

本章でやること •  さまざまなGLMを取り扱う – 確率分布・リンク関数・線形予測子を組み合わせる •  ロジステック回帰

GLMのよく使われる組み合わせ分布リンク関数特性二項分布 logit 離散・上限ありポアソン分布 log 離散・上限なし

例題: 上限のあるカウントデータ •  ある架空植物の個体iそれぞれにおいて – Ni個の観察種子の打ち生きているのはyi個 •  Niはどの個体でも8個

•  サイズが大きくなると生存する種子の数が多くなる •  肥料をやると生存種子数が多くなる

二項分布で表現するカウントデータ •  N個のうちy個が生存していたという構造のカウントデータ – 上限が存在する離散値 •  ポアソン分布のときは上限がどこにあるかわからないデータ

ロジスティック回帰とロジット関数 •  ロジスティック関数ロジット関数はロジスティック関数の逆関数

パラメータ推定 •  尤度関数 •  最尤推定する – R •

ロジット関数の意味・解釈 •  ロジット関数と線形予測子 – 左辺をオッズと呼ぶ – どのぐらい増えたらオッズがどれだけ増えるかを示す

交互作用項 •  交互作用項 –  例題: x_iとf_iの積 –  R

割り算値のモデリングをやめよう •  なぜわざわざ二項分布のモデルを使ったか？ – 情報が失われる •  1000打数300安打の打者と100打数30安打の打者を同等に評価してよいのか？