Slide 1

Slide 1 text

データ解析のための統計モデリング入門    6章  GLMの応用範囲を広げる   (6.1  ~  6.5) Yoshifumi  Seki   (Gunosy  Inc)   2014.09.30@Gunosy研究会

Slide 2

Slide 2 text

これまでのおさらい •  ポアソン分布・対数リンク関数のGLMを題材 に   – どのようにデータからモデルを作るか   – どのように良いモデルを選ぶか   – どうしたらモデルが本当に良いことがわかるか?  

Slide 3

Slide 3 text

本章でやること •  さまざまなGLMを取り扱う   – 確率分布・リンク関数・線形予測子を組み合わせ る   •  ロジステック回帰   •  ポアソン回帰(次回)   •  正規分布、ガンマ分布(次回)   – 交互作用項   – オフセット項(次回)  

Slide 4

Slide 4 text

GLMのよく使われる組み合わせ 分布 リンク関数 特性 二項分布 logit 離散・上限あり ポアソン分布 log 離散・上限なし ガンマ分布 log(正準リンク関数はinverseだが 使いにくい) 連続値・ゼロ以上 正規分布 indenGty 連続値

Slide 5

Slide 5 text

例題:  上限のあるカウントデータ •  ある架空植物の個体iそれぞれにおいて   – Ni個の観察種子の打ち生きているのはyi個   •  Niはどの個体でも8個   •  全部で100個の個体を調べる   – 個体サイズ:  xi   – 肥料を与えたかどうか:  fi     •  与えていたらfi=T,  与えていなければfi=C

Slide 6

Slide 6 text

•  サイズが大きくなると生存する種子の 数が多くなる   •  肥料をやると生存種子数が多くなる

Slide 7

Slide 7 text

二項分布で表現するカウントデータ •  N個のうちy個が生存していたという構造のカ ウントデータ   – 上限が存在する離散値   •  ポアソン分布のときは上限がどこにあるかわ からないデータ   •  n=1,  y=[0,  1]のときをベルヌーイ分布と呼ぶ

Slide 8

Slide 8 text

ロジスティック回帰とロジット関数 •  ロジスティック関数 ロジット関数はロジスティック関数の逆関数

Slide 9

Slide 9 text

パラメータ推定 •  尤度関数   •  最尤推定する   – R   •  glm(cbind(y,  N-­‐y)~  x+f,  data=d,  family=binomial)   – 同様にAICでモデル選択可能  

Slide 10

Slide 10 text

ロジット関数の意味・解釈 •  ロジット関数と線形予測子   – 左辺をオッズと呼ぶ   – どのぐらい増えたらオッズがどれだけ増えるかを 示す  

Slide 11

Slide 11 text

交互作用項 •  交互作用項   –  例題:  x_iとf_iの積   –  R   •  glm(cbind(y,  N-­‐y)~  x*f,  data=d,  family=binomial)   –  x*fはx+y+x:fを省略している   •  むやみに入れないほうが良い   –  交互作用項をいれてAICが改善しても、過大評価して いることが多い   –  個体差・場所差によるばらつきの影響の可能性が高 い   •  7章以降で説明するモデルを使えば、交互作用項の見かけ 上の影響は消える

Slide 12

Slide 12 text

割り算値のモデリングをやめよう •  なぜわざわざ二項分布のモデルを使った か?   – 情報が失われる   •  1000打数300安打の打者と100打数30安打の打者を 同等に評価してよいのか?   – 変換された情報がどのような分布に従うのかわ からなくなる