Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Gunosy研究会]データ解析のための統計モデリング6章(前篇)

D490d541e3d1ab04d5203e8b210b2233?s=47 ysekky
September 29, 2014

 [Gunosy研究会]データ解析のための統計モデリング6章(前篇)

D490d541e3d1ab04d5203e8b210b2233?s=128

ysekky

September 29, 2014
Tweet

More Decks by ysekky

Other Decks in Research

Transcript

  1. データ解析のための統計モデリング入門    6章  GLMの応用範囲を広げる   (6.1  ~  6.5) Yoshifumi  Seki

      (Gunosy  Inc)   2014.09.30@Gunosy研究会
  2. これまでのおさらい •  ポアソン分布・対数リンク関数のGLMを題材 に   – どのようにデータからモデルを作るか   – どのように良いモデルを選ぶか   – どうしたらモデルが本当に良いことがわかるか?

     
  3. 本章でやること •  さまざまなGLMを取り扱う   – 確率分布・リンク関数・線形予測子を組み合わせ る   •  ロジステック回帰  

    •  ポアソン回帰(次回)   •  正規分布、ガンマ分布(次回)   – 交互作用項   – オフセット項(次回)  
  4. GLMのよく使われる組み合わせ 分布 リンク関数 特性 二項分布 logit 離散・上限あり ポアソン分布 log 離散・上限なし

    ガンマ分布 log(正準リンク関数はinverseだが 使いにくい) 連続値・ゼロ以上 正規分布 indenGty 連続値
  5. 例題:  上限のあるカウントデータ •  ある架空植物の個体iそれぞれにおいて   – Ni個の観察種子の打ち生きているのはyi個   •  Niはどの個体でも8個  

    •  全部で100個の個体を調べる   – 個体サイズ:  xi   – 肥料を与えたかどうか:  fi     •  与えていたらfi=T,  与えていなければfi=C
  6. •  サイズが大きくなると生存する種子の 数が多くなる   •  肥料をやると生存種子数が多くなる

  7. 二項分布で表現するカウントデータ •  N個のうちy個が生存していたという構造のカ ウントデータ   – 上限が存在する離散値   •  ポアソン分布のときは上限がどこにあるかわ からないデータ

      •  n=1,  y=[0,  1]のときをベルヌーイ分布と呼ぶ
  8. ロジスティック回帰とロジット関数 •  ロジスティック関数 ロジット関数はロジスティック関数の逆関数

  9. パラメータ推定 •  尤度関数   •  最尤推定する   – R   • 

    glm(cbind(y,  N-­‐y)~  x+f,  data=d,  family=binomial)   – 同様にAICでモデル選択可能  
  10. ロジット関数の意味・解釈 •  ロジット関数と線形予測子   – 左辺をオッズと呼ぶ   – どのぐらい増えたらオッズがどれだけ増えるかを 示す  

  11. 交互作用項 •  交互作用項   –  例題:  x_iとf_iの積   –  R

      •  glm(cbind(y,  N-­‐y)~  x*f,  data=d,  family=binomial)   –  x*fはx+y+x:fを省略している   •  むやみに入れないほうが良い   –  交互作用項をいれてAICが改善しても、過大評価して いることが多い   –  個体差・場所差によるばらつきの影響の可能性が高 い   •  7章以降で説明するモデルを使えば、交互作用項の見かけ 上の影響は消える
  12. 割り算値のモデリングをやめよう •  なぜわざわざ二項分布のモデルを使った か?   – 情報が失われる   •  1000打数300安打の打者と100打数30安打の打者を 同等に評価してよいのか?

      – 変換された情報がどのような分布に従うのかわ からなくなる