Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ解析のための統計モデリング入門6章 / Handbook-of-statistical-modeling-for-data-analysis-section6

masso
October 14, 2020

データ解析のための統計モデリング入門6章 / Handbook-of-statistical-modeling-for-data-analysis-section6

データ解析のための統計モデリング入門輪読会(6章)の発表スライド

masso

October 14, 2020
Tweet

More Decks by masso

Other Decks in Science

Transcript

  1. その前にリンク関数と線形予測子おさらい 線形予測子とは、説明変数xiの(べき乗も含む)線形結合のこと *P47 ({βi}をベクトル、{xi}を係数とした線形結合) 線形予測子 = β1 + β2 xi

    + β3 xi^2 リンク関数fとは、応答変数の平均値と線形予測子をつなぐ関数 f (応答変数の平均値) = β1 + β2 xi + β3 xi^2 ←自信ない…どっちがベクトル?
  2. 6.2節 例題:上限のあるカウントデータ 上限のあるカウントデータとは? (応答変数y∈{0,1...N}) → 「N個体の内y個が◦、N-y個が□」 -------------------------------- 本例題の説明  個体:i∈{1, 2,

    … 100} 個体iに対して  観察種子数 8個(Ni)  生存種子数 yi個 ∈{0...8}  生存確率 qi 個体iの1個の種子が生きている確率 i ∈{1...50}: 施肥処理ありfi=C i ∈{51...100}: 施肥処理なしfi=T
  3. 最も当てはまりの良い パラメータ {βj } を推定 尤度関数:L(y | θ) = Π{p(y

    | θ)} 対数尤度関数:log {L(y | θ)} = log [Π{p(y | θ)}]
  4. 最も当てはまりの良い パラメータ {βj} を推定 Rでの命令文 > glm( cbind( y, N-y

    ) ~ x + f, data = d, family = binomial ) 応答変数の指定 :cbind( 生存数, 死亡数 ) 二項分布を指定 :family = binomial
  5. 交互作用項を取り扱う際の注意点 • むやみに追加しない。なぜなら、 ◦ 説明変数が多い場合、「組合せ論的爆発」で増加していく ◦ それが何を表しているのか解釈ができなくなることがある • 現実問題では、交互作用項を多く含むモデルのAICが最良になることがよ くある。しかし、

    ◦ 交互作用の効果を過大推定してる可能性あり(つじつま合わせ) ◦ 現実では、説明変数では説明できない「個体差」「場所差」が発生するが、そ れらを考慮しないGLMをあてはめると過度に複雑なモデルが最良になる傾向 がある。
  6. 観測値をこねくり回して指標を創作しないように よくある創作 ・割算値:観測データ / 観測データ ・変数変換:応答変数 = log( 観測データ )

    とか = avg( 観測データ ) 「N個のうちy個で事象が生じる確率」を明示的に扱う二項分布を使うことによっ て、「y / N」などといった観測データ同士の割算を避けられる。
  7. 割算値いらずのオフセット項わざ 例題 • 森林のあちこちに100箇所で調査 i ∈ {1, 2, … 100}

    • 調査値 i における面積 Ai (ほんとは固定にすべきだけど…あえて) • 調査地 i の「明るさ」xi • 調査地 i における植物個体数 yi を記録=応答変数 • O:調査地 i における植物個体の人口密度が明るさxiにどう影響されるか を知りたい yi / Ai という割算値を作る必要はない!
  8. オフセット項わざの使い所 • GLM(とそれを発展させた統計モデル)で応用可能 • 「単位◦◦あたりのカウントデータ」に使える ◦ ◦◦(例えば面積)の対数を線型予測子に追加する • もっと一般化すると、「連続値 /

    連続値」となる比率・密度などに使える、と 言える。 • 分子分母共に誤差を含む場合は、ベイズ統計モデルで工夫すれば観測 値どうしの割算を回避できる(本書の対象外)
  9. 正規分布 : 最小二乗法=最尤推定 σがμと無関係かつ定数であるとした場合 「対数尤度関数の最大化」 = 「Σ(yi - μ)^2 の最小化」になる

    最尤推定 最小二乗法 確率分布:正規分布、リンク関数:恒等関数、線型予測子:β1+β2 xi
  10. ガンマ分布 • 0以上の連続値の確率分布 • shapeパラメータs、rateパラメータrから成る • 平均:s / r 分散:s /

    r^2 ※s=1のときは指数分布 • Γ(s)はガンマ関数 (Wikipedia 「ガンマ関数」)
  11. 例題:ガンマ分布でGLMをする 本例題の説明  個体:i ∈ {1, 2, … 50} 各個体 i

    に対して  葉の重量:xi ←説明変数  花の重量:yi ←応答変数
  12. 例題:ガンマ分布でGLMをする なんらかの生物学的根拠により  μi = Axi^b と表せるとする 対数リンク関数を用いて、線型予測子は、 log( μi )

    = a + b log(xi) ※A = exp(a) と置いた Rの命令文 > glm( y ~ log(x) , family = Gamma(link = “log”), data = d ) glm()による推定では、 平均μiを決める線形予測子とリンク 関数だけを指定すれば良い 平均・分散をshape, rateパラメータ とどう対応付けるか考えなくて良い
  13. 参考文献 - 30分だけでは決してよくわからない とてもとても難しい 一般化線形モデ ル with R - 線形結合モデルを科学的説明たりうるか

    - Wikipedia 「線型結合」 - Wikipedia 「線型性」 - 確率密度関数と確率質量関数 - Wikipedia 「二項分布」