Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ解析のための統計モデリング入門-6章後半

 データ解析のための統計モデリング入門-6章後半

データ解析のための統計モデリング入門 6.5-6.9 GLMの応用範囲を広げる

yukit_cesc

July 01, 2022
Tweet

Other Decks in Science

Transcript

  1. データ解析のための 統計モデリング入門 2022年7月1日 後藤研 M2 YT 6.5~6.9 GLMの応用範囲を広げる -ロジスティック回帰など-

  2. /27 6章 GLMの応用範囲 2 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測

    二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  3. /27 6.1-6.4 概要 3 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測

    二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  4. /27 6.1-6.4 概要 4 6.3 二項分布で表現する「あり・なし」カウントデータ • 「𝑁個の観察対象のうち𝑘個で反応がみられた」というタイプのデータにみられるばらつきをあら わすために二項分布が使える 6.4

    ロジスティック回帰とロジットリンク関数 • 生起確率と線形予測子を結びつけるロジットリンク関数を使ったGLMのあてはめは、ロジス ティック回帰とよばれる 6.1 6.2 さまざまな種類のデータで応用できるGLM 例題:上限のあるカウントデータ • GLMでは応答変数のばらつきを表現する確率分布はポアソン分布・二項分布・ガンマ分布な どが選択できる
  5. /27 6.5 交互作用項の入った線形予測子 5 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測

    二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  6. /27 6.5 交互作用項の入った線形予測子 6 これまで使ってきた線形予測子 logit 𝑞𝑖 = 𝛽1 +

    𝛽2 𝑥𝑖 + 𝛽3 𝑓𝑖 1 施肥処理 体サイズ + 交互作用項の入った線形予測子 logit 𝑞𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + 𝛽3 𝑓𝑖 + 𝛽4 𝑥𝑖 𝑓𝑖 2 施肥処理 体サイズ + 交互作用 + ここでの交互作用項= 植物の体サイズ 𝒙𝒊 と施肥処理の効果 𝒇𝒊 の「積」の効果 𝑥𝑖 :植物の体サイズ 𝑓𝑖 :施肥処理
  7. /27 6.5 交互作用項の入った線形予測子 7 図1 交互作用項が大きいため、 サイズ依存性が施肥処理によって大きく変わる場合の一例 Cは無処理、Tは施肥処理 生 存

    種 子 数 𝑦 植物の体サイズ 𝑥 ここでの交互作用項= 植物の体サイズ 𝒙𝒊 と施肥処理の効果 𝒇𝒊 の「積」の効果 交互作用項の入った線形予測子 logit 𝑞𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + 𝛽3 𝑓𝑖 + 𝛽4 𝑥𝑖 𝑓𝑖 2 施肥処理 体サイズ + 交互作用 +
  8. /27 6.5 交互作用項の入った線形予測子 8 交互作用のあるモデル 交互作用項の導入は必ずしも良い結果に繋がらない 交互作用のないモデル AIC = 272

    AIC = 274 logit 𝑞𝑖 = −18.5 + 1.85𝑥𝑖 − 0.0638𝑓𝑖 + 0.216𝑥𝑖 𝑓𝑖 logit 𝑞𝑖 = −19.5 + 1.95𝑥𝑖 + 2.02𝑓𝑖 図2 交互作用の有無を調べる図示 交互作用を追加してもほとんど変化しない 生 存 種 子 数 𝑦 植物の体サイズ 𝑥 生 存 種 子 数 𝑦 植物の体サイズ 𝑥
  9. /27 6.5 交互作用項の入った線形予測子 9 交互作用項の導入を行う上でやってはいけないこと 1 2 交互作用項の むやみな追加 AICのみでの評価

    • 説明変数が多い場合、「組合せ論的爆発」で増加 してパラメータ推定が困難になる • それが何を表しているのか解釈できなくなること がある • 現実問題では、交互作用項を多く含むモデルのAIC が最良になることがよくあるが、交互作用項の効果 を過大推定している可能性がある • 現実のデータでは、説明変数では説明できない「個 体差」「場所差」が発生するが、それらを考慮しない GLMを当てはめると過度に複雑なモデルが最良とな る傾向がある
  10. /27 6.6 割算値の統計モデリングはやめよう 10 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測

    二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  11. /27 観測データに対してやりがちな割算値の算出や変数変換は、 不必要であるばかりでなく、場合によっては間違った結果を導きかねない 6.6 割算値の統計モデリングはやめよう 11 情報の消失 1000打数300安打の打者と10打数 3安打の打者は、どちらも同じ程度に 確からしい「三割打者」ではなく、

    確からしさの情報が消失 変換された値の分布が不明 分子・分母にそれぞれ誤差の入った 数量同士を割算して作られた 割算値が、どのような確率分布に したがうのか不明 割算値 (観測データ) / (観測データ) 変数変換 log (観測データ) ・ avg (観測データ)
  12. /27 オフセット項の導入で割算値を使わずに推定が可能 例題:人口密度を求めたいとき 6.6.1 割算値いらずのオフセット項わざ 12 • 森林のあちこちに調査地100箇所を設置した({𝑖 ∈ 1,2,∙∙∙,

    100}) • 調査地 𝑖 ごとにその面積 𝐴𝑖 が異なる • 調査地 𝑖 の「明るさ」𝑥𝑖 を測っている • 調査地 𝑖 における植物個体数 𝑦𝑖 を記録した • (解析の目的) 調査地 𝑖 における植物個体の「人口密度」が 「明るさ」𝑥𝑖 にどう影 響されているか知りたい 植 物 の 個 体 数 調査地の面積 𝐴𝑖 明 る さ 𝑥𝑖 観測データ 図3 オフセット項を利用するGLMを説明するための例題
  13. /27 例題:人口密度を求めたいとき 面積が 𝐴𝑖 である調査地 𝑖 における人口密度は 平均個体数 λ𝑖 𝐴𝑖

    = 人口密度 人口密度は正の量であるため、指数関数と明るさ 𝑥𝑖 依存性を組み合わせて、 以下のようにモデル化したとする 𝜆𝑖 = 𝐴𝑖 × 人口密度 = 𝐴𝑖 × exp 𝛽1 + 𝛽2 𝑥𝑖 = exp 𝛽1 + 𝛽2 𝑥𝑖 + log 𝐴𝑖 よって、線形予測子は以下のように与えられる 線形予測子 :𝑧𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + log 𝐴𝑖 対数リンク関数:ポアソン分布 6.6.1 割算値いらずのオフセット項わざ 13 オフセット項 =パラメータがつかない項 (3)
  14. /27 オフセット項わざの使いどころ 6.6.1 割算値いらずのオフセット項わざ 14 • GLM(とそれを発展させた統計モデル)で応用可能 • 「単位◦◦あたりのカウントデータ」 や

    「(連続値)/(連続値)」となる 比率・密度などに使用可能 調査地の面積 𝐴𝑖 植 物 の 個 体 数 明 る さ 𝑥𝑖 推定されたモデルによる予測 図4 オフセット項を利用するGLMを説明するための例題 明るさ 𝑥𝑖 ∈ {0.1、0.3、0.5、0.7、0.9}ごとに平均個体数を予測した
  15. /27 6.7 正規分布とその尤度 15 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測

    二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  16. /27 正規分布 平均値 𝜇、標準偏差 𝜎 をパラメータとする正規分布の数式表現は以下で表される 𝑝 𝑦 𝜇, 𝜎

    = 1 2𝜋𝜎2 exp − 𝑦 − 𝜇 2 2𝜎2 6.7 正規分布とその尤度 16 図5 正規分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 確 率 密 度 4
  17. /27 確率 = 確率密度関数 × ∆𝒚 正規分布の確率密度関数を 𝑝 𝑦 𝜇,

    𝜎) とすると、 確率 𝑝 1.2 ≤ 𝑦 ≤ 1.8 𝜇, 𝜎) は ׬ 1.2 1.8 𝑝 𝑦 𝜇, 𝜎) 𝑑𝑦 とあらわすことができる 6.7 正規分布とその尤度 17 図6 正規分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 領域の面積は1.2 ≤ 𝑦 ≤ 1.8となる確率をあらわす 確 率 密 度 確 率 密 度 確 率 密 度 𝜇 = 0、𝜎 = 1 𝜇 = 0、𝜎 = 3 𝜇 = 2、𝜎 = 1
  18. /27 確率密度関数の尤度計算方法 ある 𝑦𝑖 が 𝑦𝑖 − 0.5∆𝑦 ≤ 𝑦

    ≤ 𝑦𝑖 + 0.5∆𝑦 である確率は、確率密度関数 𝒑 𝒚 𝝁, 𝝈) と区間幅 ∆𝒚 の積であると近似できるため、正規分布を使った統計モデルの尤度関数は以下で表せる 𝐿 𝜇, 𝜎 = ෑ 𝑖 𝑝 𝑦 𝜇, 𝜎)∆𝑦 = ෑ 𝑖 1 2𝜋𝜎2 exp − (𝑦 − 𝜇)2 2𝜎2 ∆𝑦 したがって、対数尤度関数は以下のようになる log 𝐿 𝜇, 𝜎 = −0.5𝑁log 2𝜋𝜎2 − 1 2𝜎2 ෍ 𝑖 𝑦𝑖 − 𝜇 2 + 𝑁log(∆𝑦) ただし、𝑁log(∆𝑦)は定数でありパラメータ {𝜇, 𝜎} の最尤推定値に影響を与えないため、 尤度関数や対数尤度関数の表記では、𝑵𝐥𝐨𝐠(∆𝒚)を無視して省略することが多い 6.7 正規分布とその尤度 18 5 6
  19. /27 正規分布における最尤推定法と最小二乗法の関係 対数尤度関数 : log 𝐿 𝜇, 𝜎 = −0.5𝑁log

    2𝜋𝜎2 − 1 2𝜎2 σ𝑖 𝑦𝑖 − 𝜇 2 𝝈 が 𝝁 と無関係な定数であるとすると、 二乗誤差の和 σ𝑖 𝑦𝑖 − 𝜇 2 を最小にするパラメータ Ƹ 𝜇 において、 log 𝐿 𝜇, 𝜎 が最大となる 対数尤度関数の最大化 = σ𝑖 𝑦𝑖 − 𝜇 2の最小化 つまり、直線回帰は、正規分布を部品とするGLMであり、 「線形予測子: 𝑧𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 」 ・ 「恒等リンク関数を使い平均を 𝜇𝑖 = 𝑧𝑖 」とした GLMの最尤推定法によるパラメーター推定と、最小二乗法による直線の当てはめは 同等なものとみなすことができる また、 𝜎 が出てこないことから、最小二乗法は標準偏差を無視してしまっているとわかる 6.7 正規分布とその尤度 19 7
  20. /27 6.8 ガンマ分布のGLM 20 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測

    二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
  21. /27 ガンマ分布 ガンマ分布は確率変数のとりうる範囲が0以上の連続確率分布であり、 確率密度関数は、shapeパラメータ 𝑠、rateパラメータ 𝑟 、ガンマ関数 Γ ∙ を用いて

    以下で定義される 𝑝 𝑦 𝑠, 𝑟 = 𝑟𝑠 Γ(𝑠) 𝑦𝑠−1 exp(−𝑟𝑦) ガンマ分布の平均は 𝑠/𝑟、分散は 𝑠/𝑟2 で表せ、分散=平均/𝒓 の関係が成り立っている 6.8 ガンマ分布のGLM 21 図7 ガンマ分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 確 率 密 度 8
  22. /27 確率 = 確率密度関数 × ∆𝒚 ガンマ分布の確率密度関数を 𝑝 𝑦 𝑠,

    𝑟) とすると、 確率 𝑝 1.2 ≤ 𝑦 ≤ 1.8 𝑠, 𝑟) は ׬ 1.2 1.8 𝑝 𝑦 𝑠, 𝑟) 𝑑𝑦 とあらわすことができる 6.8 ガンマ分布のGLM 22 図8 ガンマ分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 領域の面積は1.2 ≤ 𝑦 ≤ 1.8となる確率をあらわす 確 率 密 度 確 率 密 度 確 率 密 度 𝑟 = 𝑠 = 1 𝑟 = 𝑠 = 5 𝑟 = 𝑠 = 0.1
  23. /27 応答変数 𝒚𝒊 が正の量の場合は正規分布ではなくガンマ分布を仮定 例題:花の重量 𝑦𝑖 と葉の重量 𝑥𝑖 の関係を調べたいとき 6.8

    ガンマ分布のGLM 23 • ある個体の花の重量 𝑦𝑖 が平均 𝜇𝑖 のガンマ分布に従っているとする • 平均花重量 𝜇𝑖 が葉重量 𝑥𝑖 の単調増加関数であり、さらに何らかの生物学的 根拠があり、 𝜇𝑖 = 𝐴𝑥𝑖 𝑏 と表せるとする 花 重 量 𝑦𝑖 葉重量 𝑥𝑖 観測データ 図9 ガンマ分布を使ったGLMの例題 横軸は架空植物の葉の重量 𝑥、縦軸はその植物の花の重量 𝑦
  24. /27 例題:花の重量 𝒚𝒊 と葉の重量 𝒙𝒊 の関係を調べたいとき 平均花重量 𝜇𝑖 が葉重量 𝑥𝑖

    を用いて、 𝜇𝑖 = 𝐴𝑥𝑖 𝑏 と表せるとき、𝐴 = exp(𝑎) とおくと、 𝜇𝑖 = exp 𝑎 𝑥𝑖 𝑏 = exp(𝑎 + 𝑏log𝑥𝑖 ) この両辺に対数をとると、 log𝜇𝑖 = 𝑎 + 𝑏log𝑥𝑖 となり、線形予測子 𝑎 + 𝑏log𝑥𝑖 と対数リンク関数を使って平均 𝜇𝑖 が与えられる 6.8 ガンマ分布のGLM 24 (9) 図10 ガンマ分布を使ったGLMの例題 横軸は架空植物の葉の重量 𝑥、縦軸はその植物の花の重量 𝑦、赤い曲線は平均の予測 推定されたモデルによる予測 (10)
  25. /27 25 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測 二項分布 logit

    ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ 6.9 まとめ
  26. /27 26 6.5 交互作用項の入った線形予測子 • 線形予測子の構成要素として、複数の説明変数の積の効果をみる交互作用項が使える 6.6 割算値の統計モデリングはやめよう • データ解析でしばしばみられる観測値どうしの割算値作成や、応答変数の変数変換の問題点

    をあげ、ロジスティック回帰やオフセット項の工夫をすれば、情報消失の原因となる「データの 加工」は不要になる 6.7 6.8 正規分布とその尤度 ガンマ分布のGLM • 連続値の確率変数のばらつきを表現する確率分布としては、正規分布・ガンマ分布などがあり、 これらを統計モデルの部品として使うときには、離散値と連続値の確率分布のちがいに注意し なければならない 6.9 まとめ
  27. /27 参考文献 27 [1] 久保拓弥、データ解析のための統計モデリング入門、岩波書店、2012.

  28. ご清聴ありがとうございました