Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ解析のための統計モデリング入門-6章後半
Search
yukit_cesc
July 01, 2022
Science
0
180
データ解析のための統計モデリング入門-6章後半
データ解析のための統計モデリング入門 6.5-6.9 GLMの応用範囲を広げる
yukit_cesc
July 01, 2022
Tweet
Share
Other Decks in Science
See All in Science
JSol'Ex : traitement d'images solaires en Java
melix
0
110
ICRA2024 速報
rpc
3
5.3k
科学で迫る勝敗の法則(名城大学公開講座.2024年10月) / The principle of victory discovered by science (Open lecture in Meijo Univ. 2024)
konakalab
0
200
WCS-LA-2024
lcolladotor
0
120
20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
hurutoriya
5
2.3k
Iniciativas independentes de divulgação científica: o caso do Movimento #CiteMulheresNegras
taisso
0
250
非同期コミュニケーションの構造 -チャットツールを用いた組織における情報の流れの設計について-
koisono
0
140
20240420 Global Azure 2024 | Azure Migrate でデータセンターのサーバーを評価&移行してみる
olivia_0707
2
900
教師なしテンソル分解に基づく、有糸分裂後の転写再活性化におけるヒストン修飾ブックマークとしての転写因子候補の抽出法
tagtag
0
120
Improving Search @scale with efficient query experimentation @BerlinBuzzwords 2024
searchhub
0
240
解説!データ基盤の進化を後押しする手順とタイミング
shomaekawa
1
350
Snowflakeによる統合バイオインフォマティクス
ktatsuya
0
490
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
265
13k
The Cost Of JavaScript in 2023
addyosmani
45
6.8k
A better future with KSS
kneath
238
17k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
The Pragmatic Product Professional
lauravandoore
31
6.3k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
250
21k
Happy Clients
brianwarren
98
6.7k
Product Roadmaps are Hard
iamctodd
PRO
49
11k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Docker and Python
trallard
40
3.1k
Transcript
データ解析のための 統計モデリング入門 2022年7月1日 後藤研 M2 YT 6.5~6.9 GLMの応用範囲を広げる -ロジスティック回帰など-
/27 6章 GLMの応用範囲 2 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測
二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
/27 6.1-6.4 概要 3 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測
二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
/27 6.1-6.4 概要 4 6.3 二項分布で表現する「あり・なし」カウントデータ • 「𝑁個の観察対象のうち𝑘個で反応がみられた」というタイプのデータにみられるばらつきをあら わすために二項分布が使える 6.4
ロジスティック回帰とロジットリンク関数 • 生起確率と線形予測子を結びつけるロジットリンク関数を使ったGLMのあてはめは、ロジス ティック回帰とよばれる 6.1 6.2 さまざまな種類のデータで応用できるGLM 例題:上限のあるカウントデータ • GLMでは応答変数のばらつきを表現する確率分布はポアソン分布・二項分布・ガンマ分布な どが選択できる
/27 6.5 交互作用項の入った線形予測子 5 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測
二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
/27 6.5 交互作用項の入った線形予測子 6 これまで使ってきた線形予測子 logit 𝑞𝑖 = 𝛽1 +
𝛽2 𝑥𝑖 + 𝛽3 𝑓𝑖 1 施肥処理 体サイズ + 交互作用項の入った線形予測子 logit 𝑞𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + 𝛽3 𝑓𝑖 + 𝛽4 𝑥𝑖 𝑓𝑖 2 施肥処理 体サイズ + 交互作用 + ここでの交互作用項= 植物の体サイズ 𝒙𝒊 と施肥処理の効果 𝒇𝒊 の「積」の効果 𝑥𝑖 :植物の体サイズ 𝑓𝑖 :施肥処理
/27 6.5 交互作用項の入った線形予測子 7 図1 交互作用項が大きいため、 サイズ依存性が施肥処理によって大きく変わる場合の一例 Cは無処理、Tは施肥処理 生 存
種 子 数 𝑦 植物の体サイズ 𝑥 ここでの交互作用項= 植物の体サイズ 𝒙𝒊 と施肥処理の効果 𝒇𝒊 の「積」の効果 交互作用項の入った線形予測子 logit 𝑞𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + 𝛽3 𝑓𝑖 + 𝛽4 𝑥𝑖 𝑓𝑖 2 施肥処理 体サイズ + 交互作用 +
/27 6.5 交互作用項の入った線形予測子 8 交互作用のあるモデル 交互作用項の導入は必ずしも良い結果に繋がらない 交互作用のないモデル AIC = 272
AIC = 274 logit 𝑞𝑖 = −18.5 + 1.85𝑥𝑖 − 0.0638𝑓𝑖 + 0.216𝑥𝑖 𝑓𝑖 logit 𝑞𝑖 = −19.5 + 1.95𝑥𝑖 + 2.02𝑓𝑖 図2 交互作用の有無を調べる図示 交互作用を追加してもほとんど変化しない 生 存 種 子 数 𝑦 植物の体サイズ 𝑥 生 存 種 子 数 𝑦 植物の体サイズ 𝑥
/27 6.5 交互作用項の入った線形予測子 9 交互作用項の導入を行う上でやってはいけないこと 1 2 交互作用項の むやみな追加 AICのみでの評価
• 説明変数が多い場合、「組合せ論的爆発」で増加 してパラメータ推定が困難になる • それが何を表しているのか解釈できなくなること がある • 現実問題では、交互作用項を多く含むモデルのAIC が最良になることがよくあるが、交互作用項の効果 を過大推定している可能性がある • 現実のデータでは、説明変数では説明できない「個 体差」「場所差」が発生するが、それらを考慮しない GLMを当てはめると過度に複雑なモデルが最良とな る傾向がある
/27 6.6 割算値の統計モデリングはやめよう 10 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測
二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
/27 観測データに対してやりがちな割算値の算出や変数変換は、 不必要であるばかりでなく、場合によっては間違った結果を導きかねない 6.6 割算値の統計モデリングはやめよう 11 情報の消失 1000打数300安打の打者と10打数 3安打の打者は、どちらも同じ程度に 確からしい「三割打者」ではなく、
確からしさの情報が消失 変換された値の分布が不明 分子・分母にそれぞれ誤差の入った 数量同士を割算して作られた 割算値が、どのような確率分布に したがうのか不明 割算値 (観測データ) / (観測データ) 変数変換 log (観測データ) ・ avg (観測データ)
/27 オフセット項の導入で割算値を使わずに推定が可能 例題:人口密度を求めたいとき 6.6.1 割算値いらずのオフセット項わざ 12 • 森林のあちこちに調査地100箇所を設置した({𝑖 ∈ 1,2,∙∙∙,
100}) • 調査地 𝑖 ごとにその面積 𝐴𝑖 が異なる • 調査地 𝑖 の「明るさ」𝑥𝑖 を測っている • 調査地 𝑖 における植物個体数 𝑦𝑖 を記録した • (解析の目的) 調査地 𝑖 における植物個体の「人口密度」が 「明るさ」𝑥𝑖 にどう影 響されているか知りたい 植 物 の 個 体 数 調査地の面積 𝐴𝑖 明 る さ 𝑥𝑖 観測データ 図3 オフセット項を利用するGLMを説明するための例題
/27 例題:人口密度を求めたいとき 面積が 𝐴𝑖 である調査地 𝑖 における人口密度は 平均個体数 λ𝑖 𝐴𝑖
= 人口密度 人口密度は正の量であるため、指数関数と明るさ 𝑥𝑖 依存性を組み合わせて、 以下のようにモデル化したとする 𝜆𝑖 = 𝐴𝑖 × 人口密度 = 𝐴𝑖 × exp 𝛽1 + 𝛽2 𝑥𝑖 = exp 𝛽1 + 𝛽2 𝑥𝑖 + log 𝐴𝑖 よって、線形予測子は以下のように与えられる 線形予測子 :𝑧𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + log 𝐴𝑖 対数リンク関数:ポアソン分布 6.6.1 割算値いらずのオフセット項わざ 13 オフセット項 =パラメータがつかない項 (3)
/27 オフセット項わざの使いどころ 6.6.1 割算値いらずのオフセット項わざ 14 • GLM(とそれを発展させた統計モデル)で応用可能 • 「単位◦◦あたりのカウントデータ」 や
「(連続値)/(連続値)」となる 比率・密度などに使用可能 調査地の面積 𝐴𝑖 植 物 の 個 体 数 明 る さ 𝑥𝑖 推定されたモデルによる予測 図4 オフセット項を利用するGLMを説明するための例題 明るさ 𝑥𝑖 ∈ {0.1、0.3、0.5、0.7、0.9}ごとに平均個体数を予測した
/27 6.7 正規分布とその尤度 15 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測
二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
/27 正規分布 平均値 𝜇、標準偏差 𝜎 をパラメータとする正規分布の数式表現は以下で表される 𝑝 𝑦 𝜇, 𝜎
= 1 2𝜋𝜎2 exp − 𝑦 − 𝜇 2 2𝜎2 6.7 正規分布とその尤度 16 図5 正規分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 確 率 密 度 4
/27 確率 = 確率密度関数 × ∆𝒚 正規分布の確率密度関数を 𝑝 𝑦 𝜇,
𝜎) とすると、 確率 𝑝 1.2 ≤ 𝑦 ≤ 1.8 𝜇, 𝜎) は 1.2 1.8 𝑝 𝑦 𝜇, 𝜎) 𝑑𝑦 とあらわすことができる 6.7 正規分布とその尤度 17 図6 正規分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 領域の面積は1.2 ≤ 𝑦 ≤ 1.8となる確率をあらわす 確 率 密 度 確 率 密 度 確 率 密 度 𝜇 = 0、𝜎 = 1 𝜇 = 0、𝜎 = 3 𝜇 = 2、𝜎 = 1
/27 確率密度関数の尤度計算方法 ある 𝑦𝑖 が 𝑦𝑖 − 0.5∆𝑦 ≤ 𝑦
≤ 𝑦𝑖 + 0.5∆𝑦 である確率は、確率密度関数 𝒑 𝒚 𝝁, 𝝈) と区間幅 ∆𝒚 の積であると近似できるため、正規分布を使った統計モデルの尤度関数は以下で表せる 𝐿 𝜇, 𝜎 = ෑ 𝑖 𝑝 𝑦 𝜇, 𝜎)∆𝑦 = ෑ 𝑖 1 2𝜋𝜎2 exp − (𝑦 − 𝜇)2 2𝜎2 ∆𝑦 したがって、対数尤度関数は以下のようになる log 𝐿 𝜇, 𝜎 = −0.5𝑁log 2𝜋𝜎2 − 1 2𝜎2 𝑖 𝑦𝑖 − 𝜇 2 + 𝑁log(∆𝑦) ただし、𝑁log(∆𝑦)は定数でありパラメータ {𝜇, 𝜎} の最尤推定値に影響を与えないため、 尤度関数や対数尤度関数の表記では、𝑵𝐥𝐨𝐠(∆𝒚)を無視して省略することが多い 6.7 正規分布とその尤度 18 5 6
/27 正規分布における最尤推定法と最小二乗法の関係 対数尤度関数 : log 𝐿 𝜇, 𝜎 = −0.5𝑁log
2𝜋𝜎2 − 1 2𝜎2 σ𝑖 𝑦𝑖 − 𝜇 2 𝝈 が 𝝁 と無関係な定数であるとすると、 二乗誤差の和 σ𝑖 𝑦𝑖 − 𝜇 2 を最小にするパラメータ Ƹ 𝜇 において、 log 𝐿 𝜇, 𝜎 が最大となる 対数尤度関数の最大化 = σ𝑖 𝑦𝑖 − 𝜇 2の最小化 つまり、直線回帰は、正規分布を部品とするGLMであり、 「線形予測子: 𝑧𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 」 ・ 「恒等リンク関数を使い平均を 𝜇𝑖 = 𝑧𝑖 」とした GLMの最尤推定法によるパラメーター推定と、最小二乗法による直線の当てはめは 同等なものとみなすことができる また、 𝜎 が出てこないことから、最小二乗法は標準偏差を無視してしまっているとわかる 6.7 正規分布とその尤度 19 7
/27 6.8 ガンマ分布のGLM 20 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測
二項分布 logit ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ
/27 ガンマ分布 ガンマ分布は確率変数のとりうる範囲が0以上の連続確率分布であり、 確率密度関数は、shapeパラメータ 𝑠、rateパラメータ 𝑟 、ガンマ関数 Γ ∙ を用いて
以下で定義される 𝑝 𝑦 𝑠, 𝑟 = 𝑟𝑠 Γ(𝑠) 𝑦𝑠−1 exp(−𝑟𝑦) ガンマ分布の平均は 𝑠/𝑟、分散は 𝑠/𝑟2 で表せ、分散=平均/𝒓 の関係が成り立っている 6.8 ガンマ分布のGLM 21 図7 ガンマ分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 確 率 密 度 8
/27 確率 = 確率密度関数 × ∆𝒚 ガンマ分布の確率密度関数を 𝑝 𝑦 𝑠,
𝑟) とすると、 確率 𝑝 1.2 ≤ 𝑦 ≤ 1.8 𝑠, 𝑟) は 1.2 1.8 𝑝 𝑦 𝑠, 𝑟) 𝑑𝑦 とあらわすことができる 6.8 ガンマ分布のGLM 22 図8 ガンマ分布の確率密度関数 横軸は確率変数 𝑦、縦軸は確率密度 領域の面積は1.2 ≤ 𝑦 ≤ 1.8となる確率をあらわす 確 率 密 度 確 率 密 度 確 率 密 度 𝑟 = 𝑠 = 1 𝑟 = 𝑠 = 5 𝑟 = 𝑠 = 0.1
/27 応答変数 𝒚𝒊 が正の量の場合は正規分布ではなくガンマ分布を仮定 例題:花の重量 𝑦𝑖 と葉の重量 𝑥𝑖 の関係を調べたいとき 6.8
ガンマ分布のGLM 23 • ある個体の花の重量 𝑦𝑖 が平均 𝜇𝑖 のガンマ分布に従っているとする • 平均花重量 𝜇𝑖 が葉重量 𝑥𝑖 の単調増加関数であり、さらに何らかの生物学的 根拠があり、 𝜇𝑖 = 𝐴𝑥𝑖 𝑏 と表せるとする 花 重 量 𝑦𝑖 葉重量 𝑥𝑖 観測データ 図9 ガンマ分布を使ったGLMの例題 横軸は架空植物の葉の重量 𝑥、縦軸はその植物の花の重量 𝑦
/27 例題:花の重量 𝒚𝒊 と葉の重量 𝒙𝒊 の関係を調べたいとき 平均花重量 𝜇𝑖 が葉重量 𝑥𝑖
を用いて、 𝜇𝑖 = 𝐴𝑥𝑖 𝑏 と表せるとき、𝐴 = exp(𝑎) とおくと、 𝜇𝑖 = exp 𝑎 𝑥𝑖 𝑏 = exp(𝑎 + 𝑏log𝑥𝑖 ) この両辺に対数をとると、 log𝜇𝑖 = 𝑎 + 𝑏log𝑥𝑖 となり、線形予測子 𝑎 + 𝑏log𝑥𝑖 と対数リンク関数を使って平均 𝜇𝑖 が与えられる 6.8 ガンマ分布のGLM 24 (9) 図10 ガンマ分布を使ったGLMの例題 横軸は架空植物の葉の重量 𝑥、縦軸はその植物の花の重量 𝑦、赤い曲線は平均の予測 推定されたモデルによる予測 (10)
/27 25 適用例 確率分布 リンク関数 その他の特徴 6.1-6.4 生存確認の予測 二項分布 logit
ー 6.5 生存確認の予測 二項分布 logit 交互作用項 6.6 人口密度の予測 ポアソン分布 対数リンク オフセット 6.7 連続値データ 正規分布 ー 連続値の 最尤推定 6.8 確率変数が 0以上の連続値 ガンマ分布 対数リンク ー 6.9 まとめ 6.9 まとめ
/27 26 6.5 交互作用項の入った線形予測子 • 線形予測子の構成要素として、複数の説明変数の積の効果をみる交互作用項が使える 6.6 割算値の統計モデリングはやめよう • データ解析でしばしばみられる観測値どうしの割算値作成や、応答変数の変数変換の問題点
をあげ、ロジスティック回帰やオフセット項の工夫をすれば、情報消失の原因となる「データの 加工」は不要になる 6.7 6.8 正規分布とその尤度 ガンマ分布のGLM • 連続値の確率変数のばらつきを表現する確率分布としては、正規分布・ガンマ分布などがあり、 これらを統計モデルの部品として使うときには、離散値と連続値の確率分布のちがいに注意し なければならない 6.9 まとめ
/27 参考文献 27 [1] 久保拓弥、データ解析のための統計モデリング入門、岩波書店、2012.
ご清聴ありがとうございました