Save 37% off PRO during our Black Friday Sale! »

不偏推定量とJackknife法 / Jackknife

A10e41b0a61d59f2258d7f6172c33479?s=47 kaityo256
March 18, 2021

不偏推定量とJackknife法 / Jackknife

いわゆる1/NバイアスとJackknifeリサンプリングについての解説

A10e41b0a61d59f2258d7f6172c33479?s=128

kaityo256

March 18, 2021
Tweet

Transcript

  1. 1 不偏推定量とJackknife法 慶應義塾大学理工学部物理情報工学科 渡辺 2021/03/18

  2. 2 確率変数 ෠ 𝑋 確率密度 𝑓(𝑥) 𝑃 𝑥 ≤ ෠

    𝑋 < 𝑥 + 𝑑𝑥 = 𝑓 𝑥 𝑑𝑥 母集団の期待値 μ = ׬ 𝑥𝑓 𝑥 𝑑𝑥 一次のモーメント この確率変数の期待値(平均値)μの関数g(μ) をサンプリングにより推定したい 母集団の分散 𝜎2 = ׬(𝑥 − 𝜇)2𝑓 𝑥 𝑑𝑥 二次
  3. 3 N回のサンプリングデータ ෠ 𝑋1 , ෠ 𝑋2 , ⋯ ,

    ෠ 𝑋𝑁 期待値の推定値(推定量) 1 𝑁 σ 𝑖 ෠ 𝑋𝑖 推定量の期待値 「期待値の推定量」は確率変数となる N回のサンプリングを何度も繰り返し、推定量の期待値を得る 1 𝑁 σ𝑖 ෠ 𝑋𝑖 = 𝜇 母集団の期待値 (推定したい値) 標本からサンプリングして得られた推定量の期待値が 母集団の期待値に等しい場合、その推定量を不偏推定量と呼ぶ ※ サンプリングで分散を計算する時Nで割ると不偏推定量にならないのでN-1で割る
  4. 4 N回測定して得られた期待値の推定量 「期待値の関数」の値を推定したい 𝑦 = 𝑔(𝜇) 𝜇𝑁 = 1 𝑁

    ෍ 𝑖 ෠ 𝑋𝑖 これをそのまま関数に入れて期待値をとっても 不偏推定量にならない 𝑦 = 𝑔 𝜇 ≠ 𝑔(𝜇𝑁 )
  5. 5 一般に確率変数 ෠ 𝑋 について 𝑔( ෠ 𝑋) ≠ 𝑔

    ෠ 𝑋 と 𝑔( ෠ 𝑋) 関数の期待値 期待値の関数𝑔 ෠ 𝑋 は 一致しないから ※期待値をとってから関数にいれるか、関数に入れてから期待値を取るかの違い
  6. 6 μ g(x)を上に凸な関数とし、x=μで接線をひく 𝑦 = 𝑎 𝑥 − 𝜇 +

    𝑔(𝜇) 𝑦 = 𝑔(𝑥) ※ Thanks to @genkuroki 上図より明らかに 𝑔 𝑥 ≤ 𝑎 𝑥 − 𝜇 + 𝑔(𝜇) 両辺の期待値を取れば 𝑔 𝑥 ≤ 𝑔 𝜇 = 𝑔( 𝑥 ) 下に凸の場合は符号が逆に
  7. 7 𝜀 = 𝜇𝑁 − 𝜇 𝜇𝑁 = 1 𝑁

    ෍ 𝑖 ෠ 𝑋𝑖 N回の測定で得られた期待値の推定量 真の期待値とのずれ 𝑔 𝜇𝑁 − 𝑔 𝜇 = 𝑔 𝜇 + 𝜀 − 𝑔 𝜇 = 𝑔′ 𝜇 𝜀 + 1 2 𝑔′′ 𝜇 𝜀2 + 𝑂(𝜀3) 𝑔 𝜇𝑁 − 𝑔 𝜇 = 1 2 𝑔′′ 𝜇 𝜀2 = 𝑔′′(𝜇)𝜎2 2𝑁 真の値 推定値 推定値と真の値のずれの期待値 1/Nバイアス
  8. 8 平均0、分散𝜎2のガウス分布に従う確率変数Xを考える ෠ 𝑋2 = 𝜎2 ෠ 𝑋4 = 3𝜎4

    2次のモーメント 4次のモーメント 4次と2次のモーメントの比を取ると、分散依存性が消える ෠ 𝑋4 ෠ 𝑋2 2 = 3 尖度(Kurtosis) この量の1/Nバイアスを確認する
  9. 9 ෠ 𝑋2 𝑁 = 1 𝑁 ෍ 𝑖 ෠

    𝑋𝑖 2 ෠ 𝑋4 𝑁 = 1 𝑁 ෍ 𝑖 ෠ 𝑋𝑖 4 N個のサンプリング(N回の測定)で得られたデータから 2次と4次のモーメントを推定する 𝑈𝑁 = ෠ 𝑋4 𝑁 ෠ 𝑋2 𝑁 2 得られたモーメントから尖度を計算する 上記を繰り返して𝑈𝑁 の期待値 𝑈𝑁 を計算する
  10. 10 𝑈𝑁 1/𝑁 理論値 十分なサンプリング回数にも関わらず、真の値からずれている(バイアス) 推定値

  11. 11 それをN個ずつのブロックに分割する 十分な数(無限個でも良い)のデータがある 𝑁 それぞれのブロックの期待値𝜇𝑁 から「期待値の関数」を計算する 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 )

    𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 「期待値の関数」の期待値を計算する 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) − 𝑔 𝜇 = 𝑂(1/𝑁) バイアスが残る ・・・ ・・・ ・・・
  12. 12 不偏推定量ではあるが、ばらつきのせいで真の値 からずれる誤差を統計誤差(標準誤差)と呼ぶ 𝜇𝑁 = 1 𝑁 ෍ 𝑖 ෠

    𝑋𝑖 𝜇𝑁 − 𝜇 = 𝑂(1/ 𝑁) 不偏推定量でない推定量の期待値について、真の値 からのずれを系統誤差(バイアス)と呼ぶ。 𝑔(𝜇𝑁 ) − 𝑔 𝜇 = 𝑂(1/𝑁) N回の測定をMセット繰り返す時、Mを増やすと 統計誤差は減らせるが、系統誤差は消えない (間違った値に収束する)
  13. 13 期待値の関数の推定には1/Nバイアスが乗る N無限大極限では一致するが、収束が遅い 手持ちのデータから1/Nバイアスを除去したい Jackknifeリサンプリング

  14. 14 N個のデータがある 𝑁 全部のデータを使って期待値𝜇𝑁 を計算 それを使って関数の推定値𝑈𝑁 = 𝑔(𝜇𝑁 )を計算 1個のデータを捨てる

    𝑁 − 1 残りのデータを使って期待値𝜇𝑁−1 を計算 それを使って関数の推定値𝑈𝑁−1 = 𝑔(𝜇𝑁−1 )を計算
  15. 15 𝑈𝑁 は、真の値𝑈∞ に対して1/Nバイアスがあると仮定 𝑈𝑁 = 𝑈∞ + 𝑎/𝑁 一つデータを捨てて得た𝑈𝑁

    のバイアスは 𝑈𝑁−1 = 𝑈∞ + 𝑎/(𝑁 − 1) この2式から𝑈∞ を求めると 𝑈∞ = 𝑁𝑈𝑁 − (𝑁 − 1)𝑈𝑁−1 ※ Thanks to smorita and yomichi
  16. 16 𝑈𝑁 1/𝑁 𝑁 = ∞ NとN-1から1/N→0外挿を行った

  17. 17 1個のデータ除外して計算 せっかくのデータを捨てるのはもったいないので活用する 𝑈𝑁−1 1 𝑈𝑁−1 2 別のデータ除外して計算 ・ ・

    ・ 𝑈𝑁−1 𝑁 𝑈𝑁−1 = 1 𝑁 ෍ 𝑖 𝑈𝑁−1 𝑖 精度の高い「N-1個のデータの推定量」 が得られる
  18. 18 𝑈𝑁 1/𝑁 理論値 単純な推定値 Jackknifeによるバイアス除去 𝑁𝑈𝑁 − (𝑁 −

    1)𝑈𝑁−1 𝑈𝑁
  19. 19 母集団の何かを推定する量を推定量(estimator)と呼ぶ 誤差には統計誤差と系統誤差(バイアス)がある その期待値が母集団の期待値に一致する量(バイアス が無い量)を不偏推定量(unbiased estimator)と呼ぶ 期待値の関数の単純な推定は不偏推定量を与えない Jackknife法はリサンプリング法の一種 リサンプリングによりバイアスを除去できる (ことがある)

    ※もっとまじめにやるならbootstrap法とかを使う