Slide 1

Slide 1 text

1 不偏推定量とJackknife法 慶應義塾大学理工学部物理情報工学科 渡辺 2021/03/18

Slide 2

Slide 2 text

2 確率変数 ෠ 𝑋 確率密度 𝑓(𝑥) 𝑃 𝑥 ≤ ෠ 𝑋 < 𝑥 + 𝑑𝑥 = 𝑓 𝑥 𝑑𝑥 母集団の期待値 μ = ׬ 𝑥𝑓 𝑥 𝑑𝑥 一次のモーメント この確率変数の期待値(平均値)μの関数g(μ) をサンプリングにより推定したい 母集団の分散 𝜎2 = ׬(𝑥 − 𝜇)2𝑓 𝑥 𝑑𝑥 二次

Slide 3

Slide 3 text

3 N回のサンプリングデータ ෠ 𝑋1 , ෠ 𝑋2 , ⋯ , ෠ 𝑋𝑁 期待値の推定値(推定量) 1 𝑁 σ 𝑖 ෠ 𝑋𝑖 推定量の期待値 「期待値の推定量」は確率変数となる N回のサンプリングを何度も繰り返し、推定量の期待値を得る 1 𝑁 σ𝑖 ෠ 𝑋𝑖 = 𝜇 母集団の期待値 (推定したい値) 標本からサンプリングして得られた推定量の期待値が 母集団の期待値に等しい場合、その推定量を不偏推定量と呼ぶ ※ サンプリングで分散を計算する時Nで割ると不偏推定量にならないのでN-1で割る

Slide 4

Slide 4 text

4 N回測定して得られた期待値の推定量 「期待値の関数」の値を推定したい 𝑦 = 𝑔(𝜇) 𝜇𝑁 = 1 𝑁 ෍ 𝑖 ෠ 𝑋𝑖 これをそのまま関数に入れて期待値をとっても 不偏推定量にならない 𝑦 = 𝑔 𝜇 ≠ 𝑔(𝜇𝑁 )

Slide 5

Slide 5 text

5 一般に確率変数 ෠ 𝑋 について 𝑔( ෠ 𝑋) ≠ 𝑔 ෠ 𝑋 と 𝑔( ෠ 𝑋) 関数の期待値 期待値の関数𝑔 ෠ 𝑋 は 一致しないから ※期待値をとってから関数にいれるか、関数に入れてから期待値を取るかの違い

Slide 6

Slide 6 text

6 μ g(x)を上に凸な関数とし、x=μで接線をひく 𝑦 = 𝑎 𝑥 − 𝜇 + 𝑔(𝜇) 𝑦 = 𝑔(𝑥) ※ Thanks to @genkuroki 上図より明らかに 𝑔 𝑥 ≤ 𝑎 𝑥 − 𝜇 + 𝑔(𝜇) 両辺の期待値を取れば 𝑔 𝑥 ≤ 𝑔 𝜇 = 𝑔( 𝑥 ) 下に凸の場合は符号が逆に

Slide 7

Slide 7 text

7 𝜀 = 𝜇𝑁 − 𝜇 𝜇𝑁 = 1 𝑁 ෍ 𝑖 ෠ 𝑋𝑖 N回の測定で得られた期待値の推定量 真の期待値とのずれ 𝑔 𝜇𝑁 − 𝑔 𝜇 = 𝑔 𝜇 + 𝜀 − 𝑔 𝜇 = 𝑔′ 𝜇 𝜀 + 1 2 𝑔′′ 𝜇 𝜀2 + 𝑂(𝜀3) 𝑔 𝜇𝑁 − 𝑔 𝜇 = 1 2 𝑔′′ 𝜇 𝜀2 = 𝑔′′(𝜇)𝜎2 2𝑁 真の値 推定値 推定値と真の値のずれの期待値 1/Nバイアス

Slide 8

Slide 8 text

8 平均0、分散𝜎2のガウス分布に従う確率変数Xを考える ෠ 𝑋2 = 𝜎2 ෠ 𝑋4 = 3𝜎4 2次のモーメント 4次のモーメント 4次と2次のモーメントの比を取ると、分散依存性が消える ෠ 𝑋4 ෠ 𝑋2 2 = 3 尖度(Kurtosis) この量の1/Nバイアスを確認する

Slide 9

Slide 9 text

9 ෠ 𝑋2 𝑁 = 1 𝑁 ෍ 𝑖 ෠ 𝑋𝑖 2 ෠ 𝑋4 𝑁 = 1 𝑁 ෍ 𝑖 ෠ 𝑋𝑖 4 N個のサンプリング(N回の測定)で得られたデータから 2次と4次のモーメントを推定する 𝑈𝑁 = ෠ 𝑋4 𝑁 ෠ 𝑋2 𝑁 2 得られたモーメントから尖度を計算する 上記を繰り返して𝑈𝑁 の期待値 𝑈𝑁 を計算する

Slide 10

Slide 10 text

10 𝑈𝑁 1/𝑁 理論値 十分なサンプリング回数にも関わらず、真の値からずれている(バイアス) 推定値

Slide 11

Slide 11 text

11 それをN個ずつのブロックに分割する 十分な数(無限個でも良い)のデータがある 𝑁 それぞれのブロックの期待値𝜇𝑁 から「期待値の関数」を計算する 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) 「期待値の関数」の期待値を計算する 𝑔(𝜇𝑁 ) 𝑔(𝜇𝑁 ) − 𝑔 𝜇 = 𝑂(1/𝑁) バイアスが残る ・・・ ・・・ ・・・

Slide 12

Slide 12 text

12 不偏推定量ではあるが、ばらつきのせいで真の値 からずれる誤差を統計誤差(標準誤差)と呼ぶ 𝜇𝑁 = 1 𝑁 ෍ 𝑖 ෠ 𝑋𝑖 𝜇𝑁 − 𝜇 = 𝑂(1/ 𝑁) 不偏推定量でない推定量の期待値について、真の値 からのずれを系統誤差(バイアス)と呼ぶ。 𝑔(𝜇𝑁 ) − 𝑔 𝜇 = 𝑂(1/𝑁) N回の測定をMセット繰り返す時、Mを増やすと 統計誤差は減らせるが、系統誤差は消えない (間違った値に収束する)

Slide 13

Slide 13 text

13 期待値の関数の推定には1/Nバイアスが乗る N無限大極限では一致するが、収束が遅い 手持ちのデータから1/Nバイアスを除去したい Jackknifeリサンプリング

Slide 14

Slide 14 text

14 N個のデータがある 𝑁 全部のデータを使って期待値𝜇𝑁 を計算 それを使って関数の推定値𝑈𝑁 = 𝑔(𝜇𝑁 )を計算 1個のデータを捨てる 𝑁 − 1 残りのデータを使って期待値𝜇𝑁−1 を計算 それを使って関数の推定値𝑈𝑁−1 = 𝑔(𝜇𝑁−1 )を計算

Slide 15

Slide 15 text

15 𝑈𝑁 は、真の値𝑈∞ に対して1/Nバイアスがあると仮定 𝑈𝑁 = 𝑈∞ + 𝑎/𝑁 一つデータを捨てて得た𝑈𝑁 のバイアスは 𝑈𝑁−1 = 𝑈∞ + 𝑎/(𝑁 − 1) この2式から𝑈∞ を求めると 𝑈∞ = 𝑁𝑈𝑁 − (𝑁 − 1)𝑈𝑁−1 ※ Thanks to smorita and yomichi

Slide 16

Slide 16 text

16 𝑈𝑁 1/𝑁 𝑁 = ∞ NとN-1から1/N→0外挿を行った

Slide 17

Slide 17 text

17 1個のデータ除外して計算 せっかくのデータを捨てるのはもったいないので活用する 𝑈𝑁−1 1 𝑈𝑁−1 2 別のデータ除外して計算 ・ ・ ・ 𝑈𝑁−1 𝑁 𝑈𝑁−1 = 1 𝑁 ෍ 𝑖 𝑈𝑁−1 𝑖 精度の高い「N-1個のデータの推定量」 が得られる

Slide 18

Slide 18 text

18 𝑈𝑁 1/𝑁 理論値 単純な推定値 Jackknifeによるバイアス除去 𝑁𝑈𝑁 − (𝑁 − 1)𝑈𝑁−1 𝑈𝑁

Slide 19

Slide 19 text

19 母集団の何かを推定する量を推定量(estimator)と呼ぶ 誤差には統計誤差と系統誤差(バイアス)がある その期待値が母集団の期待値に一致する量(バイアス が無い量)を不偏推定量(unbiased estimator)と呼ぶ 期待値の関数の単純な推定は不偏推定量を与えない Jackknife法はリサンプリング法の一種 リサンプリングによりバイアスを除去できる (ことがある) ※もっとまじめにやるならbootstrap法とかを使う