「ベイズ統計の理論と方法」勉強会 「4. 一般理論」前半パート

68f09427f1f07e782003aff23700ec3b?s=47 CookieBox26
September 29, 2019

「ベイズ統計の理論と方法」勉強会 「4. 一般理論」前半パート

68f09427f1f07e782003aff23700ec3b?s=128

CookieBox26

September 29, 2019
Tweet

Transcript

  1. 1.

    渡辺澄夫. ベイズ統計の理論と方法. コロナ社. 2012. Chihiro Mihara 「ベイズ統計の理論と方法」勉強会 「4. 一般理論」前半パート テキスト

    http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/bayes-theory-method.html ※ 上のテキストの4章前半の内容の勉強会の資料ですが、勝手な説明を加えている箇所 もあります。テキストの解釈の誤りや勝手な説明の変なところは私に帰属します。
  2. 2.

    テキスト4章までが目指すところ 2 「真の分布 () はおおよそ ∗ ≡ ׬ で あろうと考える」こと。

    「ベイズ推測する」って何をすること? → といわれても、推測としてどういいのかよくわからない。 真の分布 () と予測分布 ∗ の誤差(汎化損失) ≡ −׬ log ∗() が にしたがうような推測をすること。 「ベイズ推測する」って結局どんな推測をすること? サンプルの選び方に 依存する確率変数 ? → ? にあてはまる確率分布を特定するのがゴール!
  3. 3.

    テキスト3章までのあらすじ(1/2) 3 汎化損失 = − log (|) のしたがう分布を知りたい。 → は以下のようにキュムラント展開できる。

    = 0 + () − 1 2 , 2 − , 2 − 1 3! 3 0 − ⋯ → 事後分布 (|) ∝ exp − の形が知りたい。 → わからないので正規分布に近似できるように仮定をおきたい。 → 平均対数損失 () は「ただ1つの最小点 0 をもち、0 で のヘッセ行列が正定値である」ものと仮定してみる。 事後分布上の平均 事後分布上の分散 0 → () 0 (|) だいたい2次関数 だいたい正規分布
  4. 4.

    = 0 + 1 2 + 1 2 2 −

    1 2 tr −1 + ℴ 1 テキスト3章までのあらすじ(2/2) 4 → 平均対数損失 () は「ただ1つの最小点 0 をもち、0 で のヘッセ行列が正定値である」ものと仮定してみると、 は以下のような確率変数であると示せる。ゴール達成! • : () の = 0 でのヘッセ行列。 • ≡ , , =0 • ≡ − 1 2 σ=1 − , =0 サンプルの選び方に 依存する確率変数 0 (|) < 上のことを示すには、0 の周り だけ切り取る。 を −1/2 よりゆっくり 0 に近づくようにとれば、 外側になる確率が −1 より速く 0 に近づく。 平均値の定理を用いて内側を正規分布に近似し、 この正規分布上での平均や分散を求める。
  5. 5.

    3章を終えて普通に気になること 5 平均対数損失 () が「ただ1つの最小点 0 をもち、0 での ヘッセ行列が正定値である」ものではない場合は、ベイズ推測 は「推測としてこのようにいい」といえないの??

    0 だいたい 2次関数 0 0 0 こういうときはいえた。 こういうときは? こういうときは? ※ なお、以下のようなときについては考察しないことにする。 解析的でない。 を含む開集合で 定義されていない。 • がコンパクトで ない。 • 対数尤度比が相対 的に有限な分散を もたない。
  6. 6.

    だから4章でやっていきたいこと 6 平均対数損失 () が「ただ1つの最小点 0 をもち、0 での ヘッセ行列が正定値である」ものであるという仮定を外して、 ベイズ推測は「推測としてこのようにいい」という!

    0 だいたい 2次関数 0 0 0 こういうときはいえた。 こういうときも! こういうときも! ベイズ推測の汎化損失 は にしたがう! ? (確率分布)
  7. 7.

    まず仮定 7 1. パラメータ集合 はユークリッド空間のコンパクト部分 集合であり、かつ、開集合 ′ ⊃ が存在して、平均誤差 ()

    が ′ 上の解析関数である(95ページ 注意34)。 2. 対数尤度比 (, 0 , ) が相対的に有限な分散をもつ (36ページ 注意12 (1))。 4章でこれは仮定すること ※ なので、以下のようなときについては考察しない。 解析的でない。 を含む開集合で 定義されていない。 • がコンパクトで ない。 • 対数尤度比が相対 的に有限な分散を もたない。 ※ ユークリッド空間の閉集合であってじゅうぶん大きな球で覆える。 ※ 定義域の各点においてその点の周りでのテイラー展開と一致する。
  8. 8.

    立ちはだかる壁 8 汎化損失 = − log (|) のしたがう分布を知りたい。 → は以下のようにキュムラント展開できる。

    = 0 + () − 1 2 , 2 − , 2 − 1 3! 3 0 − ⋯ → 事後分布 (|) ∝ exp − の形が知りたい。 → () に何も仮定をおかないとわからない! 0 だいたい 2次関数 0 0 0 こうであればいいが…。 こうかもしれない。 こうかもしれない。
  9. 9.

    こういう変換があればいいのに 9 事後分布 (|) ∝ exp − の形を知りたい。 → (|)

    ∝ exp − の形でもいいから知りたい。 ※ () を最小値がゼロになるようオフセットしただけ。 → () にしたところで何も仮定がないので全然わからない。 → …パラメータ空間 の方を何かぐにゃっと歪めて () を 何か統一的な形にもっていくことはできないの?? 0 0 0 ぐぐぐぐぐ… 解析的なこと以外 よくわからない形 統一的な形!
  10. 10.

    そういう変換があります 10 ≧ 0 を開集合 ⊂ ℝ 上の非負解析関数とし、 = 0

    を満たす ∈ が存在するとする。このとき、ある 次元多 様体 ℳ と ℳ 上の局所座標が取りうる値の集合 からの解 析写像 : → が存在して、ℳ の局所座標ごとに、 = 1 21 2 22 ⋯ 2 ′() = 1 ℎ1 2 ℎ2 ⋯ ℎ が成立するようにできる。ここで ′() は = () のヤコ ビアンであり、 > 0 は 0 にならない解析関数であり、 = 1 , 2 , ⋯ , , ℎ = (ℎ1 , ℎ2 , ⋯ , ℎ ) は非負の正数の集合である。但し 1 , 2 , ⋯ , のうち少なく ともどれか一つは 0 ではない。 定理6(特異点解消定理のベイズ一般理論向け版)
  11. 11.

    つまり 11 = 2 ′ = 2 = 2 =

    2 よくわからない形を 有限個の統一的な形にできる ( , はそれぞれ異なる) 0 0 0 0 ※ 新しいパラメータ空間 は、局所座標系を適当にとり、適当 に切り分ければ 0, 1 の形(次元 超立方体)として一般性を失わない。 1 1 1 1 を歪めたのがこれ (むしろこっちを で 歪めたのが ) 歪めた世界ではきれいに 2 ≡ 1 21 2 22 ⋯ 2
  12. 12.

    つまり 12 = 2 ′ = 2 = 2 =

    2 なので事前分布 も 適当に分けてしまえばよい ( , ℎ はそれぞれ異なる) ℎ ℎ ℎ ℎ ここに が 立ち込めている ※ がコンパクトなら適当に分ける ことができる(参考. 1の分割)。 ※ 新しい密度 ℎ は、事前分布を 分けた分 × 空間を で歪めた分。 0 0 0 0 1 1 1 1
  13. 13.

    13 = 2 ′ = 2 ℎ ℎ ここに が

    立ち込めている 0 0 1 1 赤 青 ℎ ℎ −1 −1 でほどける領域と でほどける領域が 重なっているところ 適当に分担する
  14. 14.

    事後分布の標準形 14 事後分布 (|) ∝ exp − の形を知りたい。 → 定理6を適用し、

    の分布から の分布に。 赤 ∝ exp − ℎ この形を考えればよい。 → は = 2 とはずれるが、 → ∞ であるガウス過程に法則収束する () を用いて、 = − −1 () とかける。 → つまり、事後分布の標準形はこうなる。 赤 ∝ exp −2 + () ℎ = 2 ℎ 0 確率的にゆらぐ 確率的にゆらがない 1
  15. 15.

    事後分布の標準形 15 じゃあ、赤 ∝ exp −2 + () ℎ 上で

    = 2 の平均や , = (, ) の分散がほしい。 → このままだとやりづらい。 → 2 を主役にした方が捗る。 → の密度 ℎ 上での = 2 の密度を考えたい(こっち の密度を状態密度という)。 0 1 1 0 1 = 2 ここに ℎ が 立ち込めている 1 2 ※ 適当
  16. 16.

    状態密度 16 の密度 ℎ 上での = 2 の密度を知りたい。 → 0

    = 2 を満たす はたくさんある。 → = () を満たす の密度を集めてくる記号がある。 = න − () () → ( − 2) ℎ をかけて積分するとどうなるか知りたい。 0 1 1 0 1 = 2 ここに ℎ が 立ち込めている 1 2 ※ 適当 0 これ
  17. 17.

    状態密度 17 ( − 2) ℎ をかけて積分するとどうなるか知りたい。 → → 0

    で支配的な成分が大事(事後分布は → ∞ では = 0 で一番濃くなるから)。 → 実はメリン変換という変換で複素数の関数にすると、極の位 置から、 → 0 で支配的な成分が取り出せる。 > 0 を実数、 > 0 を自然数とする。 = ቊ−1 − log −1 0 のメリン変換は以下である。 ( )() = − 1 ! + 補題22 → 0 で関数が 0 に近づく速さ 極の位置と位数 対応 • メリン変換 ― をかけて = [0, +∞) で積分( ∈ ℂ)。 • 複素関数が正則 ― どこから近づいても値が定まっている。 • 複素関数の極 ― − をかけて正則になるなら = が 位極。 = − で値が定まらないが + をかければ定まる。
  18. 18.

    状態密度 18 ある微小積分 ∗ が存在して → 0 で以下が成り立つ。 − 2

    ℎ = −1 − log −1∗ + (より速く0へ) 定理8 メリン変換して、実部が最大の極( = − )を取り出せばよい。 , は局所座標ごとに異なるが、0 に近づくのが一番遅いもの の値にすればよい。 0 1 = 2 速 0 1 = 2 遅 0 1 = 2 速 0 1 = 2 遅 ↓ 採用 ↓ 採用
  19. 19.

    状態密度 19 統計的推測のゼータ関数を以下のように定義する。 定義18 = න 極を見つける方法は? → 以下を特異点解消して見つける。 リーマンゼータ関数

    統計的推測のゼータ関数 関数の定義 正整数の − 乗の和 の 乗の事前分布上 での平均 複素数平面状でふつうに 定義されるところ の実部が 1 より大きい ところ の実部が 0 より大きい ところ 解析接続すると 素数の研究とかに役立つ 極の位置で の → 0 の密度がわかる 参考. ふつうに定義されるところからテイラー展開して定義域を広げていくこと。
  20. 20.

    4章前半のまとめ 20 平均誤差 () が一般的な場合を取り扱うために、定理6の 変数変換によって = 2 の形に標準化し、それを 用いて事後分布も標準化した。

    事後分布上で期待値や分散をとる準備として、事後分布を の密度から = 2 の密度( → 0 での)に直した。