「ベイズ統計の理論と方法」勉強会「4. 一般理論」前半パート

渡辺澄夫. ベイズ統計の理論と方法. コロナ社. 2012. Chihiro Mihara 「ベイズ統計の理論と方法」勉強会「4. 一般理論」前半パートテキスト
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/bayes-theory-method.html ※ 上のテキストの4章前半の内容の勉強会の資料ですが、勝手な説明を加えている箇所もあります。テキストの解釈の誤りや勝手な説明の変なところは私に帰属します。

テキスト4章までが目指すところ 2 「真の分布 () はおおよそ ∗ ≡ ׬ であろうと考える」こと。
「ベイズ推測する」って何をすること？ → といわれても、推測としてどういいのかよくわからない。真の分布 () と予測分布 ∗ の誤差（汎化損失） ≡ −׬ log ∗() がにしたがうような推測をすること。「ベイズ推測する」って結局どんな推測をすること？サンプルの選び方に依存する確率変数？ → ？にあてはまる確率分布を特定するのがゴール！

テキスト3章までのあらすじ（1/2） 3 汎化損失 = − log (|) のしたがう分布を知りたい。 → は以下のようにキュムラント展開できる。
= 0 + () − 1 2 , 2 − , 2 − 1 3! 3 0 − ⋯ → 事後分布 (|) ∝ exp − の形が知りたい。 → わからないので正規分布に近似できるように仮定をおきたい。 → 平均対数損失 () は「ただ1つの最小点 0 をもち、0 でのヘッセ行列が正定値である」ものと仮定してみる。事後分布上の平均事後分布上の分散 0 → () 0 (|) だいたい2次関数だいたい正規分布

= 0 + 1 2 + 1 2 2 −
1 2 tr −1 + ℴ 1 テキスト3章までのあらすじ（2/2） 4 → 平均対数損失 () は「ただ1つの最小点 0 をもち、0 でのヘッセ行列が正定値である」ものと仮定してみると、は以下のような確率変数であると示せる。ゴール達成！ • ： () の = 0 でのヘッセ行列。 • ≡ , , =0 • ≡ − 1 2 σ=1 − , =0 サンプルの選び方に依存する確率変数 0 (|) < 上のことを示すには、0 の周りだけ切り取る。を −1/2 よりゆっくり 0 に近づくようにとれば、外側になる確率が −1 より速く 0 に近づく。平均値の定理を用いて内側を正規分布に近似し、この正規分布上での平均や分散を求める。

3章を終えて普通に気になること 5 平均対数損失 () が「ただ1つの最小点 0 をもち、0 でのヘッセ行列が正定値である」ものではない場合は、ベイズ推測は「推測としてこのようにいい」といえないの？？
0 だいたい 2次関数 0 0 0 こういうときはいえた。こういうときは？こういうときは？ ※ なお、以下のようなときについては考察しないことにする。解析的でない。を含む開集合で定義されていない。 • がコンパクトでない。 • 対数尤度比が相対的に有限な分散をもたない。

だから4章でやっていきたいこと 6 平均対数損失 () が「ただ1つの最小点 0 をもち、0 でのヘッセ行列が正定値である」ものであるという仮定を外して、ベイズ推測は「推測としてこのようにいい」という！
0 だいたい 2次関数 0 0 0 こういうときはいえた。こういうときも！こういうときも！ベイズ推測の汎化損失はにしたがう！？（確率分布）

まず仮定 7 1. パラメータ集合はユークリッド空間のコンパクト部分集合であり、かつ、開集合 ′ ⊃ が存在して、平均誤差 ()
が ′ 上の解析関数である（95ページ注意34）。 2. 対数尤度比 (, 0 , ) が相対的に有限な分散をもつ（36ページ注意12 (1)）。 4章でこれは仮定すること ※ なので、以下のようなときについては考察しない。解析的でない。を含む開集合で定義されていない。 • がコンパクトでない。 • 対数尤度比が相対的に有限な分散をもたない。 ※ ユークリッド空間の閉集合であってじゅうぶん大きな球で覆える。 ※ 定義域の各点においてその点の周りでのテイラー展開と一致する。

立ちはだかる壁 8 汎化損失 = − log (|) のしたがう分布を知りたい。 → は以下のようにキュムラント展開できる。
= 0 + () − 1 2 , 2 − , 2 − 1 3! 3 0 − ⋯ → 事後分布 (|) ∝ exp − の形が知りたい。 → () に何も仮定をおかないとわからない！ 0 だいたい 2次関数 0 0 0 こうであればいいが…。こうかもしれない。こうかもしれない。

こういう変換があればいいのに 9 事後分布 (|) ∝ exp − の形を知りたい。 → (|)
∝ exp − の形でもいいから知りたい。 ※ () を最小値がゼロになるようオフセットしただけ。 → () にしたところで何も仮定がないので全然わからない。 → …パラメータ空間の方を何かぐにゃっと歪めて () を何か統一的な形にもっていくことはできないの？？ 0 0 0 ぐぐぐぐぐ… 解析的なこと以外よくわからない形統一的な形！

そういう変換があります 10 ≧ 0 を開集合 ⊂ ℝ 上の非負解析関数とし、 = 0
を満たす ∈ が存在するとする。このとき、ある次元多様体 ℳ と ℳ 上の局所座標が取りうる値の集合からの解析写像 : → が存在して、ℳ の局所座標ごとに、 = 1 21 2 22 ⋯ 2 ′() = 1 ℎ1 2 ℎ2 ⋯ ℎ が成立するようにできる。ここで ′() は = () のヤコビアンであり、 > 0 は 0 にならない解析関数であり、 = 1 , 2 , ⋯ , , ℎ = (ℎ1 , ℎ2 , ⋯ , ℎ ) は非負の正数の集合である。但し 1 , 2 , ⋯ , のうち少なくともどれか一つは 0 ではない。定理6（特異点解消定理のベイズ一般理論向け版）

つまり 11 = 2 ′ = 2 = 2 =
2 よくわからない形を有限個の統一的な形にできる（ , はそれぞれ異なる） 0 0 0 0 ※ 新しいパラメータ空間は、局所座標系を適当にとり、適当に切り分ければ 0, 1 の形（次元超立方体）として一般性を失わない。 1 1 1 1 を歪めたのがこれ（むしろこっちをで歪めたのが）歪めた世界ではきれいに 2 ≡ 1 21 2 22 ⋯ 2

つまり 12 = 2 ′ = 2 = 2 =
2 なので事前分布も適当に分けてしまえばよい（ , ℎ はそれぞれ異なる） ℎ ℎ ℎ ℎ ここにが立ち込めている ※ がコンパクトなら適当に分けることができる（参考. 1の分割）。 ※ 新しい密度 ℎ は、事前分布を分けた分 × 空間をで歪めた分。 0 0 0 0 1 1 1 1

13 = 2 ′ = 2 ℎ ℎ ここにが
立ち込めている 0 0 1 1 赤青 ℎ ℎ −1 −1 でほどける領域とでほどける領域が重なっているところ適当に分担する

事後分布の標準形 14 事後分布 (|) ∝ exp − の形を知りたい。 → 定理6を適用し、
の分布からの分布に。赤 ∝ exp − ℎ この形を考えればよい。 → は = 2 とはずれるが、 → ∞ であるガウス過程に法則収束する () を用いて、 = − −1 () とかける。 → つまり、事後分布の標準形はこうなる。赤 ∝ exp −2 + () ℎ = 2 ℎ 0 確率的にゆらぐ確率的にゆらがない 1

事後分布の標準形 15 じゃあ、赤 ∝ exp −2 + () ℎ 上で
= 2 の平均や , = (, ) の分散がほしい。 → このままだとやりづらい。 → 2 を主役にした方が捗る。 → の密度 ℎ 上での = 2 の密度を考えたい（こっちの密度を状態密度という）。 0 1 1 0 1 = 2 ここに ℎ が立ち込めている 1 2 ※ 適当

状態密度 16 の密度 ℎ 上での = 2 の密度を知りたい。 → 0
= 2 を満たすはたくさんある。 → = () を満たすの密度を集めてくる記号がある。 = න − () () → ( − 2) ℎ をかけて積分するとどうなるか知りたい。 0 1 1 0 1 = 2 ここに ℎ が立ち込めている 1 2 ※ 適当 0 これ

状態密度 17 ( − 2) ℎ をかけて積分するとどうなるか知りたい。 → → 0
で支配的な成分が大事（事後分布は → ∞ では = 0 で一番濃くなるから）。 → 実はメリン変換という変換で複素数の関数にすると、極の位置から、 → 0 で支配的な成分が取り出せる。 > 0 を実数、 > 0 を自然数とする。 = ቊ−1 − log −1 0 のメリン変換は以下である。 ( )() = − 1 ! + 補題22 → 0 で関数が 0 に近づく速さ極の位置と位数対応 • メリン変換 ― をかけて = [0, +∞) で積分（ ∈ ℂ）。 • 複素関数が正則 ― どこから近づいても値が定まっている。 • 複素関数の極 ― − をかけて正則になるなら = が位極。 = − で値が定まらないが + をかければ定まる。

状態密度 18 ある微小積分 ∗ が存在して → 0 で以下が成り立つ。 − 2
ℎ = −1 − log −1∗ + (より速く0へ) 定理8 メリン変換して、実部が最大の極（ = − ）を取り出せばよい。 , は局所座標ごとに異なるが、0 に近づくのが一番遅いものの値にすればよい。 0 1 = 2 速 0 1 = 2 遅 0 1 = 2 速 0 1 = 2 遅 ↓ 採用 ↓ 採用

状態密度 19 統計的推測のゼータ関数を以下のように定義する。定義18 = න 極を見つける方法は？ → 以下を特異点解消して見つける。リーマンゼータ関数
統計的推測のゼータ関数関数の定義正整数の − 乗の和の乗の事前分布上での平均複素数平面状でふつうに定義されるところの実部が 1 より大きいところの実部が 0 より大きいところ解析接続すると素数の研究とかに役立つ極の位置での → 0 の密度がわかる参考．ふつうに定義されるところからテイラー展開して定義域を広げていくこと。

4章前半のまとめ 20 平均誤差 () が一般的な場合を取り扱うために、定理6の変数変換によって = 2 の形に標準化し、それを用いて事後分布も標準化した。
事後分布上で期待値や分散をとる準備として、事後分布をの密度から = 2 の密度（ → 0 での）に直した。

「ベイズ統計の理論と方法」勉強会「4. 一般理論」前半パート

「ベイズ統計の理論と方法」勉強会「4. 一般理論」前半パート

CookieBox26

More Decks by CookieBox26

Other Decks in Science

Featured

Transcript

渡辺澄夫. ベイズ統計の理論と方法. コロナ社. 2012. Chihiro Mihara 「ベイズ統計の理論と方法」勉強会「4. 一般理論」前半パートテキスト

テキスト4章までが目指すところ 2 「真の分布 () はおおよそ ∗ ≡ ׬ であろうと考える」こと。

テキスト3章までのあらすじ（1/2） 3 汎化損失 = − log (|) のしたがう分布を知りたい。 → は以下のようにキュムラント展開できる。

= 0 + 1 2 + 1 2 2 −

3章を終えて普通に気になること 5 平均対数損失 () が「ただ1つの最小点 0 をもち、0 でのヘッセ行列が正定値である」ものではない場合は、ベイズ推測は「推測としてこのようにいい」といえないの？？

だから4章でやっていきたいこと 6 平均対数損失 () が「ただ1つの最小点 0 をもち、0 でのヘッセ行列が正定値である」ものであるという仮定を外して、ベイズ推測は「推測としてこのようにいい」という！

まず仮定 7 1. パラメータ集合はユークリッド空間のコンパクト部分集合であり、かつ、開集合 ′ ⊃ が存在して、平均誤差 ()

立ちはだかる壁 8 汎化損失 = − log (|) のしたがう分布を知りたい。 → は以下のようにキュムラント展開できる。

こういう変換があればいいのに 9 事後分布 (|) ∝ exp − の形を知りたい。 → (|)

そういう変換があります 10 ≧ 0 を開集合 ⊂ ℝ 上の非負解析関数とし、 = 0

つまり 11 = 2 ′ = 2 = 2 =

つまり 12 = 2 ′ = 2 = 2 =

13 = 2 ′ = 2 ℎ ℎ ここにが

事後分布の標準形 14 事後分布 (|) ∝ exp − の形を知りたい。 → 定理6を適用し、

事後分布の標準形 15 じゃあ、赤 ∝ exp −2 + () ℎ 上で

状態密度 16 の密度 ℎ 上での = 2 の密度を知りたい。 → 0

状態密度 17 ( − 2) ℎ をかけて積分するとどうなるか知りたい。 → → 0

状態密度 18 ある微小積分 ∗ が存在して → 0 で以下が成り立つ。 − 2

状態密度 19 統計的推測のゼータ関数を以下のように定義する。定義18 = න 極を見つける方法は？ → 以下を特異点解消して見つける。リーマンゼータ関数

4章前半のまとめ 20 平均誤差 () が一般的な場合を取り扱うために、定理6の変数変換によって = 2 の形に標準化し、それを用いて事後分布も標準化した。

「ベイズ統計の理論と方法」勉強会 「4. 一般理論」前半パート

「ベイズ統計の理論と方法」勉強会 「4. 一般理論」前半パート

More Decks by CookieBox26

Other Decks in Science

Featured

Transcript

「ベイズ統計の理論と方法」勉強会「4. 一般理論」前半パート

「ベイズ統計の理論と方法」勉強会「4. 一般理論」前半パート