Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PRML Sec3.4-3.6 (Japanese)

Avatar for ymnk ymnk
June 02, 2020

PRML Sec3.4-3.6 (Japanese)

Japanese presentation material of PRML(Pattern Recognition and Machine Learning).
This contains Sec3.3 to Sec 3.6.
- Bayesian Model Comparison(ガウスモデル比較)
- The Evidence Approximation(エビデンス近似)
- Limitation of Fixed Basis Functions

Avatar for ymnk

ymnk

June 02, 2020
Tweet

More Decks by ymnk

Other Decks in Science

Transcript

  1. Sec1.2-1.3 頻度論とベイズ的アプローチ • 最尤推定 ◦ p(D|w)を最大化するパラメータ wを求める ◦ パラメータwを固定して、データ Dが生成される確率を考える

    →頻度論 • MAP推定 ◦ p(w|D)を最大化するパラメータ wを求める ◦ データDを固定してパラメータ wが生成される確率を考える →ベイズ的 ◦ パラメータwの「不確実性」を導入する考え方 • 完全なベイズ的アプローチ ◦ MAP推定はパラメータ wを点推定しているが、本来の目的は新しい入力に対する予測ができたら ok ◦ そこでwのすべての値に対して積分するアプローチが考えられる 復習
  2. エビデンス関数の最大化 • エビデンス関数を最大化する α,βを求める • エビデンス関数(3.86)のαについての停留点 • なんかいろいろやる(en:p169, ja:p168)と、αについての陰関数が得られる •

    γは有効パラメータ数と呼ばれる α=f(α)の状態なので繰り返し法で収束 解を求める λ_iはヘッセ行列Aの固有値(i=<M) λ_iはすべて正
  3. 有効パラメータ数 • λ_iがαに対して非常に大きい場合、 λ_i/(α+λ_i )は1に近 い値をとる。この場合、対応するパラメータは w_iは最 尤推定値に近い • そのようなパラメータはデータによって強く制約されるこ

    とからwell-determinedパラメータと呼ばれる • λ_iがαに対して非常に小さい場合、 λ_i/(α+λ_i )は0に近 い値をとる。この場合、対応するパラメータ w_iは事前 分布にしたがって小さい値に設定される。 • よってγは尤度関数の感度が高い向きにあるパラメータ の数(有効パラメータ数)と解釈できる
  4. 基底関数を固定することの限界 • 非線形基底関数を線形結合することのメリット ◦ 最小二乗法の閉じた解がもとまる ◦ ベイズ推定の計算が簡単 ◦ 基底関数を適切に選べば、任意の非線形変換をモデル化できる •

    デメリット ◦ 入力空間の次元数に対応した数の基底関数が必要= 次元の呪い • 解決法 ◦ 本質的な次元数(データ多様体)が入力空間の次元数より小さい性質を用いる ▪ RDFネットワーク、SVM、関係ベクトルマシン ◦ 目標変数がデータ多様体のほんの少数の方向にしか強く依存しない性質を用いる ▪ ニューラルネットワーク
  5. まとめ • ベイズモデル比較は、モデルの複雑さとパラメータの不確実性の両方を考慮した情報量基準を与える ◦ 訓練データだけに基づいたモデル比較ができる(交差検定不要) ◦ 過学習によるバイアス(複雑さ)を回避できる ◦ モデルの不確実性も考慮できる •

    それに基づいた回帰モデリングをエビデンス近似と呼ぶ • エビデンス近似では、超パラメータを周辺化し、モデルの複雑性が「ちょうどよい」ところにおさまる超パラ メータを自動で導出する • 要するに、過激なベイジアンは、 MAP推定にとどまらず、超パラメータ自体の事前分布まで考える • [頻度論] 最尤推定→MAP推定→エビデンス近似→??[ベイジアン] • 次元の呪いからは逃れらないぞ