数式をなるべく使わないベイズ推定入門

数式をなるべく使わないと言いつつけっこう使ってるけど、かなり分かりやすいと思われるベイズ推定入門アドファイブ株式会社代表礒部正幸 2013/2/3 モヤLT
発表資料於）リディラバ事務所

確率変数（例１）「明日の天気」という確率変数天気 = {晴れ90%, 雨7%, 雪3% } （例２）
「３０日後の天気」という確率変数天気 = {晴れ50%, 雨45%, 雪5% } （例３）「とある女子の女心」という確率変数女心 = {好き 20%, 気になる30%, なんとも思わない40%, 嫌い10%} （例４）「とある女子の飲み会での態度」という確率変数態度 = {会話が弾んだ 50%, 終始大爆笑15%, 会話なし20%, 目が合っただけ 15%}

確率変数の推定・点推定確率変数の値を一つに決める → 例えば「女心＝“好き“」と決め打ってしまう・ベイジアンな推定確率変数の各実現値（＝好きとか嫌いとか）のそれぞれの確率（＝確率分布）を一つに決める
→ 例えば｛好き＝70%, 気になる=15%, なんとも思わない=10%, 嫌い=5%｝ → 値は決め打ちしないけど、「傾向をハッキリさせる」のがポイント。ベイズの定理を使って、傾向の移り変わりを定量的に計算するのがベイズ推定。

（点推定といえば）最尤推定・尤度が最も高いパラメータに決め打ちする推定方法例）態度＝「目が合っただけ」だった場合,尤度＝Ｐ（態度｜女心）はＰ（目が合った｜好き）＝９０％Ｐ（目が合った
| 嫌い）＝４０％Ｐ（目が合った | なんとも思わない）＝７０％Ｐ（目が合った｜気になる）＝６０％ → 尤度が最も高いパラメータ（＝女心）の実現値は“好き”なので、最尤推定では、「目が合っただけ」という態度から「女心＝好き」と推定される ⇨ 最尤推定の欠点：オーバーフィッティング（つまり、勘違い）尤度は、女心（＝パラメータ）が態度（＝データ）を生み出すメカニズムを規定するもの尤度はメカニズム

ベイズの定理事後分布＝事前分布 × 尤度 ÷ データの出現確率 ∝ 事前分布
× 尤度事後分布＝P（パラメータ|データ）＝Ｐ（女心|態度）事前分布＝P（パラメータ）＝Ｐ（女心）尤度＝P（パラメータ|データ）＝Ｐ（態度|女心）データの出現確率＝P（データ）＝Ｐ（態度）相手の反応を見て女心を推測する「元々がどんだけ」モテるのかはで決まる、という定理女心が態度に表れる「メカニズム」心によらずどんな態度をとりがちか MAP推定（後述）やMCMC （後述）では分母は関係なくなるため、こちらの比例の式も定番

ベイズ更新事後分布＝事前分布 × 尤度 ÷ データの出現確率 ∝ 事前分布
× 尤度事後分布N ∝ 事前分布N-1 × 尤度N ∝ 事前分布N-2 × 尤度N × 尤度N-1 … ⇨ 新しいデータを得るたびに、事後分布を更新していける（最初の事前分布については、でっち上げる。）

MAP（最大事後確率）推定・（尤度じゃなくて）事後確率が最大になるようなパラメータを決める ※事後確率の計算は∝の式を使えばオッケー（比例定数＝データ出現確率）例）態度＝「目が合っただけ」だった場合,事後分布＝Ｐ（女心｜態度）なので、Ｐ（好き｜目が合っただけ） ∝
Ｐ（好き）×Ｐ（目が合う｜好き）Ｐ（嫌い｜目が合っただけ） ∝ Ｐ（嫌い）×Ｐ（目が合う｜嫌い）Ｐ（なんとも｜目が合っただけ） ∝ Ｐ（なんとも）×Ｐ（目が合う｜なんとも）Ｐ（気になる｜目が合っただけ） ∝ Ｐ（気になる）×Ｐ（目が合う｜気になる）（参考）MAP推定はベイズの定理は使うけど点推定なため、ふつうベイジアンな推定手法とはみなされない。

予測モデルと周辺化【問題】Ｐ（予測したい事象 | パラメータ）が分かっている時、Ｐ（予測したい事象）を知りたい。【解】・点推定の場合
⇨ パラメータの点推定値を予測モデルに代入すれば、予測分布が求まる例）Ｐ（Ｘ）＝Ｐ（Ｘ｜女心） | 女心=“好き” ＝Ｐ（Ｘ｜“好き“）Ｐ（“OK”）＝Ｐ（”OK” | “好き”）Ｐ（“NG”）＝Ｐ（”NG” | “好き”）・ベイズ推定の場合 ⇨ パラメータの確率を使って予測モデルの期待値を計算すると、予測分布が求まる例）Ｐ（Ｘ）＝ Σ 女心｛Ｐ（Ｘ｜女心）× Ｐ（女心）｝Ｐ（”OK”）＝Ｐ（”OK” | “好き”）×Ｐ（”好き”） + Ｐ（”OK” | “嫌い”）×Ｐ（”嫌い”） + Ｐ（”OK” | “なんとも”）×Ｐ（”なんとも”） + Ｐ（”OK” | “気になる”）×Ｐ（”気になる”） ← 予測モデル ← 予測分布 ← こういう実現値の全パターンを総ナメして確率変数を消す計算を周辺化と呼ぶ。周辺化を行うのがベイジアンな推定の特徴。

パラメトリックなモデル（← 点推定、ベイズ推定のどちらでも使える概念です）・確率変数の各実現値に１個ずつ確率を設定していくと大変例）女心 = {好き a%, 気になるb%, なんとも思わないc%,
嫌いd%} a+b+c+d=100, a≧0 , b≧0 , c≧0 , d≧0 ・少ない変数（例えば１個の変数θとか）で確率分布が表現できると嬉しい例）ｆ（ θ） = ← 毎回変数４つ計算してくのダルい‥(TдT) 好き度面積=１００cm2 好き気になるなんとも嫌い Θ＝3 の場合好き度好き気になるなんとも嫌い女心 ⇨ a,b,c,dを使う代わりに、ｆ（θ）のグラフの区分面積で％を決めるＰ（女心）の代わりにＰ（ｆ（θ））を使えば女心の種類が増えても（“好きかも“とか）変数１個で済む！ Θ＝7 の場合面積=１００cm2

パラメトリックな点推定とベイズ推定・パラメトリックなモデルのθに対しても点推定とベイズ推定を考えられる【θの点推定】（ここまでのスライドの話はこちら）パラメータの値を一つに決めて予測する例） θ ＝ 7 （右図）
実現値は一つに決めなくても良い予測に「周辺化」のテクニックを使っても良いｆ（θ）を工夫すると、ベイズの定理の事前・事後分布でｆの形を変えずにθだけの計算で済むように出来る（そういうｆを共益分布と呼ぶ。例えばベータ分布。）【θのベイズ推定】（これまでのスライドに無い新しい話）パラメータの値が確率変数になる θに対して周辺化すれば予測分布が求まる好き度好き気になるなんとも嫌い Θ＝7 面積=１００cm2 Θ … 3 … 7 … Θ＝7 Θ＝3 ｆ（θ）ｆ（θ）

サンプリング法・「θに対して周辺化」って一体どうやるの(；´ﾟдﾟ｀) ⇨ θの全パターンをリストアップ【課題】「パターンの数が多い」 or 「θが連続値で積分も大変」【対策】
θ は確率変数なので、「θというサイコロを振って出た目（例えばθ＝3.5とか）を使ってf（θ）のグラフを求めて予測分布を計算」を何度も繰り返すと、「予測分布というサイコロ」を何度も振って予測値という出目を記録するのと同じことになる ⇨ θの全パターンを計算し尽くさなくても、予測分布というサイコロの傾向が分かる ⇨ つまり予測出来る。 Θ … 3 … 7 … Θ＝3.141592.. ｆ（θ） Θが連続値（＝実数）だったら全パターンを総ナメとかムリ… ⇨ 積分を計算する？ Θ … 3 … 7 …

• サンプリングのテクニック（ベイズ推定以外にも使える汎用的な手法）【課題】 Θのグラフが複雑すぎて「θの出目に似た傾向の乱数ルーチン」を作るのがムズい【対策】「Θの出目を直接生成」する乱数ルーチン（☆）は難しくても、「前の出目が決まってる時に、次の出目を生成」する乱数ルーチン（＊）は割りと作りやすかったりする。
その（＊）を上手く設計（★）すると、θ＝θ0 を出発点として、 θ1 –（＊）-> θ2 –（＊）-> θ3 –（＊）-> という系列があたかも乱数ルーチン（☆）からの出力であるかのような乱数を作り出せる。（ただし前の値との相関が大きいので、Ｎ個スキップ毎に採用するとか、バーンインのため初期値θ0～θ1000 までは捨てるとか、色々工夫する。 Θ … 3 … 7 … こういう分布（サイコロ）だったらたぶん簡単にシミュレーションできるしかしこういうのはむずい。（Θが２次元だし…） ※（★）の（十分条件）は理論的に分かっているマルコフ連鎖モンテカルロ（略してＭＣＭＣ）

（参考１）経験ベイズ【別の対策】そもそもP（θ）が積分できないのが問題なので、Ｐ（θ）を（公式とかが既にあって）積分を計算しやすいパラメトリックな関数を使って表現してしまうという手法。 ⇨ Ｐ（θ）＝ｇ（θ；α） Θのグラフを決めるパラメータαを「超パラメータ」と呼ぶ。そうすると、θについての周辺化は公式を使って予め計算しておけるので、
αについての最尤推定値を求めればθのグラフが１個に決まる。尤度＝Ｐ（データ｜θ）, 周辺尤度＝Σ_θ ｛Ｐ（データ｜ｇ（θ；α））｝＝公式集で計算＝Ｐ（データ｜α） ⇨ これで最尤なαを求めるその結果、ベイズ更新も予測分布も簡単に計算できるようになる。 ⇨ Ｐ（αで決まるθ｜データ）＝Ｐ（αで決まるθ）×Ｐ（データ｜αで決まるθ） ⇨ Ｐ（Ｘ）＝Σ_｛αで決まるθ｝Ｐ（Ｘ｜αで決まるθ）＝公式集で計算＝αの関数 Θ … 3 … 7 … α＝0.1 θのグラフ自体をパラメトリックにしてしまう。という風に、ベイズ推定の計算を予め済ませておくことで超パラメータは最尤推定（経験）で決めればあとは計算ラクラクになるのが「経験ベイズ」

（参考２）階層ベイズ・経験ベイズ（前スライド）のおさらい【課題】Θの周辺化が大変【対策】超パラメータαで形が決まる「公式集で積分計算が簡単（※）」なθの形をわざと選び、尤度や事後分布や予測分布の式をθについて（公式集を使って）予め周辺化しておいて超パラメータだけ変数としてくくりだしておく。データからはαを最尤推定する。ここで、（そもそもの２ページ前の課題から脱線するけど、）「 αを点推定じゃなくてベイズ推定したらもっとすごくね？」
というアイディアが出てくる。どうすごいかというと、「『確率変数によって決まるモデル』によって決まるモデル」という風にモデル（=θのグラフの形）自体を確率によって作り出せるところが凄い。（あと、２段階踏んでるにもかかわらず計算式はαのベイズ推定を１回やるだけで済むところも嬉しい。） ⇨ こういう風に、「パラメータのグラフの形を確率で決める」のを２段階（かそれ以上）に階層化して、周辺化を（公式集で予め計算してもいいし、適宜サンプリングしてもいい）行なって推定や予測を行うという方法を「階層ベイズ」と呼ぶ。 ※ふつう、教科書では「公式集を使って簡単に求める」ではなく「解析的に求める」という風に書かれている Θ … 3 … 7 … Θ … 3 … 7 … α α＝0.1 α＝0.8

（参考３）変分ベイズ・確率分布を近似する方法は「サンプリング」だけではなく他にもある。【動機】そもそも積分が難しいからサンプリングするのであった。ならば積分を計算しやすい簡単な確率分布を使って近似すれば良いではないか！【計算方法】パラメータ（複数のパラメータがあるとする）について周辺化するＰ（データ）＝Σ_｛パラメータ｝｛Ｐ（パラメータ, データ）｝（＊）
これだと（＊）の右辺のΣは複数のパラメータの組み合わせの全パターンを総ナメしなければならない。ここで、Ｐ（パラメータ）の近似関数をＱ（パラメータ）とすると、次のAとBは同値になることが分かっている（A）Ｑ（パラメータ）はＰ（データ）を最大化するような関数である（B）Ｐ（パラメータ｜データ）とＱ（パラメータ）のＫＬダイバージェンスが最小になるようなＱそこで、Ｑ＝Ｑ1（パラメータ分割１）×Ｑ2（パラメータ分割２）×…×Ｑn （パラメータ分割Ｎ）という風に複数のパラメータに分割して掛け合わせるような近似手法（平均場近似と呼ぶ）を使うと、嬉しいことに（B）を満たすようなＱ、すなわち各Ｑ1～Ｑn は（＊）の右辺でパラメータの組み合わせを全パターン調べなくても、パラメータの分割ごとに部分的に総ナメすれば良くなるってことが「変分理論」によって導かれる！！組み合わせ爆発！総ナメは無理！そこで、パラメータを小分けにして、「小分けごとに総ナメ」すれば済むようにしたい。（余談）ちなみに EMアルゴリズムの一般形もこれと同じノリで導出できる

（参考４）ノンパラベイズそもそもθとかαとかパラメータを使ってグラフの「形」を決めるのって自由度低くね？超パラメータを使ってあらかじめ確率分布の形を想定しておくことさえせず、確率分布を直接作ってくれるような方法はないか？例）女心＝｛好きa%, なんともb%, 嫌いc%｝ (a+b+c =
100%) ｛好きa%, ちょっと好きb%, なんともc%, 嫌いc%, 大嫌いd%｝ (a+b+c+d = 100%) ｛超好きa%, 大好きb%, 好きc%, ちょっと好きd%, なんともe%, 嫌いf%, 大嫌いg%, キモいh% ｝ (a+b+c+d+e+f+g+h = 100%) 以下、無限にパターンを秘めているこの例だと、もともとが「好き⇔嫌い」という１次元の数直線で表せるけど、「友達としてどうこう」とか質的に異なるパラメータがいっぱい考えられるようなケースを全部「想定内」におさめたいというニーズは当然ある。そんなのできるのか？ ⇨ できるんです、そう、ノンパラベイズならね。この例は「ディリクレ過程」というのを使うとできる。実際に使うと、データ（態度）に応じてa,b,c,d,e,…というパラメータ（女心）の各確率が計算できるようになる。（変数がいくつ出てくるか分からないのに足したら１００％になるようにパラメータを計算できる。スゲー。）

おわりに・点推定にも色々な手法があります。・特に、データが一部失われてたり、観測出来なかったりしても尤度を計算できるEMアルゴリズム・ベイズ推定は機械学習の分野でよく使われてます。・回帰への応用、とくにパラメトリックなモデルを使いながら使い勝手はノンパラメトリックな「ガウス過程」・同時分布の構造を表現する「ベイジアンネットワーク」・時系列データに特化した逐次的なベイズ推定である「粒子フィルタ」などなど・機械学習はベイズ推定以外にも色んな手法があって面白いです。・カーネル法や「サポートベクタマシン」
・線形変換の固有値をを使う手法：「主成分分析」や「独立成分分析」など・「決定木」や「強化学習」、「バギング」や「ブースティング」などなど・「趣味で機械学習」楽しいのでオススメ！（これからデータマイニングは重要なので実利もあります）アドファイブの製品は機械学習の技術をふんだんに取り入れていきます！（デマンドサイドの入札エンジン、オーディエンスデータ拡張、クリエイティブ最適化、パーソナライズドバナーなどなど） ⇨ 続きは３月の「UUY機械学習セミナー presented by アドファイブ（株）」でやりますので、お楽しみに！

数式をなるべく使わないベイズ推定入門

数式をなるべく使わないベイズ推定入門

Masayuki Isobe

Other Decks in Technology

Featured

Transcript

数式をなるべく使わないと言いつつけっこう使ってるけど、かなり分かりやすいと思われるベイズ推定入門アドファイブ株式会社代表礒部正幸 2013/2/3 モヤLT

確率変数（例１）「明日の天気」という確率変数天気 = {晴れ90%, 雨7%, 雪3% } （例２）

確率変数の推定・点推定確率変数の値を一つに決める → 例えば「女心＝“好き“」と決め打ってしまう・ベイジアンな推定確率変数の各実現値（＝好きとか嫌いとか）のそれぞれの確率（＝確率分布）を一つに決める

（点推定といえば）最尤推定・尤度が最も高いパラメータに決め打ちする推定方法例）態度＝「目が合っただけ」だった場合,尤度＝Ｐ（態度｜女心）はＰ（目が合った｜好き）＝９０％Ｐ（目が合った

ベイズの定理事後分布＝事前分布 × 尤度 ÷ データの出現確率 ∝ 事前分布

ベイズ更新事後分布＝事前分布 × 尤度 ÷ データの出現確率 ∝ 事前分布

予測モデルと周辺化【問題】Ｐ（予測したい事象 | パラメータ）が分かっている時、Ｐ（予測したい事象）を知りたい。【解】・点推定の場合

パラメトリックなモデル（← 点推定、ベイズ推定のどちらでも使える概念です）・確率変数の各実現値に１個ずつ確率を設定していくと大変例）女心 = {好き a%, 気になるb%, なんとも思わないc%,

サンプリング法・「θに対して周辺化」って一体どうやるの(；´ﾟдﾟ｀) ⇨ θの全パターンをリストアップ【課題】「パターンの数が多い」 or 「θが連続値で積分も大変」【対策】