gaussianprocessregression

ガウス過程回帰 Gaussian Process Regression 大阪府立大学工学研究科清水悠生

2 本記事の内容と対象 ✓ ガウス過程による回帰をなんとなく理解するための記事 ✓ この順番で説明 ① ガウス分布とは ②
ガウス過程回帰をざっくり理解する ③ ガウス過程の導出と意味 ④ ガウス過程を用いた回帰分析

3 ①ガウス分布とは ✓ まずガウス過程回帰の名前の由来でもあるガウス分布と呼ばれる確率分布の話からスタート

4 ガウス分布（正規分布）とは ✓ 確率密度が次式で与えられる分布をガウス分布（正規分布）と呼び， 𝑁 𝜇, 𝜎2 で表す 𝑁
𝜇, 𝜎2 = 1 2𝜋𝜎2 exp − 𝑥 − 𝜇 2 2𝜎2 変数 x 確率密度 𝑥 = 𝜇 1 2𝜋𝜎2 exp − 𝑥 − 𝜇 2 2𝜎2 𝜇: 平均 𝜎2: 分散 𝜎: 標準偏差

5 標準偏差と確率 ✓ 平均を中心とした標準偏差の整数倍以内のデータが出力される確率は下図のとおり ±1σの領域 𝜇 𝜇 𝜇 𝜇
+ 3𝜎 𝜇 − 3𝜎 𝜇 + 2𝜎 𝜇 − 2𝜎 𝜇 + 𝜎 𝜇 − 𝜎 ±2σの領域 ±3σの領域全体の68.3% 全体の95.4% 全体の99.7% 95.4%の確率で 𝜇 ± 2𝜎 の間の値が出力される！という意味

6 分散のイメージ ✓ 分散はばらつき具合を表す指標であり分散が小さいほど平均値に近い値が得られやすくなる変数 x 確率密度 𝑥 =
𝜇 変数 x 確率密度 𝑥 = 𝜇 分散：大分散：小

7 2次元のガウス分布 ✓ ガウス分布を2次元に拡張すると次式のようになる 𝑁 𝝁, 𝚺 = 1 2𝜋
𝚺 exp − 1 2 𝒙 − 𝝁 𝑇𝚺−1 𝒙 − 𝝁 変数 x 1 変数 x 2 確率密度 𝑥1 = 𝜇1 𝑥2 = 𝜇2 𝒙 = 𝑥1 𝑥2 : 確率変数ベクトル， 𝝁 = 𝜇1 𝜇2 : 平均ベクトル，𝚺 = 𝜎1 2 𝜎12 𝜎21 𝜎2 2 : 分散共分散行列 x 1 の分散 x 1 とx 2 の共分散 (σ 12 = σ 21 ) x 2 の分散

8 共分散のイメージ ✓ 変数間に相関があるとき，共分散の絶対値は大きくなる 𝚺 = 1 0 0 1
𝚺 = 1 −0.9 −0.9 1 𝚺 = 1 0.7 0.7 1 相関なし(独立) x 1 x 2 x 1 x 2 x 1 x 2 正の相関負の相関 x 1 x 2 x 1 x 2 x 1 x 2 確率密度分布ガウス分布からのサンプル

9 N次元のガウス分布（多変量正規分布） ✓ ガウス分布をN次元に拡張すると次式のようになる 𝑁 𝝁, 𝚺 = 1 2𝜋
𝑁/2 𝚺 exp − 1 2 𝒙 − 𝝁 𝑇𝚺−1 𝒙 − 𝝁 ✓ 多変量正規分布とよぶ 𝒙 = 𝑥1 𝑥2 ⋮ 𝑥𝑁 : 確率変数ベクトル，𝝁 = 𝜇1 𝜇2 ⋮ 𝜇𝑁 : 平均ベクトル， 𝚺 = 𝜎1 2 𝜎12 𝜎21 𝜎2 2 … 𝜎1𝑁 … 𝜎2𝑁 ⋮ ⋮ 𝜎𝑁1 𝜎𝑁2 ⋱ ⋮ … 𝜎𝑁 2 : 分散共分散行列分散共分散

10 ②ガウス過程回帰をざっくり理解する ✓ ガウス過程回帰は回帰分析手法の一つ ✓ カーネル関数を適切に選択することで非線形な回帰分析が可能 ✓ どれだけその予測が信頼できるか，という情報も算出可能

11 回帰分析の前提 ✓ 下図のデータが与えられている状況を考える入力変数 x 目的変数 y

12 最小二乗法の場合 ✓ 最小二乗法により求めた3次の多項式近似曲線は下図の通り ✓ 未知データ x* の予測 f(x*) は定数として与えられる
入力変数 x 目的変数 y 𝑦 = 𝑓 𝑥 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥2 + 𝑤3 𝑥3 ✓ 最小二乗法の詳細はこちら ✓ https://yuyumoyuyu.com/2020/12/13/simpleregressionwithols/ x* f(x*)

13 ガウス過程回帰の場合 ✓ ガウス過程回帰の場合は予測が確率として与えられる！ ✓ 未知データ x* の予測 f(x*) はガウス分布に従う
入力変数 x 目的変数 y 𝜇∗ 𝑓 𝑥 の平均を繋いだ線 𝑓 𝑥 の 𝜇 ± 𝜎 の領域 𝜇∗ − 𝜎∗ 𝑥∗ 𝜇∗ + 𝜎∗ 𝑓 𝑥∗ ~𝑁 𝜇∗, 𝜎∗2

14 ガウス過程回帰の特徴 ✓ ガウス過程回帰の予測結果は，入力(教師)データから遠ければ遠いほど分散が大きくなる (予測の信頼度が低下) 入力変数 x 目的変数 y
教師データから遠いため分散が大きい！ (予測の信頼度が低い！) 教師データに近いため分散が小さい！ (予測の信頼度が高い！)

15 ガウス過程回帰のざっくりまとめ ✓ ガウス過程回帰の特徴は下記の通り ⚫ モデルの予測値が確定した値ではなく確率で与えられる ⚫ その予測値はガウス分布に従い，分散の値により予測の信頼度が求められる ⚫
教師データに近い入力変数が与えられた場合は，予測値の分散が小さくなる（予測の信頼度が高くなる） ✓ なんとなく理解出来たら，先にプログラムを動かしてみるのも手↓ ✓ https://github.com/yshimizu12/GaussianProcessRegression

16 ③ガウス過程とは ✓ まず，ガウス過程とは何か説明

17 ガウス過程の定義 ✓ ガウス過程の定義は以下の通り ✓ 入力 x 1 , x
2 ,…, x N が与えられたとき対応する出力ベクトル f が多変量ガウス分布に従うとき f はガウス過程に従う，という 𝒇 = 𝑓 𝑥(1) 𝑓 𝑥(2) ⋮ 𝑓 𝑥(𝑁) ~𝑁 𝝁, 𝜮 ✓ 次ページから，この導出と意味について説明

18 線形回帰モデルの引用 ✓ n組のデータが与えられた場合の線形回帰モデルは以下の通り 𝑦(1) 𝑦(2) ⋮ 𝑦(𝑛) =
𝑤0 + 𝑤1 𝑥 1 (1) 𝑥 1 (2) ⋮ 𝑥 1 (𝑛) + ⋯ + 𝑤𝑚 𝑥𝑚 (1) 𝑥𝑚 (2) ⋮ 𝑥𝑚 (𝑛) = 1 1 ⋮ 1 𝑥 1 (1) 𝑥 1 (2) ⋮ 𝑥 1 (𝑛) ⋯ ⋯ ⋯ 𝑥𝑚 (1) 𝑥𝑚 (2) ⋮ 𝑥𝑚 (𝑛) 𝑤0 𝑤1 ⋮ 𝑤𝑚 ⟺ 𝒚 = 𝑿𝒘 𝑦(𝑖)：i番目の出力データ(i = 1,…,n) 𝑥1 𝑖 , … , 𝑥𝑚 (𝑖)：i番目のm種類の入力データ(i = 1,…,n) 𝑤0 , … , 𝑤𝑚 ：重み係数 ✓ こちら↓で定義したモデル ✓ https://yuyumoyuyu.com/2020/12/20/multipleregression/

19 非線形写像 ✓ 関数の表現力をあげるため，入力ベクトルを関数化して表現する 𝑦(1) 𝑦(2) ⋮ 𝑦(𝑛) =
𝜙0 𝒙(1) 𝜙0 𝒙(2) ⋮ 𝜙0 𝒙(𝑛) 𝜙1 𝒙(1) 𝜙1 𝒙(2) ⋮ 𝜙1 𝒙(𝑛) ⋯ ⋯ ⋯ 𝜙𝑚 𝒙(1) 𝜙𝑚 𝒙(2) ⋮ 𝜙𝑚 𝒙(𝑛) 𝑤0 𝑤1 ⋮ 𝑤𝑚 ⟺ 𝒚 = 𝚽𝒘 𝑦(𝑖)：i番目の出力データ (i = 1,…,n) 𝒙(𝑖)：i番目の入力ベクトル (i = 1,…,n) 𝜙𝑗 ：j番目の関数 (j = 0,…,m) 𝑤0 , … , 𝑤𝑚 ：重み係数関数の例 𝜙 𝑥 = 𝑥2, 𝑥3, sin 𝑥 , log 𝑥 , … 様々な非線形表現を用いることでモデルの表現力を向上！

20 重みをガウス分布に従って生成 ✓ 重み w が以下のガウス分布から生成されるものとする 𝒘 = 𝑤0 𝑤1
⋮ 𝑤𝑚 ~𝑁 𝟎, 𝜆2𝚰 = 𝑁 0 ⋮ 0 , 𝜆2 𝟎 ⋱ 𝟎 𝜆2 分散は全て 𝜆2 共分散は全て0⇒独立！ ✓ 行列 Φ は定数行列であるため，出力ベクトル y = Φw も同様にガウス分布に従う平均0

21 出力ベクトルの平均と共分散行列 ✓ 出力ベクトルの期待値は以下のとおり 𝔼 𝒚 = 𝔼 𝚽𝒘 =
𝚽𝔼 𝒘 = 𝟎 𝔼 𝑋 : Xの期待値 Φは定数ｗの期待値は0 ✓ 出力ベクトルの共分散行列は以下のとおり 𝛴 = 𝔼 𝒚 − 𝔼 𝒚 𝒚 − 𝔼 𝒚 𝑇 = 𝔼 𝒚𝒚𝑇 = 𝔼 𝚽𝒘 𝚽𝒘 𝑇 = 𝔼 𝚽𝒘𝒘𝑇𝚽𝑇 = 𝚽𝔼 𝒘𝒘𝑇 𝚽𝑇 = 𝚽 𝜆2𝚰 𝚽𝑇 = 𝜆2𝚽𝚽𝑇 E[y]=0 y=Φwを代入転置行列の積の公式 Φは定数 wの分散をV[w]とすると V[w]=E[wwT]-E[w]E[w]T =E[wwT]

22 まとめると… ✓ これまでの計算をまとめると次のようになりこれは最初のガウス過程の定義に一致 𝒚~𝑁 𝟎, 𝜆2𝚽𝚽𝑇 ✓ この計算には重みベクトル
w が出てこない！ ✓ つまり，他の機械学習手法のように重みを学習する必要がなく，共分散行列を計算するだけでよい！

23 出力データの平均は0でよいのか？ 𝒚~𝑁 𝟎, 𝜆2𝚽𝚽𝑇 ✓ 平均ベクトルが 0 になっているが観測データ
y はあらかじめ平均を引いておけば平均が 0 になるため，以下では平均 0 のガウス過程を扱う x y 平均で引く x y 平均

24 ガウス過程の共分散行列の解釈 ✓ 共分散は特徴ベクトル Φ の内積で計算できるため類似した入力ベクトル x に対応する出力 y
も似た値をとる 𝚺 = 𝜆2𝚽𝚽𝑇 = 𝜆2 ⋮ 𝜙0 𝒙(𝑖) ⋯ 𝜙𝑚 𝒙(𝑖) ⋮ 𝜙0 𝒙(𝑗) ⋯ ⋮ ⋯ 𝜙𝑚 𝒙(𝑗) = 𝜆2 ⋮ 𝝓 𝒙(𝑖) 𝑇 ⋮ ⋯ 𝝓 𝒙(𝑗) ⋯ ⟹ 𝚺𝑖𝑗 = 𝜆2𝝓 𝒙(𝑖) 𝑇 𝝓 𝒙(𝑗) 共分散行列の(i,j)要素 𝒙(𝑖) と 𝒙(𝑗) が似たベクトル 𝝓 𝒙(𝑖) と 𝝓 𝒙(𝑗) の内積が大きい 𝜮𝑖𝑗 が大きい 𝑦(𝑖)と𝑦(𝑗)が似た値となりやすい (p.8参照)

25 カーネル関数の導入 ✓ 共分散行列の各要素は特徴ベクトル Φ の内積によって決まるため，特徴ベクトルを明示的に求める必要はない ✓ 適当なカーネル関数を用いることで，共分散行列を表現 ✓
カーネル行列やグラム行列と呼ばれる 𝚺 = 𝐊 = 𝑘 𝒙(1), 𝒙(1) 𝑘 𝒙(1), 𝒙(2) 𝑘 𝒙(2), 𝒙(1) 𝑘 𝒙(2), 𝒙(2) … 𝑘 𝒙(1), 𝒙(𝑁) … 𝑘 𝒙(2), 𝒙(𝑁) ⋮ ⋮ 𝑘 𝒙(𝑁), 𝒙(1) 𝑘 𝒙(𝑁), 𝒙(2) ⋱ ⋮ … 𝑘 𝒙(𝑁), 𝒙(𝑁) 𝑘 𝒙(𝑖), 𝒙(𝑗) = 𝜆2𝝓 𝒙(𝑖) 𝑇 𝝓 𝒙(𝑗) カーネル関数：x(i)とx(j)の類似度を表現する関数共分散行列をカーネル行列（グラム行列）K を用いて表現

26 ④ガウス過程を用いた回帰分析 ✓ つづいて，ガウス過程を用いた回帰分析の方法について説明

27 未知のデータをどう予測するか？ ✓ 図のように既知のデータセットが与えられた前提で未知の入力変数 x* に対応する y* を予測する入力変数
x 目的変数 y 𝑥(1), ො 𝑦(1) 𝑥(2), ො 𝑦(2) 𝑥(3), ො 𝑦(3) 𝑥(4), ො 𝑦(4) 𝑥(5), ො 𝑦(5) 𝑥(6), ො 𝑦(6) 𝑥(7), ො 𝑦(7) x* y*はどこ？

28 最小二乗法なら簡単 ✓ 以下のように，最小二乗法により3次多項式を求めた場合重み係数 w 0 , w 1
, w 2 , w 3 が全て計算済みなので未知の入力データ x* を代入するだけでよい入力変数 x 目的変数 y 𝑦 = 𝑓 𝑥 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥2 + 𝑤3 𝑥3 x* f(x*)

29 ガウス過程では一筋縄ではいかない ✓ ガウス過程の場合，既知データの確率分布だけが与えられ重み係数は明示的に計算されておらず，予測ができない！ 𝒚 = 𝑦(1) 𝑦(2) 𝑦(3)
𝑦(4) 𝑦(5) 𝑦(6) 𝑦(7) 𝑇~𝑁 𝟎, 𝑲 入力変数 x 目的変数 y 𝑥(1), ො 𝑦(1) 𝑥(2), ො 𝑦(2) 𝑥(3), ො 𝑦(3) 𝑥(4), ො 𝑦(4) 𝑥(5), ො 𝑦(5) 𝑥(6), ො 𝑦(6) 𝑥(7), ො 𝑦(7) x* y*はどこ？

30 未知の入力データを含んだ分布を考える ✓ ガウス過程回帰では，未知の入力データを含んだ分布を再定義して考える！ 𝒚′ = 𝑦 1 ⋮
𝑦 7 𝑦∗ ~𝑁 0 ⋮ 0 0 , 𝑘 𝒙(1), 𝒙(1) ⋯ 𝑘 𝒙(1), 𝒙(7) ⋮ ⋱ ⋮ 𝑘 𝒙(7), 𝒙(1) ⋯ 𝑘 𝒙(7), 𝒙(7) 𝑘 𝒙(1), 𝒙∗ ⋮ 𝑘 𝒙(7), 𝒙∗ 𝑘 𝒙∗, 𝒙(1) ⋯ 𝑘 𝒙∗, 𝒙(7) 𝑘 𝒙∗, 𝒙∗ 𝒚 𝐊 𝒌∗ 𝒌∗ 𝑇 未知データと既知データのカーネル関数 ✓ この多変量ガウス分布から，予測分布は次式で与えられる（証明は参考文献参照） 𝑝 𝑦∗|𝑥∗, 𝒙, 𝒚 = 𝑁 𝒌∗ 𝑇𝐊−1𝒚, 𝑘 𝒙∗, 𝒙∗ − 𝒌∗ 𝑇𝐊−1𝒌∗ 分散期待値 𝑥∗, 𝒙, 𝒚 が与えられた時の 𝑦∗ の確率

31 予測分布の期待値と分散の解釈 ✓ 予測分布の解釈は次の通り期待値 𝒌∗ 𝑇𝐊−1𝒚 𝑲−1によって線形変換された 𝒚 と
𝒌∗ 𝑇 の内積と解釈可能 𝒌∗ 𝑇 は未知データと既知データの類似度を表しているため 𝑥∗ に類似した 𝑥(𝑖) の出力 𝑦(𝑖) に期待値が類似すると解釈できる分散 𝑘 𝒙∗, 𝒙∗ − 𝒌∗ 𝑇𝐊−1𝒌∗ 𝑲−1によって線形変換された 𝒌∗ と 𝒌∗ 𝑇 の内積が 𝑘 𝒙∗, 𝒙∗ から差し引かれる 𝒌∗ 𝑇 は未知データと既知データの類似度を表しているため 𝑥∗ に類似した 𝑥(𝑖) が多ければ多いほど 𝒌∗ 𝑇𝐊−1𝒌∗ が大きくなり分散が小さくなり，予測の信頼度が向上すると解釈できる

gaussianprocessregression

gaussianprocessregression

yuki

More Decks by yuki

Featured

Transcript

ガウス過程回帰 Gaussian Process Regression 大阪府立大学工学研究科清水悠生

2 本記事の内容と対象 ✓ ガウス過程による回帰をなんとなく理解するための記事 ✓ この順番で説明 ① ガウス分布とは ②

3 ①ガウス分布とは ✓ まずガウス過程回帰の名前の由来でもあるガウス分布と呼ばれる確率分布の話からスタート

4 ガウス分布（正規分布）とは ✓ 確率密度が次式で与えられる分布をガウス分布（正規分布）と呼び， 𝑁 𝜇, 𝜎2 で表す 𝑁

5 標準偏差と確率 ✓ 平均を中心とした標準偏差の整数倍以内のデータが出力される確率は下図のとおり ±1σの領域 𝜇 𝜇 𝜇 𝜇

6 分散のイメージ ✓ 分散はばらつき具合を表す指標であり分散が小さいほど平均値に近い値が得られやすくなる変数 x 確率密度 𝑥 =

7 2次元のガウス分布 ✓ ガウス分布を2次元に拡張すると次式のようになる 𝑁 𝝁, 𝚺 = 1 2𝜋

8 共分散のイメージ ✓ 変数間に相関があるとき，共分散の絶対値は大きくなる 𝚺 = 1 0 0 1

9 N次元のガウス分布（多変量正規分布） ✓ ガウス分布をN次元に拡張すると次式のようになる 𝑁 𝝁, 𝚺 = 1 2𝜋

10 ②ガウス過程回帰をざっくり理解する ✓ ガウス過程回帰は回帰分析手法の一つ ✓ カーネル関数を適切に選択することで非線形な回帰分析が可能 ✓ どれだけその予測が信頼できるか，という情報も算出可能

11 回帰分析の前提 ✓ 下図のデータが与えられている状況を考える入力変数 x 目的変数 y

12 最小二乗法の場合 ✓ 最小二乗法により求めた3次の多項式近似曲線は下図の通り ✓ 未知データ x* の予測 f(x*) は定数として与えられる

13 ガウス過程回帰の場合 ✓ ガウス過程回帰の場合は予測が確率として与えられる！ ✓ 未知データ x* の予測 f(x*) はガウス分布に従う

14 ガウス過程回帰の特徴 ✓ ガウス過程回帰の予測結果は，入力(教師)データから遠ければ遠いほど分散が大きくなる (予測の信頼度が低下) 入力変数 x 目的変数 y

15 ガウス過程回帰のざっくりまとめ ✓ ガウス過程回帰の特徴は下記の通り ⚫ モデルの予測値が確定した値ではなく確率で与えられる ⚫ その予測値はガウス分布に従い，分散の値により予測の信頼度が求められる ⚫

16 ③ガウス過程とは ✓ まず，ガウス過程とは何か説明

17 ガウス過程の定義 ✓ ガウス過程の定義は以下の通り ✓ 入力 x 1 , x

18 線形回帰モデルの引用 ✓ n組のデータが与えられた場合の線形回帰モデルは以下の通り 𝑦(1) 𝑦(2) ⋮ 𝑦(𝑛) =

19 非線形写像 ✓ 関数の表現力をあげるため，入力ベクトルを関数化して表現する 𝑦(1) 𝑦(2) ⋮ 𝑦(𝑛) =

20 重みをガウス分布に従って生成 ✓ 重み w が以下のガウス分布から生成されるものとする 𝒘 = 𝑤0 𝑤1

21 出力ベクトルの平均と共分散行列 ✓ 出力ベクトルの期待値は以下のとおり 𝔼 𝒚 = 𝔼 𝚽𝒘 =

22 まとめると… ✓ これまでの計算をまとめると次のようになりこれは最初のガウス過程の定義に一致 𝒚~𝑁 𝟎, 𝜆2𝚽𝚽𝑇 ✓ この計算には重みベクトル

23 出力データの平均は0でよいのか？ 𝒚~𝑁 𝟎, 𝜆2𝚽𝚽𝑇 ✓ 平均ベクトルが 0 になっているが観測データ

24 ガウス過程の共分散行列の解釈 ✓ 共分散は特徴ベクトル Φ の内積で計算できるため類似した入力ベクトル x に対応する出力 y

25 カーネル関数の導入 ✓ 共分散行列の各要素は特徴ベクトル Φ の内積によって決まるため，特徴ベクトルを明示的に求める必要はない ✓ 適当なカーネル関数を用いることで，共分散行列を表現 ✓

26 ④ガウス過程を用いた回帰分析 ✓ つづいて，ガウス過程を用いた回帰分析の方法について説明

27 未知のデータをどう予測するか？ ✓ 図のように既知のデータセットが与えられた前提で未知の入力変数 x* に対応する y* を予測する入力変数

28 最小二乗法なら簡単 ✓ 以下のように，最小二乗法により3次多項式を求めた場合重み係数 w 0 , w 1

29 ガウス過程では一筋縄ではいかない ✓ ガウス過程の場合，既知データの確率分布だけが与えられ重み係数は明示的に計算されておらず，予測ができない！ 𝒚 = 𝑦(1) 𝑦(2) 𝑦(3)

30 未知の入力データを含んだ分布を考える ✓ ガウス過程回帰では，未知の入力データを含んだ分布を再定義して考える！ 𝒚′ = 𝑦 1 ⋮

31 予測分布の期待値と分散の解釈 ✓ 予測分布の解釈は次の通り期待値 𝒌∗ 𝑇𝐊−1𝒚 𝑲−1によって線形変換された 𝒚 と