Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[チュートリアル] ガウス過程に基づく確率推論とその応用例

Koya SATO
November 07, 2023

[チュートリアル] ガウス過程に基づく確率推論とその応用例

日時:2023年11月6日(月)
場所:第38回信号処理シンポジウム@京都
https://award-con.com/sips2023/special/
発表者:佐藤光哉@電気通信大学

チュートリアルセッション「通信のための確率推論の最前線」での発表資料です。
当日の資料をベースに一部修正・削除しました。

また、本資料内の誤植等は気付き次第修正します。

Koya SATO

November 07, 2023
Tweet

More Decks by Koya SATO

Other Decks in Technology

Transcript

  1. GPの入門に向けたおすすめの書籍 3 • C. E. Rasmussen and C. K. I.

    Williams, Gaussian Processes for Machine Learning, The MIT Press, 2006. • 持橋大地, 大羽成征, ガウス過程と機械学習, 講談社サイエンティフィク 機械学習プロ フェッショナルシリーズ, 2019年 • 今井秀明, 松井孝太, ベイズ最適化 -適応的実験計画の基礎と実践-, 近代科学社, 2023年 • まずは以下3冊 Ø本講演内容の多くもこれらを参考にした内容となります
  2. 目次 4 1. ガウス過程 (GP: Gaussian Process)とは 2. 無線通信システムとGP -こんなところにGP-

    3. ガウス過程回帰 (GPR: Gaussian Process Regression) 4. 無線通信システムにおけるGPR応用の具体例 Ø 電波マップ構築 (Radio Map Construction) Ø ベイズ最適化とその無線応用 (※一部削除) 5. おまけ: GPRを魔改造しよう 6. おわりに
  3. 目次 5 1. ガウス過程 (GP: Gaussian Process)とは 2. 無線通信システムとGP -こんなところにGP-

    3. ガウス過程回帰 (GPR: Gaussian Process Regression) 4. 無線通信システムにおけるGPR応用の具体例 Ø 電波マップ構築 (Radio Map Construction) Ø ベイズ最適化とその通信応用 5. おまけ: GPRを魔改造しよう 6. おわりに
  4. ガウス過程とは 6 どんな𝑁個の入力の集合 についても、対応する出力 の同時分布 が多変量ガウス分布に従うとき、 𝐱と𝐲の関係はガウス過程 (GP: Gaussian Process)に従う

    定義 • 持橋大地, 大羽成征, ガウス過程と機械学習, 講談社サイエンティフィク 機械学習プロフェッショナルシリーズ, 2019年 多変量ガウス分布の確率密度関数 (PDF: Probability Density Function) 平均ベクトル: 共分散:
  5. GPと無線 屋外における典型的な平均受信電力モデル (dBm軸) • A. Goldsmith, Wireless Communications, Cambridge university

    press, 2005 シャドウイングの性質 • 構造物による遮蔽により生じる • 対数正規分布 Ø変数W が正規分布 • 数m-数十m程度で緩やかに変動 : シャドウイング : 距離減衰係数
  6. GPと無線:シャドウイング相関の発見 11 • M. Gudmundson, “Correlation model for shadow fading

    in mobile radio systems, ” Electron. Lett., vol. 27, no. 7, pp. 2145–2146, Nov. 1991. 実測値 フィッティング曲線 Urban, 900MHz 2地点間のシャドウイング相関が次 式で表現できることを言及: 相関距離 (相関0.5となる距離) • 注意 Ø相関をdB軸で評価している点 Øあくまで実験式である点 (その後の再現多数)
  7. GPと無線:Sum of Sinusoids 14 特性の異なる複数の正弦波の和 • 振幅は各点で(中心極限定理により)ガウス分布 • 入力軸上で相関 •

    X.Cai and G. B. Giannakis, "A two-dimensional channel simulation model for shadowing processes," IEEE Trans. Veh. Technol., vol. 52, no. 6, pp. 1558-1567, Nov. 2003. 0.0 0.2 0.4 0.6 0.8 1.0 x °3 °2 °1 0 1 2 3 y Sum of Sinusoids この点に着目した低演算量な空間相関シャドウイングの生成法も GPでモデル化可
  8. 目次 15 1. ガウス過程 (GP: Gaussian Process)とは 2. 無線通信システムとGP -こんなところにGP-

    3. ガウス過程回帰 (GPR: Gaussian Process Regression) 4. 無線通信システムにおけるGPR応用の具体例 Ø 電波マップ構築 (Radio Map Construction) Ø ベイズ最適化とその通信応用 5. おまけ: GPRを魔改造しよう 6. おわりに
  9. ガウス過程回帰 (GPR: Gaussian Process Regression) 16 前提 簡単のため以下を仮定 • 観測対象はゼロ平均

    • ノイズレス • カーネル関数中のハイパーパラメータは調整済み やりたいこと 任意の入力点𝐱∗ における出力の確率分布 データセット : 観測モデル : 推定対象の分布 : 0.0 0.2 0.4 0.6 0.8 1.0 x °1.00 °0.75 °0.50 °0.25 0.00 0.25 0.50 0.75 1.00 y の予測 (具体的には平均と分散)
  10. ガウス過程回帰 (GPR: Gaussian Process Regression) 18 平均 分散 ガウス過程の予測分布 (ゼロ平均)

    この性質より以下が得られる データセット内の出力に推定対象を加えたベクトルとその同時分布: ベクトル𝐲が与えられた際の条件付き確率を求める NOTE: 2つの観測ベクトル𝐲", 𝐲𝟐 に以下の関係があるとき、 ベクトル𝐲𝟐 の条件付き確率は次式のように導出できる:
  11. GPRの動作例 20 • GPyTorch Regression Tutorial, https://docs.gpytorch.ai/en/stable/examples/01_Exact_GPs/Simple_GP_Regression.html 0.0 0.2 0.4

    0.6 0.8 1.0 x °2.0 °1.5 °1.0 °0.5 0.0 0.5 1.0 1.5 2.0 y y(x) = sin(2ºx) Observed Data Mean (Est.) Mean (True) Confidence • 観測対象のノイズを加味した不確定性の見積もりが可能 • データが少ない領域は”広く”見積もる Ø自信のなさを素直に示してくれる扱いやすさ 0.0 0.2 0.4 0.6 0.8 1.0 x °2.0 °1.5 °1.0 °0.5 0.0 0.5 1.0 1.5 2.0 y y(x) = sin(2ºx) + ≤ Observed Data Mean (Est.) Mean (True) Confidence
  12. GPRの動作例 (観測データ更新の影響) 21 0.0 0.2 0.4 0.6 0.8 1.0 x

    °2.0 °1.5 °1.0 °0.5 0.0 0.5 1.0 1.5 2.0 y N = 4 Observed Data Mean (Est.) Mean (True) Confidence 0.0 0.2 0.4 0.6 0.8 1.0 x °2.0 °1.5 °1.0 °0.5 0.0 0.5 1.0 1.5 2.0 y N = 8 Observed Data Mean (Est.) Mean (True) Confidence 0.0 0.2 0.4 0.6 0.8 1.0 x °2.0 °1.5 °1.0 °0.5 0.0 0.5 1.0 1.5 2.0 y N = 16 Observed Data Mean (Est.) Mean (True) Confidence • サンプルの増加に従い”自信のなさ”が解消 Ø少サンプルの場合も想定した信頼区間が真の特性を概ねカバー Ø基地局間の干渉管理等で大きな効果(後述) ※カーネル中のハイパーパラメータはデータ追加の都度再学習
  13. NOTE: 空間統計とのつながり 22 • N. Cressie, Statistics for Spatial Data,

    John Wiley & Sons, Inc. Wiley Series in Probability and Statistics, 1993 入力次元を2-3次元とし、観測結果への加重平均による空間内挿を考える 例えば常クリギングでは以下の最適化問題を解くことで重み係数を決定 • 結果的にGPRと同等 • 互いに独立な進化を遂げてきたため、言葉遣いや変数定義が異なる ØGPR ⇔ Kriging Øカーネル関数 ⇔ セミバリオグラム (時々GPRとクリギングを戦わせている論文を見かけるが…)
  14. NOTE: カーネル関数の例 23 複数組み合わせることも可 カーネル名 Linear Kernel Radial Basis Function

    (RBF) Kernel Cosine Kernel スケールさせることも可 (共分散の幅の調整)
  15. NOTE: カーネル関数のチューニング 25 最適化アルゴリズムの例 • 勾配ベース:Gradient Descent, Adam, L-BFGS など

    • ブラックボックス最適化:Nelder-Mead Simplex など ただし素朴な最尤推定は以下の問題 • 目的関数が多峰性 Ø対策例:最適化を複数回繰り返すなど • 逆行列演算を伴い演算コスト高 (𝑂(𝑁$)) Ø対策例:近似を伴った分散処理 (Product of Experts, 部分データ法 他) 対数尤度 (ゼロ平均): Ø GPRの実施に先立ち最尤推定すればよい
  16. 目次 26 1. ガウス過程 (GP: Gaussian Process)とは 2. 無線通信システムとGP -こんなところにGP-

    3. ガウス過程回帰 (GPR: Gaussian Process Regression) 4. 無線通信システムにおけるGPR応用の具体例 Ø 電波マップ構築 (Radio Map Construction) Ø ベイズ最適化とその通信応用 5. おまけ: GPRを魔改造しよう 6. おわりに
  17. 電波マップ構築 (Radio Map Construction) 27 • 場所ごとの平均受信電力を可視化したもの • オペレータ側に持たせておくことで通信を適応化 •

    屋外では、平均受信電力の対数値に対しGPRを適用することで最適精度 クラウド 送信局 位置: (xi , yi ) 受信電力: Pi 位置: (xk , yk ) 受信電力: Pk 位置: (xj , yj ) 受信電力: Pj 観測ノード 5G 5G 5G 内挿結果 観測結果 ・ガウス過程回帰 ・ニューラルネット 等により空間内挿 平均受信電力 電波マップ 共分散関数
  18. 20 40 60 80 100 x [m] °70 °60 °50

    °40 °30 °20 Received Signal Power [dBm] Observation Grid Averaged (ideal) 電波マップ構築 (Radio Map Construction) 28 • 実際の端末側での観測値にはマルチパスフェージングの影響が残る Øエリアをグリッドごとに区切り瞬時値のグリッド平均を取ればよい • 平均化後の受信電力値群を観測データとみなしGPRを適用する • グリッドサイズ𝐿は、相関距離に対し𝐿 ≤ 𝑑%&' であることが重要 Ø例えば屋外都市部では相関距離数十m程度なので、数m-10m程度 GPRに使用
  19. 電波マップ連携によるSIR制約型周波数共用設計 30 • GPRの利点:受信電力推定における不確定性の見積もりが可能 • [SIR制約] K. Sato and T.

    Fujii, "Kriging-Based Interference Power Constraint: Integrated Design of the Radio Environment Map and Transmission Power," IEEE Trans. Cogn. Commun. Netw., vol. 3, no. 1, pp. 13-25, March 2017. • [SNRアウテージ制約を満たすレート設計] T. Kallehauge, A. E. Kalør, P. Ramírez-Espinosa, M. Guillaud and P. Popovski, "Delivering Ultra-Reliable Low-Latency Communications via Statistical Radio Maps," IEEE Wireless Commun., vol. 30, no. 2, pp. 14-20, April 2023. 0.0 0.2 0.4 0.6 0.8 1.0 x °2.0 °1.5 °1.0 °0.5 0.0 0.5 1.0 1.5 2.0 y y(x) = sin(2ºx) + ≤ Observed Data Mean (Est.) Mean (True) Confidence この幅に着目した ØSIRアウテージ制約 ØSNRアウテージ制約 の満足などが可能
  20. 周波数共用モデルの概要 • PU-Tx1台とSU-Tx複数台の周波数共用 • SU-Txは最寄りのPUの保護エリア端に存在するPUへの干渉量を考慮 • 保護対象となるエリアの周辺で受信電力を事前観測 x0 xi 電波観測エリア

    PUの保護エリア 観測地点 SUs I dS [m] PU xP P(x0 ) P(x0 ) 所望電⼒ I ⼲渉電⼒ dS [m] PU-SUs間の距離 SU側に対する仮定 • SUの台数は既知(位置は未知) • パスロス係数やシャドウイングの分布は既知 • 最終的な合成⼲渉電⼒は未知 31
  21. NOTE: システムモデルの詳細 SUは全端末等電力で通信するものと仮定 所望信号電力 合成干渉信号電力 送信電力 シャドウイング パスロス 保護規範 SIR

    所望SIR 保護確率 送信電力 パスロス シャドウイング (※) 以上の条件のもとSUの送信電力PS,Tx の最大化を目指す 既知情報 設計対象 32
  22. 電波マップの誤差分布に基づくSIR制約型送信電力設計 NOTE: シャドウイング環境での合成干渉電力は対数正規分布で近似可 Ø I を中央値 I [dBm], 標準偏差σsum [dB]のガウス分布でモデル化

    SIRの分布 ・中央値 ・標準偏差σk 誤差項 ・中央値 のガウス分布と予測できる ・標準偏差 • A. Molisch, Wireless Communications, John Wiley & Sons, 2012. • S. S. Szyszkowicz and H. Yanikomeroglu, “A simple approximation of the aggregate interference from a cluster of many interferers with correlated shadowing, ” IEEE Trans. Wireless Commun., vol.13, no.8, pp.4415-4423, Aug. 2014. 最大許容送信電力 ・予測したSIRのCDFの形状 ・ を考慮すると 合成干渉電力の 平均伝搬損 干渉電力の不確定性 電波マップの不確定性 33
  23. 目次 36 1. ガウス過程 (GP: Gaussian Process)とは 2. 無線通信システムとGP -こんなところにGP-

    3. ガウス過程回帰 (GPR: Gaussian Process Regression) 4. 無線通信システムにおけるGPR応用の具体例 Ø 電波マップ構築 (Radio Map Construction) Ø ベイズ最適化とその通信応用 (※一部削除) 5. おまけ: GPRを魔改造しよう 6. おわりに
  24. 適応的実験計画 37 以下のような状況で最適化したい例は多い • 目的関数の性質が未知 (ブラックボックス) • 目的関数の1入力ごとの計算コストが重過ぎる Ø例:深層学習におけるハイパーパラメータ Ø例:各種製造(製品設計、材料設計)

    • この場合、多くの場合以下のようなサイクルを回すことになる 仮説 計画 実験 検証 コスト高 • このサイクルをデータ駆動で追い込む方法が適応的実験計画 Øそのフレームワークがベイズ最適化で、GPRにより実現できる
  25. ベイズ最適化による適応的実験計画 38 0.0 0.2 0.4 0.6 0.8 1.0 x °2.0

    °1.5 °1.0 °0.5 0.0 0.5 1.0 1.5 2.0 y y(x) = sin(2ºx) + ≤ Observed Data Mean (Est.) Mean (True) Confidence 探索対象となるパラメータ𝐱 目的関数 手持ちの実験結果とGPR等で推定したパラメータ間の関係から以下を探索
  26. ベイズ最適化による適応的実験計画 (1/3) 39 0.0 0.2 0.4 0.6 0.8 1.0 x

    °2.0 °1.5 °1.0 °0.5 0.0 0.5 1.0 1.5 2.0 y Observed Data Mean (Est.) Confidence 何点かで実験しデータセットを構築 目的関数の統計モデルを更新: ターゲット
  27. ベイズ最適化による適応的実験計画 (2/3) 40 獲得関数: 入力点の”良さ”を確率分布に基づいて定量評価 (後述) 0.0 0.2 0.4 0.6

    0.8 1.0 x °2.0 °1.5 °1.0 °0.5 0.0 0.5 1.0 1.5 2.0 y Observed Data Mean (Est.) Confidence Acquisition Function Next Sampling Point 獲得関数を最大化する候補点を選ぶ ターゲット
  28. 0.0 0.2 0.4 0.6 0.8 1.0 x °2.0 °1.5 °1.0

    °0.5 0.0 0.5 1.0 1.5 2.0 y Observed Data Mean (Est.) Confidence Acquisition Function Next Sampling Point Next Experimental Result ベイズ最適化による適応的実験計画 (3/3) 41 データセットを更新 以上を繰り返す ターゲット
  29. NOTE: 獲得関数あれこれ 42 改善確率量 (PI: Probability of Improvement) • 改善される確率が最も高い点の選択

    Ø改善度の大小は問わない 期待改善量 (EI: Expected Improvement) • 改善量の期待値が最大化される点の選択 信頼上限 (UCB: Upper Confidence Bound) それまでの時点での最高値 • PI, EIとも平均と分散から解析的に計算できる(詳細省略) • PIは消極的な選択になりがち
  30. 目次 47 1. ガウス過程 (GP: Gaussian Process)とは 2. 無線通信システムとGP -こんなところにGP-

    3. ガウス過程回帰 (GPR: Gaussian Process Regression) 4. 無線通信システムにおけるGPR応用の具体例 Ø 電波マップ構築 (Radio Map Construction) Ø ベイズ最適化による送信局配置/電力設計の事前設計 5. おまけ: GPRを魔改造しよう 6. おわりに
  31. 平均値予測への機械学習の導入 49 前処理でGPRの対象となるデータのゼロ平均への変換が重要 • 前処理の回帰分析をニューラルネットで実施することで精度向上 (NNRK: Neural Network Residual Kriging)

    • M. Kanevsky et al., "Artificial neural networks and spatial estimation of Chernobyl fallout", Geoinformatics, 1996. • K. Sato et al., “On the Performance of NNRK in Radio Environment Mapping,” IEEE Access, 2019. • 観測座標と観測値を入出力とした非線形回帰 • 外部データでのpre-trainingは不要
  32. Product of Expertsに基づく分散GPR 51 分割した部分データ(ローカルデータ)が互いに独立であると仮定し、 各計算をローカルの計算値の和で近似 • M. Deisenroth and

    J. Ng, “Distributed Gaussian Processes,” ICML2015. 学習ステップ ローカルデータに対する対数尤度 回帰ステップ (対数領域) ローカルデータに対する Full GPRの結果 (平均) (分散) 他の近似・高速化手法: 補助変数法、変分ベイズ法、KISS-GP法、Mixture of Experts, などなど
  33. Product of Experts (学習ステップ) 52 ローカルデータセットが互いに独立であると仮定し、各計算をローカルの 計算値の和で近似 ノード1台の 計算複雑性 Full

    GPR 𝑂(𝑁!) D-GPR 𝑂 % 𝑁 𝑀 ! 1 𝑀 ! Step1: パラメータ𝜽())を配布 Step2: ローカルの対数尤度 を計算 Step4: ローカル値を加算 Step5: 𝜽()+")へ更新 • 高速化だけでなく、分散端末が持ち 寄ったデータの活用にも効果 • 空中計算の組み合わせも可能 • K. Sato, “Over-the-Air Gaussian Process Regression Based on Product-of-Experts,” IEEE GC Workshops, Dec. 2022.
  34. 目次 53 1. ガウス過程 (GP: Gaussian Process)とは 2. 無線通信システムとGP -こんなところにGP-

    3. ガウス過程回帰 (GPR: Gaussian Process Regression) 4. 無線通信システムにおけるGPR応用の具体例 Ø 電波マップ構築 (Radio Map Construction) Ø ベイズ最適化による送信局配置/電力設計の事前設計 5. おまけ: GPRを魔改造しよう 6. おわりに
  35. GP関連ライブラリ: Optuna 55 • Preferred Networks社によるハイパーパラメータの自動最適化フレーム ワーク ØBoTorch (ベイズ最適化フレームワーク)のラッパーが実装済みで、 Optuna上からGPを活用できる

    Ø結果の可視化や記録、並列化といった機能も充実 • Optuna: https://optuna.org/ • Toshihiko Yanase, Optunaで始めるハイパーパラメータ最適化, 2023. URL: https://tech.preferred.jp/ja/blog/an-introduction-to-hyperparameter-optimization-with-optuna-ieice/ • BoTorch: https://botorch.org/
  36. まとめ 56 ガウス過程(GP)について概説した • GPの概要と無線とのつながり • GPRの通信応用例 GPに基づく設計のメリット • ノンパラメトリックで動作

    • 不確定性の見積もりが容易 • (ここでは触れなかったが)ガウス分布に関する数学的知見・資産多数 問い合わせ先 • 佐藤 光哉 (電気通信大学 助教) • E-Mail: [email protected] • X (Twitter): @ksato0122