$30 off During Our Annual Pro Sale. View Details »

[FIT22]Flare Transformer Regressor: Solar Flare Prediction Based on Masked Autoencoder and Informer Decoder

[FIT22]Flare Transformer Regressor: Solar Flare Prediction Based on Masked Autoencoder and Informer Decoder

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Flare Transformer Regressor: Masked Autoencoderと Informer Decoderに基づく 太陽フレア予測 九曜克之1 和⽥唯我1

    , 兼⽥寛⼤ 1, 飯⽥紡 1, ⻄塚直⼈ 2, 久保勇樹 2, 杉浦孔明 1 1 慶應義塾⼤学,2 NICT
  2. 背景:⼤規模な太陽フレアは甚⼤な被害をもたらす - 2 - 太陽フレア:太陽表⾯上の⿊点周辺で発⽣する爆発現象 太陽フレアによる被害 発⽣を事前に予測できれば, 被害を最⼩限に抑えることが可能 1989年 カナダ・ケベック州の⼤規模停電

    2003年 ⼩惑星探査機はやぶさに損傷 2022年 SpaceXの衛星49基中40基が落下 (⽇経新聞2022/4/26) 保険会社による被害予想額 ⇒ 約1600億ドル@北⽶ 太陽フレア予測は⾮常に重要 NASA, https://svs.gsfc.nasa.gov/4491
  3. 既存研究:太陽フレアの回帰予測が今後重要になる - 3 - タスク 代表的⼿法 概要 時系列予測 DeepAR [Salinias+,

    IJF20] ⾃⼰回帰型RNNを⽤いた時系列予測モデル Informer [Zhou+, AAAI21] ProbSparse self-attention機構を⽤いた予測モデル 太陽フレア予測 Deep Flare Net [Nishizuka+, ApJ18] ⿊点レベルの物理特徴量を⼊⼒とした予測モデル Flare Transformer [兼⽥+, JSAI22] 磁場画像と物理特徴量を⼊⼒とした予測モデル [Zhou+, AAAI21] [Nishizuka+, ApJ18] [兼⽥+, JSAI22]
  4. 既存研究:太陽フレアの回帰予測が今後重要になる - 4 - タスク 代表的⼿法 概要 時系列予測 DeepAR [Salinias+,

    IJF20] ⾃⼰回帰型RNNを⽤いた時系列予測モデル Informer [Zhou+, AAAI21] ProbSparse self-attention機構を⽤いた予測モデル 太陽フレア予測 Deep Flare Net [Nishizuka+, ApJ18] ⿊点レベルの物理特徴量を⼊⼒とした予測モデル Flare Transformer [兼⽥+, JSAI22] 磁場画像と物理特徴量を⼊⼒とした予測モデル [Zhou+, AAAI21] [Nishizuka+, ApJ18] [兼⽥+, JSAI22] 時刻𝑡から24時間以内の最⼤の太陽フレアクラス を求める分類問題で専⾨家予測を超える →専⾨家にとって困難な回帰予測が重要 →太陽フレア予測を回帰問題として扱う
  5. 問題設定:太陽画像と物理特徴量を⽤いた太陽フレア回帰予測 5 対象タスク:時刻𝑡から24時間後までの太陽フレアのX線強度を予測 ⼊⼒ 1. 磁場画像 • 1時間間隔で撮影された 太陽全体の磁場画像 2.

    ⿊点レベルの物理特徴量 • 太陽画像から抽出した, 物理特徴量
  6. 出⼒ • 24時間分の太陽のX線強度 問題設定:太陽画像と物理特徴量を⽤いた太陽フレア回帰予測 6 対象タスク:時刻𝑡から24時間後までの太陽フレアのX線強度を予測 ⼊⼒ 1. 磁場画像 •

    1時間間隔で撮影された 太陽全体の磁場画像 2. ⿊点レベルの物理特徴量 • 太陽画像から抽出した, 物理特徴量
  7. 提案⼿法:Flare Transformer Regressor 7 新規性 1. Masked Autoencoder[He+, CVPR22]で事前学習したVision Transformer[Dosovitskiy+,

    ICLR21]を導⼊ 2. Informer[Zhou+, AAAI21]を参考にした回帰⽤デコーダを 構築
  8. 提案⼿法:Flare Transformer Regressor 8 新規性 1. Masked Autoencoder[He+, CVPR22]で事前学習したVision Transformer[Dosovitskiy+,

    ICLR21]を導⼊ 2. Informer[Zhou+, AAAI21]を参考にした回帰⽤デコーダを 構築
  9. 提案⼿法:Flare Transformer Regressor 9 新規性 1. Masked Autoencoder[He+, CVPR22]で事前学習したVision Transformer[Dosovitskiy+,

    ICLR21]を導⼊ 2. Informer[Zhou+, AAAI21]を参考にした回帰⽤デコーダを 構築
  10. 磁場画像と物理特徴量を⼊⼒,24時間後までのX線強度を出⼒ - ⼊⼒ 時刻 から に おける磁場画像および 90種類の物理特徴量 10 -

    出⼒ 時刻𝑡から24時間後まで におけるX線強度の 対数値
  11. • Masked Autoencoder(MAE)[He+, CVPR22]に基づき磁場画像の再構成を⾏う • 画像パッチの⼀部を除去(⿊い部分)して元画像を再構成 • [He+, CVPR22]と異なり,画像パッチ内の標準偏差をもとに除去するパッチを選択する 新規性①:パッチ内の標準偏差に基づき再構成する事前学習

    Lスパースな重要領域の情報が⽋如 パッチサイズに対し重要領域は⼩さいため 周囲の情報から再構成することは極めて困難 Jスパースな重要領域が 除去されにくい 元画像 ランダムで除去 [He+, CVPR22] パッチ内標準偏差を基に除去 重要領域
  12. • Masked Autoencoder(MAE)[He+, CVPR22]に基づき磁場画像の再構成を⾏う • 画像パッチの⼀部を除去(⿊い部分)して元画像を再構成 • [He+, CVPR22]と異なり,画像パッチ内の標準偏差をもとに除去するパッチを選択する 新規性①:パッチ内の標準偏差に基づき再構成する事前学習

    元画像 ランダムで除去 [He+, CVPR22] パッチ内標準偏差を基に除去 重要領域
  13. 損失に含まれない パッチ Masked AutoencoderによるVision Transformerの事前学習 - 13 - ▪ MAE

    encoder:除去されず残ったパッチ→画像特徴量 ▪ MAE decoder:画像特徴量+マスクトークン→再構成画像 ⼊⼒(⼀部を拡⼤) 再構成結果 除去
  14. 損失に含まれない パッチ Masked AutoencoderによるVision Transformerの事前学習 - 14 - ▪ MAE

    encoder:除去されず残ったパッチ→画像特徴量 ▪ MAE decoder:画像特徴量+マスクトークン→再構成画像 ⼊⼒(⼀部を拡⼤) 再構成結果 除去 除去されたパッチの存在を 表す、学習可能ベクトル
  15. 新規性②:Informerを参考にした回帰⽤デコーダを構築 15 Transformer Decoder • ⻑時間の時系列予測を効率的に⾏う • 抽出した特徴量から24時間分のX線強度を並列に出⼒ • 𝑁!"

    層のtransformer層によって時系列関係をモデル化
  16. 実験設定:テスト集合は必ず訓練集合より未来のデータ 16 ▪ 2010-2017年における合計61315サンプル ▪ 1h間隔の磁場画像と90種の物理特徴量のセット ▪ 時系列交差検証[Tashman+, 00]をベースとした分割 Training

    Set Validation Set Test Set 期間 サンプル数 期間 サンプル数 期間 サンプル数 2010-2013 29247 2014 8127 2015 8155 2010-2014 37374 2015 8155 2016 7795 2010-2015 45529 2016 7795 2017 7991 磁場画像 物理特徴量
  17. 定量的結果:ベースラインを上回る予測性能を達成 17 平均予測軌道誤差において, ベースライン⼿法であるFlare Transformerを上回る性能を達成 平均予測軌道誤差↓ Flare Transformer[Kaneda+, JSAI22] 1.06±0.44

    提案⼿法 0.48±0.03 提案⼿法(修正版) 0.41±0.04 平均予測軌道誤差 " 𝐸!"#:!"%& (𝑁:サンプル数) " 𝐸!"#:!"%& = 1 24𝑁 ) '(# ) ) *(# %& (Ground Truth)!"* (') −(予測値)!"* (') J0.65pt 改善
  18. 成功例:⼊⼒に表れない傾向の予測に成功 (a)Ground Truth,(b)予測結果 増加する時系列 成功例 失敗例 J減少傾向を捉えることに成功 予測開始時刻

  19. 失敗例:⽋損した時刻での誤差が⼤きい (a)Ground Truth,(b)予測結果 ⽋損値を,それ以前の時刻において 最後に観測された値で置き換えた 成功例 失敗例 L⽋損している時刻において誤差が⼤きい →⽋損値部分を評価から取り除く/ より細かい時間間隔でサンプリング

  20. Ablation Studies:ViTの導⼊が性能向上に寄与 20 Attention ⼊⼒系列⻑ 平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04

    (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 L0.13pt 悪化 Ablation(a):ViTを,Frare TransformerにおけるCNNで構成される特徴抽出器 へと置き換えた場合 →MAEで事前学習を⾏ったViTを導⼊したことが性能向上に寄与
  21. Ablation Studies:⼊⼒系列⻑を増やすと性能劣化 21 Attention ⼊⼒系列⻑ 平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04

    (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(b)(c):⼊⼒系列⻑を増加 →⼊⼒系列⻑が⼤きい条件では,やや性能が劣化 L0.01pt 悪化
  22. Ablation Studies: ProbSparse Attentionは系列⻑が ⼤きい条件での性能劣化を防ぐ 22 attention ⼊⼒系列⻑ 平均予測軌道誤差↓ 提案⼿法(修正版)

    Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(d)-(f):attentionをInformerで⽤いられるProbSparse Attention に 置き換えた場合 →⼊⼒系列⻑が⼤きい条件でも性能劣化が防げる 重要なクエリのみをattentionの ⼊⼒に⽤いる →attentionの計算を効率よく ⾏うことができる
  23. Ablation Studies: ProbSparse Attentionは系列⻑が ⼤きい条件での性能劣化を防ぐ 23 attention ⼊⼒系列⻑ 平均予測軌道誤差↓ 提案⼿法(修正版)

    Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(d)-(f):attentionをInformerで⽤いられるProbSparse Attention に 置き換えた場合 →⼊⼒系列⻑が⼤きい条件でも性能劣化が防げる L0.03pt 悪化
  24. Ablation Studies: ProbSparse Attentionは系列⻑が ⼤きい条件での性能劣化を防ぐ 24 attention ⼊⼒系列⻑ 平均予測軌道誤差↓ 提案⼿法(修正版)

    Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(d)-(f):attentionをInformerで⽤いられるProbSparse Attention に 置き換えた場合 →⼊⼒系列⻑が⼤きい条件でも性能劣化が防げる J0.01pt 改善
  25. まとめ - 25 - ü 太陽フレア予測を回帰問題 として扱うために Flare Transformer Regressor

    を提案 ü Informerを参考にした回帰⽤ デコーダを構築し、特徴量抽出 のためにMasked Autoencoder に基づく事前学習を導⼊した ü その結果, ベースライン⼿法を 上回る性能を記録
  26. 補⾜:ProbSparse Attention - 26 - ProbSparse Attention 以下のSpacity measurement 𝑀を⽤いて上位𝑢個のクエリのみをAttentionの

    計算に使⽤. →系列⻑ L に対して計算量𝑂(𝐿 log 𝐿 ) で計算 できる.𝑞# ,𝑘# はそれぞれ ク エリ⾏列,キー⾏列の𝑖⾏⽬を表す. 𝑀 𝑞# , 𝐾 = max $ 𝑞#𝑘% ! 𝑑 − 1 𝐿& 8 %'( )! 𝑞#𝑘% ! 𝑑