[FIT22]Flare Transformer Regressor: Solar Flare Prediction Based on Masked Autoencoder and Informer Decoder

Slide 1

Slide 1 text

Flare Transformer Regressor: Masked Autoencoderと Informer Decoderに基づく太陽フレア予測九曜克之1 和⽥唯我1 , 兼⽥寛⼤ 1, 飯⽥紡 1, ⻄塚直⼈ 2, 久保勇樹 2, 杉浦孔明 1 1 慶應義塾⼤学，2 NICT

Slide 2

Slide 2 text

背景：⼤規模な太陽フレアは甚⼤な被害をもたらす - 2 - 太陽フレア：太陽表⾯上の⿊点周辺で発⽣する爆発現象太陽フレアによる被害発⽣を事前に予測できれば，被害を最⼩限に抑えることが可能 1989年カナダ・ケベック州の⼤規模停電 2003年⼩惑星探査機はやぶさに損傷 2022年 SpaceXの衛星49基中40基が落下 (⽇経新聞2022/4/26) 保険会社による被害予想額 ⇒ 約1600億ドル@北⽶太陽フレア予測は⾮常に重要 NASA, https://svs.gsfc.nasa.gov/4491

Slide 3

Slide 3 text

既存研究：太陽フレアの回帰予測が今後重要になる - 3 - タスク代表的⼿法概要時系列予測 DeepAR [Salinias+, IJF20] ⾃⼰回帰型RNNを⽤いた時系列予測モデル Informer [Zhou+, AAAI21] ProbSparse self-attention機構を⽤いた予測モデル太陽フレア予測 Deep Flare Net [Nishizuka+, ApJ18] ⿊点レベルの物理特徴量を⼊⼒とした予測モデル Flare Transformer [兼⽥+, JSAI22] 磁場画像と物理特徴量を⼊⼒とした予測モデル [Zhou+, AAAI21] [Nishizuka+, ApJ18] [兼⽥+, JSAI22]

Slide 4

Slide 4 text

既存研究：太陽フレアの回帰予測が今後重要になる - 4 - タスク代表的⼿法概要時系列予測 DeepAR [Salinias+, IJF20] ⾃⼰回帰型RNNを⽤いた時系列予測モデル Informer [Zhou+, AAAI21] ProbSparse self-attention機構を⽤いた予測モデル太陽フレア予測 Deep Flare Net [Nishizuka+, ApJ18] ⿊点レベルの物理特徴量を⼊⼒とした予測モデル Flare Transformer [兼⽥+, JSAI22] 磁場画像と物理特徴量を⼊⼒とした予測モデル [Zhou+, AAAI21] [Nishizuka+, ApJ18] [兼⽥+, JSAI22] 時刻𝑡から24時間以内の最⼤の太陽フレアクラスを求める分類問題で専⾨家予測を超える →専⾨家にとって困難な回帰予測が重要 →太陽フレア予測を回帰問題として扱う

Slide 5

Slide 5 text

問題設定：太陽画像と物理特徴量を⽤いた太陽フレア回帰予測 5 対象タスク：時刻𝑡から24時間後までの太陽フレアのX線強度を予測⼊⼒ 1. 磁場画像 • 1時間間隔で撮影された太陽全体の磁場画像 2. ⿊点レベルの物理特徴量 • 太陽画像から抽出した，物理特徴量

Slide 6

Slide 6 text

出⼒ • 24時間分の太陽のX線強度問題設定：太陽画像と物理特徴量を⽤いた太陽フレア回帰予測 6 対象タスク：時刻𝑡から24時間後までの太陽フレアのX線強度を予測⼊⼒ 1. 磁場画像 • 1時間間隔で撮影された太陽全体の磁場画像 2. ⿊点レベルの物理特徴量 • 太陽画像から抽出した，物理特徴量

Slide 7

Slide 7 text

提案⼿法：Flare Transformer Regressor 7 新規性 1. Masked Autoencoder[He+, CVPR22]で事前学習したVision Transformer[Dosovitskiy+, ICLR21]を導⼊ 2. Informer[Zhou+, AAAI21]を参考にした回帰⽤デコーダを構築

Slide 8

Slide 8 text

提案⼿法：Flare Transformer Regressor 8 新規性 1. Masked Autoencoder[He+, CVPR22]で事前学習したVision Transformer[Dosovitskiy+, ICLR21]を導⼊ 2. Informer[Zhou+, AAAI21]を参考にした回帰⽤デコーダを構築

Slide 9

Slide 9 text

提案⼿法：Flare Transformer Regressor 9 新規性 1. Masked Autoencoder[He+, CVPR22]で事前学習したVision Transformer[Dosovitskiy+, ICLR21]を導⼊ 2. Informer[Zhou+, AAAI21]を参考にした回帰⽤デコーダを構築

Slide 10

Slide 10 text

磁場画像と物理特徴量を⼊⼒，24時間後までのX線強度を出⼒ - ⼊⼒時刻からにおける磁場画像および 90種類の物理特徴量 10 - 出⼒時刻𝑡から24時間後までにおけるX線強度の対数値

Slide 11

Slide 11 text

• Masked Autoencoder(MAE)[He+, CVPR22]に基づき磁場画像の再構成を⾏う • 画像パッチの⼀部を除去（⿊い部分）して元画像を再構成 • [He+, CVPR22]と異なり，画像パッチ内の標準偏差をもとに除去するパッチを選択する新規性①：パッチ内の標準偏差に基づき再構成する事前学習 Lスパースな重要領域の情報が⽋如パッチサイズに対し重要領域は⼩さいため周囲の情報から再構成することは極めて困難 Jスパースな重要領域が除去されにくい元画像ランダムで除去 [He+, CVPR22] パッチ内標準偏差を基に除去重要領域

Slide 12

Slide 12 text

• Masked Autoencoder(MAE)[He+, CVPR22]に基づき磁場画像の再構成を⾏う • 画像パッチの⼀部を除去（⿊い部分）して元画像を再構成 • [He+, CVPR22]と異なり，画像パッチ内の標準偏差をもとに除去するパッチを選択する新規性①：パッチ内の標準偏差に基づき再構成する事前学習元画像ランダムで除去 [He+, CVPR22] パッチ内標準偏差を基に除去重要領域

Slide 13

Slide 13 text

損失に含まれないパッチ Masked AutoencoderによるVision Transformerの事前学習 - 13 - ■ MAE encoder：除去されず残ったパッチ→画像特徴量 ■ MAE decoder：画像特徴量＋マスクトークン→再構成画像⼊⼒（⼀部を拡⼤）再構成結果除去

Slide 14

Slide 14 text

損失に含まれないパッチ Masked AutoencoderによるVision Transformerの事前学習 - 14 - ■ MAE encoder：除去されず残ったパッチ→画像特徴量 ■ MAE decoder：画像特徴量＋マスクトークン→再構成画像⼊⼒（⼀部を拡⼤）再構成結果除去除去されたパッチの存在を表す、学習可能ベクトル

Slide 15

Slide 15 text

新規性②：Informerを参考にした回帰⽤デコーダを構築 15 Transformer Decoder • ⻑時間の時系列予測を効率的に⾏う • 抽出した特徴量から24時間分のX線強度を並列に出⼒ • 𝑁!" 層のtransformer層によって時系列関係をモデル化

Slide 16

Slide 16 text

実験設定：テスト集合は必ず訓練集合より未来のデータ 16 ■ 2010-2017年における合計61315サンプル ■ 1h間隔の磁場画像と90種の物理特徴量のセット ■ 時系列交差検証[Tashman+, 00]をベースとした分割 Training Set Validation Set Test Set 期間サンプル数期間サンプル数期間サンプル数 2010-2013 29247 2014 8127 2015 8155 2010-2014 37374 2015 8155 2016 7795 2010-2015 45529 2016 7795 2017 7991 磁場画像物理特徴量

Slide 17

Slide 17 text

定量的結果：ベースラインを上回る予測性能を達成 17 平均予測軌道誤差において，ベースライン⼿法であるFlare Transformerを上回る性能を達成平均予測軌道誤差↓ Flare Transformer[Kaneda+, JSAI22] 1.06±0.44 提案⼿法 0.48±0.03 提案⼿法（修正版） 0.41±0.04 平均予測軌道誤差 " 𝐸!"#:!"%& (𝑁：サンプル数) " 𝐸!"#:!"%& = 1 24𝑁 ) '(# ) ) *(# %& (Ground Truth)!"* (') −(予測値)!"* (') J0.65pt 改善

Slide 18

Slide 18 text

成功例：⼊⼒に表れない傾向の予測に成功 (a)Ground Truth，(b)予測結果増加する時系列成功例失敗例 J減少傾向を捉えることに成功予測開始時刻

Slide 19

Slide 19 text

失敗例：⽋損した時刻での誤差が⼤きい (a)Ground Truth，(b)予測結果⽋損値を,それ以前の時刻において最後に観測された値で置き換えた成功例失敗例 L⽋損している時刻において誤差が⼤きい →⽋損値部分を評価から取り除く/ より細かい時間間隔でサンプリング

Slide 20

Slide 20 text

Ablation Studies：ViTの導⼊が性能向上に寄与 20 Attention ⼊⼒系列⻑平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 L0.13pt 悪化 Ablation(a)：ViTを，Frare TransformerにおけるCNNで構成される特徴抽出器へと置き換えた場合 →MAEで事前学習を⾏ったViTを導⼊したことが性能向上に寄与

Slide 21

Slide 21 text

Ablation Studies：⼊⼒系列⻑を増やすと性能劣化 21 Attention ⼊⼒系列⻑平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(b)(c)：⼊⼒系列⻑を増加 →⼊⼒系列⻑が⼤きい条件では，やや性能が劣化 L0.01pt 悪化

Slide 22

Slide 22 text

Ablation Studies： ProbSparse Attentionは系列⻑が⼤きい条件での性能劣化を防ぐ 22 attention ⼊⼒系列⻑平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(d)-(f)：attentionをInformerで⽤いられるProbSparse Attention に置き換えた場合 →⼊⼒系列⻑が⼤きい条件でも性能劣化が防げる重要なクエリのみをattentionの⼊⼒に⽤いる →attentionの計算を効率よく⾏うことができる

Slide 23

Slide 23 text

Ablation Studies： ProbSparse Attentionは系列⻑が⼤きい条件での性能劣化を防ぐ 23 attention ⼊⼒系列⻑平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(d)-(f)：attentionをInformerで⽤いられるProbSparse Attention に置き換えた場合 →⼊⼒系列⻑が⼤きい条件でも性能劣化が防げる L0.03pt 悪化

Slide 24

Slide 24 text

Ablation Studies： ProbSparse Attentionは系列⻑が⼤きい条件での性能劣化を防ぐ 24 attention ⼊⼒系列⻑平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(d)-(f)：attentionをInformerで⽤いられるProbSparse Attention に置き換えた場合 →⼊⼒系列⻑が⼤きい条件でも性能劣化が防げる J0.01pt 改善

Slide 25

Slide 25 text

まとめ - 25 - ü 太陽フレア予測を回帰問題として扱うために Flare Transformer Regressor を提案 ü Informerを参考にした回帰⽤デコーダを構築し、特徴量抽出のためにMasked Autoencoder に基づく事前学習を導⼊した ü その結果, ベースライン⼿法を上回る性能を記録

Slide 26

Slide 26 text

補⾜：ProbSparse Attention - 26 - ProbSparse Attention 以下のSpacity measurement 𝑀を⽤いて上位𝑢個のクエリのみをAttentionの計算に使⽤． →系列⻑ L に対して計算量𝑂(𝐿 log 𝐿 ) で計算できる．𝑞# ，𝑘# はそれぞれクエリ⾏列，キー⾏列の𝑖⾏⽬を表す. 𝑀 𝑞# , 𝐾 = max $ 𝑞#𝑘% ! 𝑑 − 1 𝐿& 8 %'( )! 𝑞#𝑘% ! 𝑑