Slide 1

Slide 1 text

Flare Transformer Regressor: Masked Autoencoderと Informer Decoderに基づく 太陽フレア予測 九曜克之1 和⽥唯我1 , 兼⽥寛⼤ 1, 飯⽥紡 1, ⻄塚直⼈ 2, 久保勇樹 2, 杉浦孔明 1 1 慶應義塾⼤学,2 NICT

Slide 2

Slide 2 text

背景:⼤規模な太陽フレアは甚⼤な被害をもたらす - 2 - 太陽フレア:太陽表⾯上の⿊点周辺で発⽣する爆発現象 太陽フレアによる被害 発⽣を事前に予測できれば, 被害を最⼩限に抑えることが可能 1989年 カナダ・ケベック州の⼤規模停電 2003年 ⼩惑星探査機はやぶさに損傷 2022年 SpaceXの衛星49基中40基が落下 (⽇経新聞2022/4/26) 保険会社による被害予想額 ⇒ 約1600億ドル@北⽶ 太陽フレア予測は⾮常に重要 NASA, https://svs.gsfc.nasa.gov/4491

Slide 3

Slide 3 text

既存研究:太陽フレアの回帰予測が今後重要になる - 3 - タスク 代表的⼿法 概要 時系列予測 DeepAR [Salinias+, IJF20] ⾃⼰回帰型RNNを⽤いた時系列予測モデル Informer [Zhou+, AAAI21] ProbSparse self-attention機構を⽤いた予測モデル 太陽フレア予測 Deep Flare Net [Nishizuka+, ApJ18] ⿊点レベルの物理特徴量を⼊⼒とした予測モデル Flare Transformer [兼⽥+, JSAI22] 磁場画像と物理特徴量を⼊⼒とした予測モデル [Zhou+, AAAI21] [Nishizuka+, ApJ18] [兼⽥+, JSAI22]

Slide 4

Slide 4 text

既存研究:太陽フレアの回帰予測が今後重要になる - 4 - タスク 代表的⼿法 概要 時系列予測 DeepAR [Salinias+, IJF20] ⾃⼰回帰型RNNを⽤いた時系列予測モデル Informer [Zhou+, AAAI21] ProbSparse self-attention機構を⽤いた予測モデル 太陽フレア予測 Deep Flare Net [Nishizuka+, ApJ18] ⿊点レベルの物理特徴量を⼊⼒とした予測モデル Flare Transformer [兼⽥+, JSAI22] 磁場画像と物理特徴量を⼊⼒とした予測モデル [Zhou+, AAAI21] [Nishizuka+, ApJ18] [兼⽥+, JSAI22] 時刻𝑡から24時間以内の最⼤の太陽フレアクラス を求める分類問題で専⾨家予測を超える →専⾨家にとって困難な回帰予測が重要 →太陽フレア予測を回帰問題として扱う

Slide 5

Slide 5 text

問題設定:太陽画像と物理特徴量を⽤いた太陽フレア回帰予測 5 対象タスク:時刻𝑡から24時間後までの太陽フレアのX線強度を予測 ⼊⼒ 1. 磁場画像 • 1時間間隔で撮影された 太陽全体の磁場画像 2. ⿊点レベルの物理特徴量 • 太陽画像から抽出した, 物理特徴量

Slide 6

Slide 6 text

出⼒ • 24時間分の太陽のX線強度 問題設定:太陽画像と物理特徴量を⽤いた太陽フレア回帰予測 6 対象タスク:時刻𝑡から24時間後までの太陽フレアのX線強度を予測 ⼊⼒ 1. 磁場画像 • 1時間間隔で撮影された 太陽全体の磁場画像 2. ⿊点レベルの物理特徴量 • 太陽画像から抽出した, 物理特徴量

Slide 7

Slide 7 text

提案⼿法:Flare Transformer Regressor 7 新規性 1. Masked Autoencoder[He+, CVPR22]で事前学習したVision Transformer[Dosovitskiy+, ICLR21]を導⼊ 2. Informer[Zhou+, AAAI21]を参考にした回帰⽤デコーダを 構築

Slide 8

Slide 8 text

提案⼿法:Flare Transformer Regressor 8 新規性 1. Masked Autoencoder[He+, CVPR22]で事前学習したVision Transformer[Dosovitskiy+, ICLR21]を導⼊ 2. Informer[Zhou+, AAAI21]を参考にした回帰⽤デコーダを 構築

Slide 9

Slide 9 text

提案⼿法:Flare Transformer Regressor 9 新規性 1. Masked Autoencoder[He+, CVPR22]で事前学習したVision Transformer[Dosovitskiy+, ICLR21]を導⼊ 2. Informer[Zhou+, AAAI21]を参考にした回帰⽤デコーダを 構築

Slide 10

Slide 10 text

磁場画像と物理特徴量を⼊⼒,24時間後までのX線強度を出⼒ - ⼊⼒ 時刻 から に おける磁場画像および 90種類の物理特徴量 10 - 出⼒ 時刻𝑡から24時間後まで におけるX線強度の 対数値

Slide 11

Slide 11 text

• Masked Autoencoder(MAE)[He+, CVPR22]に基づき磁場画像の再構成を⾏う • 画像パッチの⼀部を除去(⿊い部分)して元画像を再構成 • [He+, CVPR22]と異なり,画像パッチ内の標準偏差をもとに除去するパッチを選択する 新規性①:パッチ内の標準偏差に基づき再構成する事前学習 Lスパースな重要領域の情報が⽋如 パッチサイズに対し重要領域は⼩さいため 周囲の情報から再構成することは極めて困難 Jスパースな重要領域が 除去されにくい 元画像 ランダムで除去 [He+, CVPR22] パッチ内標準偏差を基に除去 重要領域

Slide 12

Slide 12 text

• Masked Autoencoder(MAE)[He+, CVPR22]に基づき磁場画像の再構成を⾏う • 画像パッチの⼀部を除去(⿊い部分)して元画像を再構成 • [He+, CVPR22]と異なり,画像パッチ内の標準偏差をもとに除去するパッチを選択する 新規性①:パッチ内の標準偏差に基づき再構成する事前学習 元画像 ランダムで除去 [He+, CVPR22] パッチ内標準偏差を基に除去 重要領域

Slide 13

Slide 13 text

損失に含まれない パッチ Masked AutoencoderによるVision Transformerの事前学習 - 13 - ■ MAE encoder:除去されず残ったパッチ→画像特徴量 ■ MAE decoder:画像特徴量+マスクトークン→再構成画像 ⼊⼒(⼀部を拡⼤) 再構成結果 除去

Slide 14

Slide 14 text

損失に含まれない パッチ Masked AutoencoderによるVision Transformerの事前学習 - 14 - ■ MAE encoder:除去されず残ったパッチ→画像特徴量 ■ MAE decoder:画像特徴量+マスクトークン→再構成画像 ⼊⼒(⼀部を拡⼤) 再構成結果 除去 除去されたパッチの存在を 表す、学習可能ベクトル

Slide 15

Slide 15 text

新規性②:Informerを参考にした回帰⽤デコーダを構築 15 Transformer Decoder • ⻑時間の時系列予測を効率的に⾏う • 抽出した特徴量から24時間分のX線強度を並列に出⼒ • 𝑁!" 層のtransformer層によって時系列関係をモデル化

Slide 16

Slide 16 text

実験設定:テスト集合は必ず訓練集合より未来のデータ 16 ■ 2010-2017年における合計61315サンプル ■ 1h間隔の磁場画像と90種の物理特徴量のセット ■ 時系列交差検証[Tashman+, 00]をベースとした分割 Training Set Validation Set Test Set 期間 サンプル数 期間 サンプル数 期間 サンプル数 2010-2013 29247 2014 8127 2015 8155 2010-2014 37374 2015 8155 2016 7795 2010-2015 45529 2016 7795 2017 7991 磁場画像 物理特徴量

Slide 17

Slide 17 text

定量的結果:ベースラインを上回る予測性能を達成 17 平均予測軌道誤差において, ベースライン⼿法であるFlare Transformerを上回る性能を達成 平均予測軌道誤差↓ Flare Transformer[Kaneda+, JSAI22] 1.06±0.44 提案⼿法 0.48±0.03 提案⼿法(修正版) 0.41±0.04 平均予測軌道誤差 " 𝐸!"#:!"%& (𝑁:サンプル数) " 𝐸!"#:!"%& = 1 24𝑁 ) '(# ) ) *(# %& (Ground Truth)!"* (') −(予測値)!"* (') J0.65pt 改善

Slide 18

Slide 18 text

成功例:⼊⼒に表れない傾向の予測に成功 (a)Ground Truth,(b)予測結果 増加する時系列 成功例 失敗例 J減少傾向を捉えることに成功 予測開始時刻

Slide 19

Slide 19 text

失敗例:⽋損した時刻での誤差が⼤きい (a)Ground Truth,(b)予測結果 ⽋損値を,それ以前の時刻において 最後に観測された値で置き換えた 成功例 失敗例 L⽋損している時刻において誤差が⼤きい →⽋損値部分を評価から取り除く/ より細かい時間間隔でサンプリング

Slide 20

Slide 20 text

Ablation Studies:ViTの導⼊が性能向上に寄与 20 Attention ⼊⼒系列⻑ 平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 L0.13pt 悪化 Ablation(a):ViTを,Frare TransformerにおけるCNNで構成される特徴抽出器 へと置き換えた場合 →MAEで事前学習を⾏ったViTを導⼊したことが性能向上に寄与

Slide 21

Slide 21 text

Ablation Studies:⼊⼒系列⻑を増やすと性能劣化 21 Attention ⼊⼒系列⻑ 平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(b)(c):⼊⼒系列⻑を増加 →⼊⼒系列⻑が⼤きい条件では,やや性能が劣化 L0.01pt 悪化

Slide 22

Slide 22 text

Ablation Studies: ProbSparse Attentionは系列⻑が ⼤きい条件での性能劣化を防ぐ 22 attention ⼊⼒系列⻑ 平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(d)-(f):attentionをInformerで⽤いられるProbSparse Attention に 置き換えた場合 →⼊⼒系列⻑が⼤きい条件でも性能劣化が防げる 重要なクエリのみをattentionの ⼊⼒に⽤いる →attentionの計算を効率よく ⾏うことができる

Slide 23

Slide 23 text

Ablation Studies: ProbSparse Attentionは系列⻑が ⼤きい条件での性能劣化を防ぐ 23 attention ⼊⼒系列⻑ 平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(d)-(f):attentionをInformerで⽤いられるProbSparse Attention に 置き換えた場合 →⼊⼒系列⻑が⼤きい条件でも性能劣化が防げる L0.03pt 悪化

Slide 24

Slide 24 text

Ablation Studies: ProbSparse Attentionは系列⻑が ⼤きい条件での性能劣化を防ぐ 24 attention ⼊⼒系列⻑ 平均予測軌道誤差↓ 提案⼿法(修正版) Full 4 0.41±0.04 (a)ViT→CNN Full 4 0.54±0.12 (b) Full 8 0.41±0.04 (c) Full 12 0.42±0.04 (d) ProbSparse 4 0.44±0.03 (e) ProbSparse 8 0.41±0.04 (f) ProbSparse 12 0.41±0.04 Ablation(d)-(f):attentionをInformerで⽤いられるProbSparse Attention に 置き換えた場合 →⼊⼒系列⻑が⼤きい条件でも性能劣化が防げる J0.01pt 改善

Slide 25

Slide 25 text

まとめ - 25 - ü 太陽フレア予測を回帰問題 として扱うために Flare Transformer Regressor を提案 ü Informerを参考にした回帰⽤ デコーダを構築し、特徴量抽出 のためにMasked Autoencoder に基づく事前学習を導⼊した ü その結果, ベースライン⼿法を 上回る性能を記録

Slide 26

Slide 26 text

補⾜:ProbSparse Attention - 26 - ProbSparse Attention 以下のSpacity measurement 𝑀を⽤いて上位𝑢個のクエリのみをAttentionの 計算に使⽤. →系列⻑ L に対して計算量𝑂(𝐿 log 𝐿 ) で計算 できる.𝑞# ,𝑘# はそれぞれ ク エリ⾏列,キー⾏列の𝑖⾏⽬を表す. 𝑀 𝑞# , 𝐾 = max $ 𝑞#𝑘% ! 𝑑 − 1 𝐿& 8 %'( )! 𝑞#𝑘% ! 𝑑