Upgrade to Pro — share decks privately, control downloads, hide ads and more …

時系列予測にTransformerは有効か?

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 時系列予測にTransformerは有効か?

AAAI2023「Are Transformers Effective for Time Series Forecasting?」と、HuggingFace「Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)」の紹介です。

Avatar for fumihiko takahashi

fumihiko takahashi

September 21, 2023
Tweet

More Decks by fumihiko takahashi

Other Decks in Technology

Transcript

  1. AI 2 項目 01|近年の時系列予測の研究 02|「Are Transformers Effective for Time Series

    Forecasting?」の紹介 04|まとめ・感想 03|「Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)」 の紹介
  2. AI 4 • Transformerを応用した研究が盛ん ◦ LogTrans (NeurIPS 2019) ◦ Informer

    (AAAI 2021 Best paper) ◦ Autoformer (NeurIPS 2021) ◦ Pyraformer (ICLR 2022 Oral) ◦ Triformer (IJCAI 2022) ◦ FEDformer (ICML 2022) • 精度向上や計算量削減が主眼 近年のTransformerを使った時系列予測の研究
  3. AI 6 • LogTrans (NeurIPS 2019) ◦ 対数スケールで参照するポイントを間引く • Informer

    (AAAI 2021) ◦ attention時に分布の逸脱が大きい行だけを残す ◦ attentionの後にConv+MaxPoolを入れて系列長を半分にする • Pyraformer (ICLR 2022) ◦ ピラミッド型に参照ポイントを限定 self-attentionのO(L^2)の計算量を削減する工夫 文献:https://arxiv.org/pdf/1907.00235.pdf 文献:https://openreview.net/pdf?id=0EXmFzUn5I
  4. AI 7 • Autoformer (NeurIPS 2021) • FEDformer (ICML 2022)

    ◦ 季節性成分とトレンド成分を分離して扱う ◦ 季節性成分に対してフーリエ変換を使って周波数領域でattentionを行う 時系列分解の導入 文献:https://arxiv.org/pdf/2106.13008.pdf
  5. AI 9 • AAAI 2023でacceptされた論文, Ailing Zeng et al. •

    概要 ◦ 新たなベースラインとして 恥ずかしいほどシンプルな1層の線形モデルを紹介 ◦ Transformerベースのモデルと比較し優れた精度 ◦ 既存のTransformerベースのモデルの様々な側面に対する実験 Are Transformers Effective for Time Series Forecasting? 文献:https://ojs.aaai.org/index.php/AAAI/article/view/26317/26089
  6. AI 10 • Linear ◦ 1層の線形モデル ◦ 変数間で同じweightを共有 • DLinear

    ◦ 時系列分解を行う線形モデル ▪ 移動平均によってトレンド成分と季節性成 分に分ける ▪ それぞれの成分ごとに線形モデルで 予測し、足し合わせたものが最終的 な予測結果 • NLinear ◦ 分布変化を捉える線形モデル ▪ 入力データの最後の値で系列データを引く ▪ 線形モデルの予測結果に最後の値を足す 恥ずかしいほどシンプルな1層の線形モデル
  7. AI 11 • データセット ◦ ETT (Electricity Transformer Temperature), Traffic,

    Electricity, Weather, ILI, Exchange-Rate • 評価指標 ◦ MSE, MAE • 比較対象 ◦ 線形モデル ▪ Linear, NLinear, DLinear ◦ Transformerベース ▪ FEDformer, Autoformer, Informer, Pyraformer ◦ ルールベース ▪ Repeat(入力系列の最後の値を繰り返す) 実験設定
  8. AI 13 • 実験 ◦ Electricityデータセット ◦ 96点を入力にして192点を予測 • 結果

    ◦ Transformerはスケールとバイア スを捉えるのに失敗している ▪ トレンドを捉えるのが苦手 定性的な比較
  9. AI 14 実験 • 各モデルで入力サイズを変化させ評価 結果 • Linearモデルは入力サイズを広げると予測誤差が 減少 •

    Transformerベースのモデルは入力サイズを広げ ても予測誤差が一定 or 劣化 • →ノイズに対してoverfitしてしまう Transformerは長い入力系列の関係を抽出できるか?
  10. AI 15 • 実験 ◦ 時系列予測で学習できるのは「トレンドと周期性のみ」ではないか ◦ 入力を直近のデータ、過去のデータそれぞれで差があるか ▪ Close:

    予測対象の直前の96件 ▪ Far: 予測対象の直前96件手前から96件 • 結果 ◦ Transformerベースの性能は低下はわずか ▪ 隣接する時系列データから同様の時間情報のみ(トレンドと周期性)を抽出している ◦ →周期性やトレンドを捉えるために多数のパラメータは不要のはず ◦ →パラメータが多すぎるとoverfitの原因になる 時系列予測モデルは何を学習するのか? Close input Far input Prediction target
  11. AI 16 • 実験 ◦ Informerを段階的にLinearモデルに近づける ▪ Att.-Linear:self-attentionをFC層に変更 ▪ Embed

    + Linear:embedding layerとFC層のみ ▪ Linear:FC層のみ • 結果 ◦ Linearに近づけるほど段階的に予測誤差が減少 時系列予測にself-attentionが効果的か?
  12. AI 17 • 実験 ◦ 入力系列をランダムに入れ替えた時の精度劣化を確認 ▪ Shuf. :シャッフル ▪

    Half-Ex.:ランダムに前後半を入れ替える • 結果 ◦ Linearが精度劣化するのに対して、Transfomerベースのモデルは精度が維持 ▪ ただしETTデータセットではFEDformerとAutoformerは劣化 • 季節性成分を周波数領域で扱うため Transformerは順番を保存できるのか?
  13. AI 18 • 実験 ◦ Trafficデータセットに対して学習データサイズを変えて比較 ▪ Ori.:17,544*0.7 時間 ▪

    Short:8,760 時間 (1年分) • 結果 ◦ Shortの方が予測誤差が少ない ▪ 通年のデータの方が明確な時間的特徴を維持しているからか ◦ 学習データサイズが予測誤差大の理由ではない 学習データサイズがTransformerの予測誤差大の要因か? Ori. Short おそらく直近1年のデータだけを残す減らし 方をしている
  14. AI 19 • 実験 ◦ 計算量 O(L^2) を削減するための工夫をしているが、本当に推論 時間とメモリ削減に効果があるのか •

    結果 ◦ ほとんどのTransformerが、シンプルなTransoformerより推論 時間が長く、メモリ使用量が多い ◦ → 追加モジュールがコスト増になっている 効率性は本当に最優先事項か?
  15. AI 20 03 「Yes, Transformers are Effective for Time Series

    Forecasting (+ Autoformer)」の紹介
  16. AI 21 • 「Are Transformers Effective for Time Series Forecasting?」に対する🤗hugging

    faceのブログ • 概要 ◦ 経験的にTransformerは時系列予測に効果的 ◦ DLinearと比較実験をして単変量モデルとして学習した Transformerベースのモデルの方が優れている Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer) 文献:https://huggingface.co/blog/autoformer
  17. AI 25 • AAAIの論文 ◦ Transfomerベースのモデルはシンプルな線形モデルに劣る ◦ パラメータが多すぎてoverfitしている可能性 ◦ 時間的順序は保持できていない

    • 🤗のブログ ◦ 多変量モデルではなく単変量モデルにすることで線形モデルより 優れた予測誤差 ◦ 多変量モデルで精度が振るわないのは、時系列データセットが小 さいことが問題 まとめ
  18. AI 26 • 🤗ブログは評価指標がMASE(Mean Absolute Scaled Error) ◦ MAEを学習データ内の変化量で正規化したもの ◦

    z_{t}: 学習データ ◦ p: 季節性 • データの系列長が異なる ◦ AAAIの論文: ▪ input: 96~720 ▪ prediction: 96~720 ◦ 🤗 ブログ: ▪ input: 48 ▪ prediction: 24 AAAIの論文 と 🤗 ブログの違い 優劣に影響しうる 優劣に影響なし