時系列予測にTransformerは有効か？

Slide 1

Slide 1 text

AI 2023.09.07 高橋文彦 GO株式会社時系列予測にTransformer を使うのは有効か？

Slide 2

Slide 2 text

AI 2 項目 01｜近年の時系列予測の研究 02｜「Are Transformers Eﬀective for Time Series Forecasting?」の紹介 04｜まとめ・感想 03｜「Yes, Transformers are Eﬀective for Time Series Forecasting (+ Autoformer)」の紹介

Slide 3

Slide 3 text

AI 3 01 近年の時系列予測の研究

Slide 4

Slide 4 text

AI 4 ● Transformerを応用した研究が盛ん ○ LogTrans (NeurIPS 2019) ○ Informer (AAAI 2021 Best paper) ○ Autoformer (NeurIPS 2021) ○ Pyraformer (ICLR 2022 Oral) ○ Triformer (IJCAI 2022) ○ FEDformer (ICML 2022) ● 精度向上や計算量削減が主眼近年のTransformerを使った時系列予測の研究

Slide 5

Slide 5 text

AI 5 (a), (b)の実線の四角は必須要素、点線はオプショナル (c), (d)はそれぞれ異なる手法 Transformer ベースのモデルの概観文献：https://ojs.aaai.org/index.php/AAAI/article/view/26317/26089

Slide 6

Slide 6 text

AI 6 ● LogTrans (NeurIPS 2019) ○ 対数スケールで参照するポイントを間引く ● Informer (AAAI 2021) ○ attention時に分布の逸脱が大きい行だけを残す ○ attentionの後にConv+MaxPoolを入れて系列長を半分にする ● Pyraformer (ICLR 2022) ○ ピラミッド型に参照ポイントを限定 self-attentionのO(L^2)の計算量を削減する工夫文献：https://arxiv.org/pdf/1907.00235.pdf 文献：https://openreview.net/pdf?id=0EXmFzUn5I

Slide 7

Slide 7 text

AI 7 ● Autoformer (NeurIPS 2021) ● FEDformer (ICML 2022) ○ 季節性成分とトレンド成分を分離して扱う ○ 季節性成分に対してフーリエ変換を使って周波数領域でattentionを行う時系列分解の導入文献：https://arxiv.org/pdf/2106.13008.pdf

Slide 8

Slide 8 text

AI 8 02 「Are Transformers Eﬀective for Time Series Forecasting?」の紹介

Slide 9

Slide 9 text

AI 9 ● AAAI 2023でacceptされた論文, Ailing Zeng et al. ● 概要 ○ 新たなベースラインとして恥ずかしいほどシンプルな1層の線形モデルを紹介 ○ Transformerベースのモデルと比較し優れた精度 ○ 既存のTransformerベースのモデルの様々な側面に対する実験 Are Transformers Eﬀective for Time Series Forecasting? 文献：https://ojs.aaai.org/index.php/AAAI/article/view/26317/26089

Slide 10

Slide 10 text

AI 10 ● Linear ○ １層の線形モデル ○ 変数間で同じweightを共有 ● DLinear ○ 時系列分解を行う線形モデル ■ 移動平均によってトレンド成分と季節性成分に分ける ■ それぞれの成分ごとに線形モデルで予測し、足し合わせたものが最終的な予測結果 ● NLinear ○ 分布変化を捉える線形モデル ■ 入力データの最後の値で系列データを引く ■ 線形モデルの予測結果に最後の値を足す恥ずかしいほどシンプルな１層の線形モデル

Slide 11

Slide 11 text

AI 11 ● データセット ○ ETT (Electricity Transformer Temperature), Traﬃc, Electricity, Weather, ILI, Exchange-Rate ● 評価指標 ○ MSE, MAE ● 比較対象 ○ 線形モデル ■ Linear, NLinear, DLinear ○ Transformerベース ■ FEDformer, Autoformer, Informer, Pyraformer ○ ルールベース ■ Repeat（入力系列の最後の値を繰り返す）実験設定

Slide 12

Slide 12 text

AI 12 結果 ● いずれのデータセットでも線形モデルが予測誤差小 ● Exchangeに関しては Repeatが一番良い結果予測誤差の比較 Linearベース Transformerベース Repeat

Slide 13

Slide 13 text

AI 13 ● 実験 ○ Electricityデータセット ○ 96点を入力にして192点を予測 ● 結果 ○ Transformerはスケールとバイアスを捉えるのに失敗している ■ トレンドを捉えるのが苦手定性的な比較

Slide 14

Slide 14 text

AI 14 実験 ● 各モデルで入力サイズを変化させ評価結果 ● Linearモデルは入力サイズを広げると予測誤差が減少 ● Transformerベースのモデルは入力サイズを広げても予測誤差が一定 or 劣化 ● →ノイズに対してoverﬁtしてしまう Transformerは長い入力系列の関係を抽出できるか？

Slide 15

Slide 15 text

AI 15 ● 実験 ○ 時系列予測で学習できるのは「トレンドと周期性のみ」ではないか ○ 入力を直近のデータ、過去のデータそれぞれで差があるか ■ Close: 予測対象の直前の96件 ■ Far: 予測対象の直前96件手前から96件 ● 結果 ○ Transformerベースの性能は低下はわずか ■ 隣接する時系列データから同様の時間情報のみ（トレンドと周期性）を抽出している ○ →周期性やトレンドを捉えるために多数のパラメータは不要のはず ○ →パラメータが多すぎるとoverﬁtの原因になる時系列予測モデルは何を学習するのか？ Close input Far input Prediction target

Slide 16

Slide 16 text

AI 16 ● 実験 ○ Informerを段階的にLinearモデルに近づける ■ Att.-Linear：self-attentionをFC層に変更 ■ Embed + Linear：embedding layerとFC層のみ ■ Linear：FC層のみ ● 結果 ○ Linearに近づけるほど段階的に予測誤差が減少時系列予測にself-attentionが効果的か？

Slide 17

Slide 17 text

AI 17 ● 実験 ○ 入力系列をランダムに入れ替えた時の精度劣化を確認 ■ Shuf. ：シャッフル ■ Half-Ex.：ランダムに前後半を入れ替える ● 結果 ○ Linearが精度劣化するのに対して、Transfomerベースのモデルは精度が維持 ■ ただしETTデータセットではFEDformerとAutoformerは劣化 ● 季節性成分を周波数領域で扱うため Transformerは順番を保存できるのか？

Slide 18

Slide 18 text

AI 18 ● 実験 ○ Traﬃcデータセットに対して学習データサイズを変えて比較 ■ Ori.：17,544*0.7 時間 ■ Short：8,760 時間 (1年分) ● 結果 ○ Shortの方が予測誤差が少ない ■ 通年のデータの方が明確な時間的特徴を維持しているからか ○ 学習データサイズが予測誤差大の理由ではない学習データサイズがTransformerの予測誤差大の要因か？ Ori. Short おそらく直近１年のデータだけを残す減らし方をしている

Slide 19

Slide 19 text

AI 19 ● 実験 ○ 計算量 O(L^2) を削減するための工夫をしているが、本当に推論時間とメモリ削減に効果があるのか ● 結果 ○ ほとんどのTransformerが、シンプルなTransoformerより推論時間が長く、メモリ使用量が多い ○ → 追加モジュールがコスト増になっている効率性は本当に最優先事項か？

Slide 20

Slide 20 text

AI 20 03 「Yes, Transformers are Eﬀective for Time Series Forecasting (+ Autoformer)」の紹介

Slide 21

Slide 21 text

AI 21 ● 「Are Transformers Eﬀective for Time Series Forecasting?」に対する🤗hugging faceのブログ ● 概要 ○ 経験的にTransformerは時系列予測に効果的 ○ DLinearと比較実験をして単変量モデルとして学習した Transformerベースのモデルの方が優れている Yes, Transformers are Eﬀective for Time Series Forecasting (+ Autoformer) 文献：https://huggingface.co/blog/autoformer

Slide 22

Slide 22 text

AI 22 ● 単変量モデルの方が多変量モデルより優れている ○ 系列間の相関や関係を推定するのが難しく、モデルが誤った相関を学習予測誤差の比較

Slide 23

Slide 23 text

AI 23 ● Transformerの可能性を最大限引き出すには大規模データセットが必要 ● 時系列予測の既存のモデルは数百〜数千サンプル程度のデータで学習 ● したがって、大規模な汎用時系列データセット (CV の ImageNet など) の開発が重要このブログのまとめ

Slide 24

Slide 24 text

AI 24 04 まとめ・感想

Slide 25

Slide 25 text

AI 25 ● AAAIの論文 ○ Transfomerベースのモデルはシンプルな線形モデルに劣る ○ パラメータが多すぎてoverﬁtしている可能性 ○ 時間的順序は保持できていない ● 🤗のブログ ○ 多変量モデルではなく単変量モデルにすることで線形モデルより優れた予測誤差 ○ 多変量モデルで精度が振るわないのは、時系列データセットが小さいことが問題まとめ

Slide 26

Slide 26 text

AI 26 ● 🤗ブログは評価指標がMASE(Mean Absolute Scaled Error) ○ MAEを学習データ内の変化量で正規化したもの ○ z_{t}: 学習データ ○ p: 季節性 ● データの系列長が異なる ○ AAAIの論文: ■ input: 96~720 ■ prediction: 96~720 ○ 🤗 ブログ: ■ input: 48 ■ prediction: 24 AAAIの論文と 🤗 ブログの違い優劣に影響しうる優劣に影響なし

Slide 27

Slide 27 text

AI 27 入力系列長ごとの予測誤差（arxiv論文のAppendixより） x軸：入力系列長、y軸：MSE AAAIの論文の実験でも入力系列で優劣が変わる文献：https://arxiv.org/pdf/2205.13504.pdf 入力系列が短い時に Linearの方が劣っている

Slide 28

Slide 28 text

AI 28 ● いずれも実験的な説明に留まっていて理論的には不明 ○ 検証に恣意性ない...？ ● self-attentionの構造が時系列予測に向かないっていうのは本当？ ○ NLPでも1tokenが意味がある単位とは限らない ○ positional encodingのことを無視した主張感想

Slide 29

Slide 29 text

AI ありがとうございました