Slide 1

Slide 1 text

AI 2023.09.07 高橋 文彦 GO株式会社 時系列予測にTransformer を使うのは有効か?

Slide 2

Slide 2 text

AI 2 項目 01|近年の時系列予測の研究 02|「Are Transformers Effective for Time Series Forecasting?」の紹介 04|まとめ・感想 03|「Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)」 の紹介

Slide 3

Slide 3 text

AI 3 01 近年の時系列予測の研究

Slide 4

Slide 4 text

AI 4 ● Transformerを応用した研究が盛ん ○ LogTrans (NeurIPS 2019) ○ Informer (AAAI 2021 Best paper) ○ Autoformer (NeurIPS 2021) ○ Pyraformer (ICLR 2022 Oral) ○ Triformer (IJCAI 2022) ○ FEDformer (ICML 2022) ● 精度向上や計算量削減が主眼 近年のTransformerを使った時系列予測の研究

Slide 5

Slide 5 text

AI 5 (a), (b)の実線の四角は必須要素、点線はオプショナル (c), (d)はそれぞれ異なる手法 Transformer ベースのモデルの概観 文献:https://ojs.aaai.org/index.php/AAAI/article/view/26317/26089

Slide 6

Slide 6 text

AI 6 ● LogTrans (NeurIPS 2019) ○ 対数スケールで参照するポイントを間引く ● Informer (AAAI 2021) ○ attention時に分布の逸脱が大きい行だけを残す ○ attentionの後にConv+MaxPoolを入れて系列長を半分にする ● Pyraformer (ICLR 2022) ○ ピラミッド型に参照ポイントを限定 self-attentionのO(L^2)の計算量を削減する工夫 文献:https://arxiv.org/pdf/1907.00235.pdf 文献:https://openreview.net/pdf?id=0EXmFzUn5I

Slide 7

Slide 7 text

AI 7 ● Autoformer (NeurIPS 2021) ● FEDformer (ICML 2022) ○ 季節性成分とトレンド成分を分離して扱う ○ 季節性成分に対してフーリエ変換を使って周波数領域でattentionを行う 時系列分解の導入 文献:https://arxiv.org/pdf/2106.13008.pdf

Slide 8

Slide 8 text

AI 8 02 「Are Transformers Effective for Time Series Forecasting?」の紹介

Slide 9

Slide 9 text

AI 9 ● AAAI 2023でacceptされた論文, Ailing Zeng et al. ● 概要 ○ 新たなベースラインとして 恥ずかしいほどシンプルな1層の線形モデルを紹介 ○ Transformerベースのモデルと比較し優れた精度 ○ 既存のTransformerベースのモデルの様々な側面に対する実験 Are Transformers Effective for Time Series Forecasting? 文献:https://ojs.aaai.org/index.php/AAAI/article/view/26317/26089

Slide 10

Slide 10 text

AI 10 ● Linear ○ 1層の線形モデル ○ 変数間で同じweightを共有 ● DLinear ○ 時系列分解を行う線形モデル ■ 移動平均によってトレンド成分と季節性成 分に分ける ■ それぞれの成分ごとに線形モデルで 予測し、足し合わせたものが最終的 な予測結果 ● NLinear ○ 分布変化を捉える線形モデル ■ 入力データの最後の値で系列データを引く ■ 線形モデルの予測結果に最後の値を足す 恥ずかしいほどシンプルな1層の線形モデル

Slide 11

Slide 11 text

AI 11 ● データセット ○ ETT (Electricity Transformer Temperature), Traffic, Electricity, Weather, ILI, Exchange-Rate ● 評価指標 ○ MSE, MAE ● 比較対象 ○ 線形モデル ■ Linear, NLinear, DLinear ○ Transformerベース ■ FEDformer, Autoformer, Informer, Pyraformer ○ ルールベース ■ Repeat(入力系列の最後の値を繰り返す) 実験設定

Slide 12

Slide 12 text

AI 12 結果 ● いずれのデータセットでも 線形モデルが予測誤差小 ● Exchangeに関しては Repeatが一番良い結果 予測誤差の比較 Linearベース Transformerベース Repeat

Slide 13

Slide 13 text

AI 13 ● 実験 ○ Electricityデータセット ○ 96点を入力にして192点を予測 ● 結果 ○ Transformerはスケールとバイア スを捉えるのに失敗している ■ トレンドを捉えるのが苦手 定性的な比較

Slide 14

Slide 14 text

AI 14 実験 ● 各モデルで入力サイズを変化させ評価 結果 ● Linearモデルは入力サイズを広げると予測誤差が 減少 ● Transformerベースのモデルは入力サイズを広げ ても予測誤差が一定 or 劣化 ● →ノイズに対してoverfitしてしまう Transformerは長い入力系列の関係を抽出できるか?

Slide 15

Slide 15 text

AI 15 ● 実験 ○ 時系列予測で学習できるのは「トレンドと周期性のみ」ではないか ○ 入力を直近のデータ、過去のデータそれぞれで差があるか ■ Close: 予測対象の直前の96件 ■ Far: 予測対象の直前96件手前から96件 ● 結果 ○ Transformerベースの性能は低下はわずか ■ 隣接する時系列データから同様の時間情報のみ(トレンドと周期性)を抽出している ○ →周期性やトレンドを捉えるために多数のパラメータは不要のはず ○ →パラメータが多すぎるとoverfitの原因になる 時系列予測モデルは何を学習するのか? Close input Far input Prediction target

Slide 16

Slide 16 text

AI 16 ● 実験 ○ Informerを段階的にLinearモデルに近づける ■ Att.-Linear:self-attentionをFC層に変更 ■ Embed + Linear:embedding layerとFC層のみ ■ Linear:FC層のみ ● 結果 ○ Linearに近づけるほど段階的に予測誤差が減少 時系列予測にself-attentionが効果的か?

Slide 17

Slide 17 text

AI 17 ● 実験 ○ 入力系列をランダムに入れ替えた時の精度劣化を確認 ■ Shuf. :シャッフル ■ Half-Ex.:ランダムに前後半を入れ替える ● 結果 ○ Linearが精度劣化するのに対して、Transfomerベースのモデルは精度が維持 ■ ただしETTデータセットではFEDformerとAutoformerは劣化 ● 季節性成分を周波数領域で扱うため Transformerは順番を保存できるのか?

Slide 18

Slide 18 text

AI 18 ● 実験 ○ Trafficデータセットに対して学習データサイズを変えて比較 ■ Ori.:17,544*0.7 時間 ■ Short:8,760 時間 (1年分) ● 結果 ○ Shortの方が予測誤差が少ない ■ 通年のデータの方が明確な時間的特徴を維持しているからか ○ 学習データサイズが予測誤差大の理由ではない 学習データサイズがTransformerの予測誤差大の要因か? Ori. Short おそらく直近1年のデータだけを残す減らし 方をしている

Slide 19

Slide 19 text

AI 19 ● 実験 ○ 計算量 O(L^2) を削減するための工夫をしているが、本当に推論 時間とメモリ削減に効果があるのか ● 結果 ○ ほとんどのTransformerが、シンプルなTransoformerより推論 時間が長く、メモリ使用量が多い ○ → 追加モジュールがコスト増になっている 効率性は本当に最優先事項か?

Slide 20

Slide 20 text

AI 20 03 「Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)」の紹介

Slide 21

Slide 21 text

AI 21 ● 「Are Transformers Effective for Time Series Forecasting?」に対する🤗hugging faceのブログ ● 概要 ○ 経験的にTransformerは時系列予測に効果的 ○ DLinearと比較実験をして単変量モデルとして学習した Transformerベースのモデルの方が優れている Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer) 文献:https://huggingface.co/blog/autoformer

Slide 22

Slide 22 text

AI 22 ● 単変量モデルの方が多変量モデルより優れている ○ 系列間の相関や関係を推定するのが難しく、モデルが誤った相関を学習 予測誤差の比較

Slide 23

Slide 23 text

AI 23 ● Transformerの可能性を最大限引き出すには 大規模データセットが必要 ● 時系列予測の既存のモデルは 数百〜数千サンプル程度のデータで学習 ● したがって、 大規模な汎用時系列データセット (CV の ImageNet など) の 開発が重要 このブログのまとめ

Slide 24

Slide 24 text

AI 24 04 まとめ・感想

Slide 25

Slide 25 text

AI 25 ● AAAIの論文 ○ Transfomerベースのモデルはシンプルな線形モデルに劣る ○ パラメータが多すぎてoverfitしている可能性 ○ 時間的順序は保持できていない ● 🤗のブログ ○ 多変量モデルではなく単変量モデルにすることで線形モデルより 優れた予測誤差 ○ 多変量モデルで精度が振るわないのは、時系列データセットが小 さいことが問題 まとめ

Slide 26

Slide 26 text

AI 26 ● 🤗ブログは評価指標がMASE(Mean Absolute Scaled Error) ○ MAEを学習データ内の変化量で正規化したもの ○ z_{t}: 学習データ ○ p: 季節性 ● データの系列長が異なる ○ AAAIの論文: ■ input: 96~720 ■ prediction: 96~720 ○ 🤗 ブログ: ■ input: 48 ■ prediction: 24 AAAIの論文 と 🤗 ブログの違い 優劣に影響しうる 優劣に影響なし

Slide 27

Slide 27 text

AI 27 入力系列長ごとの予測誤差(arxiv論文のAppendixより) x軸:入力系列長、y軸:MSE AAAIの論文の実験でも入力系列で優劣が変わる 文献:https://arxiv.org/pdf/2205.13504.pdf 入力系列が短い時に Linearの方が劣ってい る

Slide 28

Slide 28 text

AI 28 ● いずれも実験的な説明に留まっていて理論的には不明 ○ 検証に恣意性ない...? ● self-attentionの構造が時系列予測に向かないっていうの は本当? ○ NLPでも1tokenが意味がある単位とは限らない ○ positional encodingのことを無視した主張 感想

Slide 29

Slide 29 text

AI ありがとうございました