[Journal club] Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting

Slide 1

Slide 1 text

Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting Shiyang Li, Xiaoyong Jin, Yao Xuan, Xiyou Zhou, Wenhu Chen, Yu-Xiang Wang, Xifeng Yan (University of California, Santa Barbara) NeurIPS 2019 杉浦孔明研究室　兼田寛大 Li, S., Jin, X., Xuan, Y., Zhou, X., Chen, W., Wang, Y. X., & Yan, X. (2019). Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting. Advances in Neural Information Processing Systems, 32, 5243-5253.

Slide 2

Slide 2 text

2 概要 ▷ 背景　時系列データの予測タスクに対するTransformerの応用 ▷ 提案　 ▷ 結果　人工および実世界データに対して，提案手法により予測誤差が改善 TransformerにCausal ConvolutionおよびLogSparse Self Attentionを組み込んだLogSparse Transfomerモデル

Slide 3

Slide 3 text

▷ 時系列予測の重要性 ○ 資源管理 ○ 意思決定 ▷ 既存手法の限界 ○ 伝統的なモデル → 専門家の知識が必要 ○ 機械学習を用いたモデル → 長期的な依存関係を捉えることが難しい ▷ Transformerの登場 ○ Attention機構を用いたエンコーダ・デコーダ構造の深層学習モデル ○ 自然言語処理や画像生成タスクなど，様々な分野で活用されるなど　　　　　⇒ 時系列データの予測にTransformerを適用 3 暑い日にはアイスがよく売れる休日はこの道路がよく渋滞する背景 : Transformerを用いた時系列データの予測

Slide 4

Slide 4 text

4 ▷ 時系列データの予測を扱う既存研究　⇒ 問題点：大規模で長期的な依存関係を捉えることが難しい ▷ Transformer [Vaswani+, NIPS17] ○ Attention機構を用いたエンコーダ・デコーダ構造の深層学習モデル ○ BERT [Devlin+, 18] やGPT [Brown+, 20] などに用いられている既存研究問題点 ARIMA [Box+, 68] 統計的手法．大規模な予測タスクには適していない TRMF [Yu+, NIPS16] 時系列データを行列としてモデル化し，予測を行列の因数分解問題として扱う手法 DeepState [Rangapuram+, NIPS18] RNNを用いて状態空間モデルのパラメータを推定する手法関連研究

Slide 5

Slide 5 text

5 1. 周辺のコンテキストを考慮することが難しい ○ 2. メモリのボトルネック ○ 全てのセルのペア間でattentionを計算するため，空間計算量が　　　　になる　　　　　　　　　　　　　　　　　　　　　同じパターン？時系列データの予測にTransformerを適用する際の課題データ数 1日 365 1時間 8,760 1分 525,600 1秒 31,536,000 Attentionを計算する際に１時刻に関するデータしか与えないため，観測値が【異常値・変化点・パターンの一部】のどれに属するか判断することが難しい

Slide 6

Slide 6 text

6 ▷ LogSparse Transformer 1. 周辺コンテキストを考慮するため， Causal Convolution を導入 2. 空間計算量を削減するため，LogSparse Self Attention を導入　　　　　　　　　　　　　　　　　　　　　 ①Causal Convolution ②LogSparse Self Attention 提案手法 : LogSparse Transformer

Slide 7

Slide 7 text

7 ▷ 周辺コンテキストを考慮するため， Causal Convolutionを導入 ○ Attentionを計算する前に，カーネルサイズ k の畳み込みを適用 ○ 将来のデータを参照しないように過去のデータのみを参照する　　　　　　　　　　　　　　　　　　　　　手法① Causal Convolutionを用いた周辺コンテキストの考慮

Slide 8

Slide 8 text

8 ▷ 空間計算量を削減するため，LogSparse Self Attentionを導入 ○ 各セルに対して　　　　　　個のattentionを計算する ○ 空間計算量を　　　　　　　　とすることができる　　　　　　　　　　　　　　　　　　　　　手法② LogSparse Self Attentionを用いた空間計算量の削減

Slide 9

Slide 9 text

▷ 実験設定 ○ 　　　　　　　　　　　　　　　　　　　　　　 ○ 以上の式で示されるような時系列データを学習し、赤色で示された区間の信号を予測 9 予測実験① 合成信号データセットにおける検証

Slide 10

Slide 10 text

10 予測の関係 ▷ 実験設定 ○ 実験① 合成信号データセットにおける検証

Slide 11

Slide 11 text

11 予測無関係な信号　　が長いほど，長期的に依存関係を記憶する必要がある ▷ 実験設定 ○ 　　　　　　　　　　　　　　　　　　　　　　実験① 合成信号データセットにおける検証

Slide 12

Slide 12 text

12 ▷ 実験結果　　　　　　　　　　　　　　　　　　　　　結果：長期的な依存関係を捉えることに成功　　が小さい場合 ⇒ 既存手法と提案手法のどちらも予測誤差は小さい

Slide 13

Slide 13 text

13 ▷ 実験結果　　　　　　　　　　　　　　　　　　　　　提案手法既存手法結果：長期的な依存関係を捉えることに成功が大きい場合　　⇒ 既存手法 : 予測誤差が大きくなってしまう　　　　　⇒ 提案手法 : によらず予測誤差が小さい

Slide 14

Slide 14 text

14 ▷ 実験設定 ○ データ①　顧客の消費電力 i. 15分毎に計測された370の顧客の電力消費量(kW) × 3年分のデータセット ii. 4データ毎の平均値を算出し， 1時間毎の電力消費量となるように加工 ○ データ②　道路上の各地点の混雑率 i. 20分毎に計測された963地点のセンサー計測値 × 15か月分のデータセット ii. 3データ毎の平均値を算出し， 1時間毎のセンサー計測値となるように加工実験② 実世界データセットにおける検証

Slide 15

Slide 15 text

15 ARIMA ETS TRMF DeepAR DeepState 提案手法電力-1d 0.154 0.101 0.084 0.075 0.083 0.059 渋滞-1d 0.223 0.236 0.186 0.161 0.167 0.122 電力-1w 0.283 0.121 0.087 0.082 0.085 0.070 渋滞-1w 0.492 0.509 0.202 0.179 0.168 0.139 ▷ 実験結果 ○ -1d ：１日後のデータを予測するタスク ■ 短期的な関係性を学習する必要がある ○ -1w：１週間後のデータを予測するタスク ■ 長期的な関係性を学習する必要がある ⇒ どちらのタスクに対しても既存手法により予測誤差が改善結果 : 短期/長期的な関係性を学習することに成功

Slide 16

Slide 16 text

16 制約従来 Sparse Conv Sparse+Conv メモリ電力-1d 0.083 0.084 0.078 0.079 渋滞-1d 0.161 0.150 0.149 0.138 時系列の長さ電力-1d 0.082 0.084 0.074 0.079 渋滞-1d 0.147 0.150 0.139 0.138 ▷ 実験結果 ○ Causal Convolutionを導入したことにより，全ての場合で予測誤差が改善 ○ LogSparse Self Attentionの導入 ■ メモリの制約ある場合では予測誤差が改善，もしくは同程度 ■ その他の場合ではFull attentionに基本劣るが，渋滞 -1dでは予測誤差が改善 Ablation Studies

Slide 17

Slide 17 text

17 制約従来 Sparse Conv Sparse+Conv メモリ電力-1d 0.083 0.084 0.078 0.079 渋滞-1d 0.161 0.150 0.149 0.138 時系列の長さ電力-1d 0.082 0.084 0.074 0.079 渋滞-1d 0.147 0.150 0.139 0.138 ▷ 実験結果 ○ Causal Convolutionを導入したことにより，全ての場合で予測誤差が改善 ○ LogSparse Self Attentionの導入 ■ メモリの制約ある場合では予測誤差が改善，もしくは同程度 ■ その他の場合ではFull attentionに基本劣るが，渋滞 -1dでは予測誤差が改善 Ablation Studies

Slide 18

Slide 18 text

18 制約従来 Sparse Conv Sparse+Conv メモリ電力-1d 0.083 0.084 0.078 0.079 渋滞-1d 0.161 0.150 0.149 0.138 時系列の長さ電力-1d 0.082 0.084 0.074 0.079 渋滞-1d 0.147 0.150 0.139 0.138 ▷ 実験結果 ○ Causal Convolutionを導入したことにより，全ての場合で予測誤差が改善 ○ LogSparse Self Attentionの導入 ■ メモリの制約ある場合では予測誤差が改善，もしくは同程度 ■ その他の場合ではFull attentionに基本劣るが，渋滞 -1dでは予測誤差が改善 Ablation Studies

Slide 19

Slide 19 text

19 制約従来 Sparse Conv Sparse+Conv メモリ電力-1d 0.083 0.084 0.078 0.079 渋滞-1d 0.161 0.150 0.149 0.138 時系列の長さ電力-1d 0.082 0.084 0.074 0.079 渋滞-1d 0.147 0.150 0.139 0.138 ▷ 実験結果 ○ Causal Convolutionを導入したことにより，全ての場合で予測誤差が改善 ○ LogSparse Self Attentionの導入 ■ メモリの制約ある場合では予測誤差が改善，もしくは同程度 ■ その他の場合ではFull attentionに基本劣るが，渋滞 -1dでは予測誤差が改善 Ablation Studies

Slide 20

Slide 20 text

20 ▷ 実験結果 ▷ 仮説 ○ シーケンスの長さに依存する Restart Attentionの長さが影響しているのではないか？ t0 Restart 分位点ロス (×10-3) 24 4 12.47 ± 0.10 48 7 15.04 ± 0.28 96 12 16.80 ± 0.60 144 16 39.05 ± 0.72 192 21 41.91 ± 1.66 合成信号データセットにおける提案手法の実装使用コード : https://github.com/mlpotter/Transformer_Time_Series t0 = 192の予測結果 t0 = 48の予測結果

Slide 21

Slide 21 text

21 ▷ シーケンスの長さを固定し、 Restart Attentionの長さを変更　 ▷ 考察　 ○ データに適したSelf Attentionのとり方を決めることが重要使用コード : https://github.com/mlpotter/Transformer_Time_Series Attention 分位点ロス (×10-3) Full Attention 13.96 ± 0.24 Restart = 6 13.28 ± 0.13 Restart = 12 16.80 ± 0.60 Restart = 24 40.89 ± 1.37 合成信号データセットにおける提案手法の実装 Restart=24の予測結果 Restart=6の予測結果

Slide 22

Slide 22 text

22 まとめ ▷ 背景　時系列データの予測タスクに対するTransformerの応用 ▷ 提案　 ▷ 結果　人工および実世界データに対して，提案手法により予測誤差が改善 TransformerにCausal ConvolutionおよびLogSparse Self Attentionを組み込んだLogSparse Transfomerモデル

Slide 23

Slide 23 text

23 参考文献 1. George EP Box and Gwilym M Jenkins. Some recent advances in forecasting and control. Journal of the Royal Statistical Society. Series C (Applied Statistics), 17(2):91–109, 1968. 2. Hsiang-Fu Yu, Nikhil Rao, and Inderjit S Dhillon. Temporal regularized matrix factorization for high-dimensional time series prediction. In Advances in neural information processing systems, pages 847–855, 2016. 3. Syama Sundar Rangapuram, Matthias W Seeger, Jan Gasthaus, Lorenzo Stella, Yuyang Wang, and Tim Januschowski. Deep state space models for time series forecasting. In Advances in Neural Information Processing Systems, pages 7785–7794, 2018. 4. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008, 2017. 5. https://docs.aws.amazon.com/ja_jp/forecast/latest/dg/aws-forecast-recipe-deeparplus.htm l 6. https://github.com/mlpotter/Transformer_Time_Series

Slide 24

Slide 24 text

24 ▷ 線形回帰の損失関数を拡張したもので，通常のように二乗誤差を求めて平均値を最適化するのではなく，予め設定した値（ρ=0.5の場合は中央値）での損失関数を最適化する ▷ 年収など偏りがある分布を，平均値ではなく中央値などで確認したい場合に利用される評価指標：分位点ロス

Slide 25

Slide 25 text

25 既存手法 ▷ ARIMA (自己回帰和分移動平均モデル) ○ Auto Regressive モデルとMoving Average モデルを一般化したARMAモデルを，非定常な系列に適用するため階差時系列に対して適用したモデル ▷ ETS (指数平滑法) ○ 入力データにおけるすべての観測値の加重平均を計算し，重みは時間経過とともに指数関数的に減少 ▷ TRMF ○ 時系列データを行列としてモデル化し，予測を行列の因数分解問題として扱う ▷ DeepAR (Amazon Forecast) ○ RNNを使用しスカラー時系列を予測する教師あり学習アルゴリズム ▷ DeepState ○ 時系列に対する状態空間モデルのパラメータを共通の RNNで学習

Slide 26

Slide 26 text

26 ▷ 直接観測されるデータと，観測できない潜在変数である「状態（確率変数）」を推定する手法 ○ ここで状態とは，株価で言えば市況のようなものを指す ▷ 直接観測値を推定しないため、観測された時系列データに欠損値がある場合にも扱える状態空間モデル

Slide 27

Slide 27 text

27 LogSparse Self Attentionの証明