[Journal club] Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting

Enhancing the Locality and Breaking the Memory Bottleneck of Transformer
on Time Series Forecasting Shiyang Li, Xiaoyong Jin, Yao Xuan, Xiyou Zhou, Wenhu Chen, Yu-Xiang Wang, Xifeng Yan (University of California, Santa Barbara) NeurIPS 2019 杉浦孔明研究室　兼田寛大 Li, S., Jin, X., Xuan, Y., Zhou, X., Chen, W., Wang, Y. X., & Yan, X. (2019). Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting. Advances in Neural Information Processing Systems, 32, 5243-5253.

2 概要 ▷ 背景　時系列データの予測タスクに対するTransformerの応用 ▷ 提案　 ▷ 結果
　人工および実世界データに対して，提案手法により予測誤差が改善 TransformerにCausal ConvolutionおよびLogSparse Self Attentionを組み込んだLogSparse Transfomerモデル

▷ 時系列予測の重要性 ◦ 資源管理 ◦ 意思決定 ▷ 既存手法の限界 ◦ 伝統的なモデル
→ 専門家の知識が必要 ◦ 機械学習を用いたモデル → 長期的な依存関係を捉えることが難しい ▷ Transformerの登場 ◦ Attention機構を用いたエンコーダ・デコーダ構造の深層学習モデル ◦ 自然言語処理や画像生成タスクなど，様々な分野で活用されるなど　　　　　⇒ 時系列データの予測にTransformerを適用 3 暑い日にはアイスがよく売れる休日はこの道路がよく渋滞する背景 : Transformerを用いた時系列データの予測

4 ▷ 時系列データの予測を扱う既存研究　⇒ 問題点：大規模で長期的な依存関係を捉えることが難しい ▷ Transformer [Vaswani+, NIPS17] ◦
Attention機構を用いたエンコーダ・デコーダ構造の深層学習モデル ◦ BERT [Devlin+, 18] やGPT [Brown+, 20] などに用いられている既存研究問題点 ARIMA [Box+, 68] 統計的手法．大規模な予測タスクには適していない TRMF [Yu+, NIPS16] 時系列データを行列としてモデル化し，予測を行列の因数分解問題として扱う手法 DeepState [Rangapuram+, NIPS18] RNNを用いて状態空間モデルのパラメータを推定する手法関連研究

5 1. 周辺のコンテキストを考慮することが難しい ◦ 2. メモリのボトルネック ◦ 全てのセルのペア間でattentionを計算するため，空間計算量が　　　　になる　　　　　　　　　　　　　　　　　　　　　同じパターン？
時系列データの予測にTransformerを適用する際の課題データ数 1日 365 1時間 8,760 1分 525,600 1秒 31,536,000 Attentionを計算する際に１時刻に関するデータしか与えないため，観測値が【異常値・変化点・パターンの一部】のどれに属するか判断することが難しい

6 ▷ LogSparse Transformer 1. 周辺コンテキストを考慮するため， Causal Convolution を導入 2.
空間計算量を削減するため，LogSparse Self Attention を導入　　　　　　　　　　　　　　　　　　　　　 ①Causal Convolution ②LogSparse Self Attention 提案手法 : LogSparse Transformer

7 ▷ 周辺コンテキストを考慮するため， Causal Convolutionを導入 ◦ Attentionを計算する前に，カーネルサイズ k の畳み込みを適用 ◦
将来のデータを参照しないように過去のデータのみを参照する　　　　　　　　　　　　　　　　　　　　　手法① Causal Convolutionを用いた周辺コンテキストの考慮

8 ▷ 空間計算量を削減するため，LogSparse Self Attentionを導入 ◦ 各セルに対して　　　　　　個のattentionを計算する ◦ 空間計算量を　　　　　　　　とすることができる　　　　　　　　　　　　　　　　　　　　　
手法② LogSparse Self Attentionを用いた空間計算量の削減

▷ 実験設定 ◦ 　　　　　　　　　　　　　　　　　　　　　　 ◦ 以上の式で示されるような時系列データを学習し、赤色で示された区間の信号を予測 9 予測実験①
合成信号データセットにおける検証

10 予測の関係 ▷ 実験設定 ◦ 実験① 合成信号データセットにおける検証

11 予測無関係な信号　　が長いほど，長期的に依存関係を記憶する必要がある ▷ 実験設定 ◦ 　　　　　　　　　　　　　　　　　　　　　　実験① 合成信号データセットにおける検証

12 ▷ 実験結果　　　　　　　　　　　　　　　　　　　　　結果：長期的な依存関係を捉えることに成功　　が小さい場合 ⇒ 既存手法と提案手法のどちらも予測誤差は小さい

13 ▷ 実験結果　　　　　　　　　　　　　　　　　　　　　提案手法既存手法結果：長期的な依存関係を捉えることに成功が大きい場合　　⇒ 既存手法
: 予測誤差が大きくなってしまう　　　　　⇒ 提案手法 : によらず予測誤差が小さい

14 ▷ 実験設定 ◦ データ①　顧客の消費電力 i. 15分毎に計測された370の顧客の電力消費量(kW) × 3年
分のデータセット ii. 4データ毎の平均値を算出し， 1時間毎の電力消費量となるように加工 ◦ データ②　道路上の各地点の混雑率 i. 20分毎に計測された963地点のセンサー計測値 × 15か月分のデータセット ii. 3データ毎の平均値を算出し， 1時間毎のセンサー計測値となるように加工実験② 実世界データセットにおける検証

15 ARIMA ETS TRMF DeepAR DeepState 提案手法電力-1d 0.154 0.101
0.084 0.075 0.083 0.059 渋滞-1d 0.223 0.236 0.186 0.161 0.167 0.122 電力-1w 0.283 0.121 0.087 0.082 0.085 0.070 渋滞-1w 0.492 0.509 0.202 0.179 0.168 0.139 ▷ 実験結果 ◦ -1d ：１日後のデータを予測するタスク ▪ 短期的な関係性を学習する必要がある ◦ -1w：１週間後のデータを予測するタスク ▪ 長期的な関係性を学習する必要がある ⇒ どちらのタスクに対しても既存手法により予測誤差が改善結果 : 短期/長期的な関係性を学習することに成功

16 制約従来 Sparse Conv Sparse+Conv メモリ電力-1d 0.083 0.084
0.078 0.079 渋滞-1d 0.161 0.150 0.149 0.138 時系列の長さ電力-1d 0.082 0.084 0.074 0.079 渋滞-1d 0.147 0.150 0.139 0.138 ▷ 実験結果 ◦ Causal Convolutionを導入したことにより，全ての場合で予測誤差が改善 ◦ LogSparse Self Attentionの導入 ▪ メモリの制約ある場合では予測誤差が改善，もしくは同程度 ▪ その他の場合ではFull attentionに基本劣るが，渋滞 -1dでは予測誤差が改善 Ablation Studies

20 ▷ 実験結果 ▷ 仮説 ◦ シーケンスの長さに依存する Restart Attentionの長さが影響しているのではないか？ t0
Restart 分位点ロス (×10-3) 24 4 12.47 ± 0.10 48 7 15.04 ± 0.28 96 12 16.80 ± 0.60 144 16 39.05 ± 0.72 192 21 41.91 ± 1.66 合成信号データセットにおける提案手法の実装使用コード : https://github.com/mlpotter/Transformer_Time_Series t0 = 192の予測結果 t0 = 48の予測結果

21 ▷ シーケンスの長さを固定し、 Restart Attentionの長さを変更　 ▷ 考察　 ◦ データに適したSelf Attentionのとり方を決めることが重要
使用コード : https://github.com/mlpotter/Transformer_Time_Series Attention 分位点ロス (×10-3) Full Attention 13.96 ± 0.24 Restart = 6 13.28 ± 0.13 Restart = 12 16.80 ± 0.60 Restart = 24 40.89 ± 1.37 合成信号データセットにおける提案手法の実装 Restart=24の予測結果 Restart=6の予測結果

22 まとめ ▷ 背景　時系列データの予測タスクに対するTransformerの応用 ▷ 提案　 ▷ 結果
　人工および実世界データに対して，提案手法により予測誤差が改善 TransformerにCausal ConvolutionおよびLogSparse Self Attentionを組み込んだLogSparse Transfomerモデル

23 参考文献 1. George EP Box and Gwilym M Jenkins.
Some recent advances in forecasting and control. Journal of the Royal Statistical Society. Series C (Applied Statistics), 17(2):91–109, 1968. 2. Hsiang-Fu Yu, Nikhil Rao, and Inderjit S Dhillon. Temporal regularized matrix factorization for high-dimensional time series prediction. In Advances in neural information processing systems, pages 847–855, 2016. 3. Syama Sundar Rangapuram, Matthias W Seeger, Jan Gasthaus, Lorenzo Stella, Yuyang Wang, and Tim Januschowski. Deep state space models for time series forecasting. In Advances in Neural Information Processing Systems, pages 7785–7794, 2018. 4. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008, 2017. 5. https://docs.aws.amazon.com/ja_jp/forecast/latest/dg/aws-forecast-recipe-deeparplus.htm l 6. https://github.com/mlpotter/Transformer_Time_Series

24 ▷ 線形回帰の損失関数を拡張したもので，通常のように二乗誤差を求めて平均値を最適化するのではなく，予め設定した値（ρ=0.5の場合は中央値）での損失関数を最適化する ▷ 年収など偏りがある分布を，平均値ではなく中央値などで確認したい場合に利用される評価指標：分位点ロス

25 既存手法 ▷ ARIMA (自己回帰和分移動平均モデル) ◦ Auto Regressive モデルとMoving Average
モデルを一般化したARMAモデルを，非定常な系列に適用するため階差時系列に対して適用したモデル ▷ ETS (指数平滑法) ◦ 入力データにおけるすべての観測値の加重平均を計算し，重みは時間経過とともに指数関数的に減少 ▷ TRMF ◦ 時系列データを行列としてモデル化し，予測を行列の因数分解問題として扱う ▷ DeepAR (Amazon Forecast) ◦ RNNを使用しスカラー時系列を予測する教師あり学習アルゴリズム ▷ DeepState ◦ 時系列に対する状態空間モデルのパラメータを共通の RNNで学習

26 ▷ 直接観測されるデータと，観測できない潜在変数である「状態（確率変数）」を推定する手法 ◦ ここで状態とは，株価で言えば市況のようなものを指す ▷ 直接観測値を推定しないため、観測された時系列データに欠損値がある場合にも扱える状態空間モデル

27 LogSparse Self Attentionの証明

[Journal club] Enhancing the Locality and Break...

[Journal club] Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Enhancing the Locality and Breaking the Memory Bottleneck of Transformer

2 概要 ▷ 背景　時系列データの予測タスクに対するTransformerの応用 ▷ 提案　 ▷ 結果

▷ 時系列予測の重要性 ◦ 資源管理 ◦ 意思決定 ▷ 既存手法の限界 ◦ 伝統的なモデル

4 ▷ 時系列データの予測を扱う既存研究　⇒ 問題点：大規模で長期的な依存関係を捉えることが難しい ▷ Transformer [Vaswani+, NIPS17] ◦

5 1. 周辺のコンテキストを考慮することが難しい ◦ 2. メモリのボトルネック ◦ 全てのセルのペア間でattentionを計算するため，空間計算量が　　　　になる　　　　　　　　　　　　　　　　　　　　　同じパターン？

6 ▷ LogSparse Transformer 1. 周辺コンテキストを考慮するため， Causal Convolution を導入 2.

7 ▷ 周辺コンテキストを考慮するため， Causal Convolutionを導入 ◦ Attentionを計算する前に，カーネルサイズ k の畳み込みを適用 ◦

8 ▷ 空間計算量を削減するため，LogSparse Self Attentionを導入 ◦ 各セルに対して　　　　　　個のattentionを計算する ◦ 空間計算量を　　　　　　　　とすることができる

▷ 実験設定 ◦ 　　　　　　　　　　　　　　　　　　　　　　 ◦ 以上の式で示されるような時系列データを学習し、赤色で示された区間の信号を予測 9 予測実験①

10 予測の関係 ▷ 実験設定 ◦ 実験① 合成信号データセットにおける検証

11 予測無関係な信号　　が長いほど，長期的に依存関係を記憶する必要がある ▷ 実験設定 ◦ 　　　　　　　　　　　　　　　　　　　　　　実験① 合成信号データセットにおける検証

12 ▷ 実験結果　　　　　　　　　　　　　　　　　　　　　結果：長期的な依存関係を捉えることに成功　　が小さい場合 ⇒ 既存手法と提案手法のどちらも予測誤差は小さい

13 ▷ 実験結果　　　　　　　　　　　　　　　　　　　　　提案手法既存手法結果：長期的な依存関係を捉えることに成功が大きい場合　　⇒ 既存手法

14 ▷ 実験設定 ◦ データ①　顧客の消費電力 i. 15分毎に計測された370の顧客の電力消費量(kW) × 3年

15 ARIMA ETS TRMF DeepAR DeepState 提案手法電力-1d 0.154 0.101

16 制約従来 Sparse Conv Sparse+Conv メモリ電力-1d 0.083 0.084

17 制約従来 Sparse Conv Sparse+Conv メモリ電力-1d 0.083 0.084

18 制約従来 Sparse Conv Sparse+Conv メモリ電力-1d 0.083 0.084

19 制約従来 Sparse Conv Sparse+Conv メモリ電力-1d 0.083 0.084

20 ▷ 実験結果 ▷ 仮説 ◦ シーケンスの長さに依存する Restart Attentionの長さが影響しているのではないか？ t0

21 ▷ シーケンスの長さを固定し、 Restart Attentionの長さを変更　 ▷ 考察　 ◦ データに適したSelf Attentionのとり方を決めることが重要

22 まとめ ▷ 背景　時系列データの予測タスクに対するTransformerの応用 ▷ 提案　 ▷ 結果

23 参考文献 1. George EP Box and Gwilym M Jenkins.

25 既存手法 ▷ ARIMA (自己回帰和分移動平均モデル) ◦ Auto Regressive モデルとMoving Average

27 LogSparse Self Attentionの証明