Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Enhancing the Locality and Break...

[Journal club] Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Enhancing the Locality and Breaking the Memory Bottleneck of Transformer

    on Time Series Forecasting Shiyang Li, Xiaoyong Jin, Yao Xuan, Xiyou Zhou, Wenhu Chen, Yu-Xiang Wang, Xifeng Yan (University of California, Santa Barbara) NeurIPS 2019 杉浦孔明研究室 兼田 寛大 Li, S., Jin, X., Xuan, Y., Zhou, X., Chen, W., Wang, Y. X., & Yan, X. (2019). Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting. Advances in Neural Information Processing Systems, 32, 5243-5253.
  2. 2 概要 ▷ 背景  時系列データの予測タスクに対するTransformerの応用 ▷ 提案   ▷ 結果

     人工および実世界データに対して,提案手法により予測誤差が改善 TransformerにCausal ConvolutionおよびLogSparse Self Attentionを 組み込んだLogSparse Transfomerモデル
  3. ▷ 時系列予測の重要性 ◦ 資源管理 ◦ 意思決定 ▷ 既存手法の限界 ◦ 伝統的なモデル

    → 専門家の知識が必要 ◦ 機械学習を用いたモデル → 長期的な依存関係を捉えることが難しい ▷ Transformerの登場 ◦ Attention機構を用いたエンコーダ・デコーダ構造の深層学習モデル ◦ 自然言語処理や画像生成タスクなど,様々な分野で活用される など      ⇒ 時系列データの予測にTransformerを適用 3 暑い日にはアイスが よく売れる 休日はこの道路が よく渋滞する 背景 : Transformerを用いた時系列データの予測
  4. 4 ▷ 時系列データの予測を扱う既存研究  ⇒ 問題点:大規模で長期的な依存関係を捉えることが難しい ▷ Transformer [Vaswani+, NIPS17] ◦

    Attention機構を用いたエンコーダ・デコーダ構造の深層学習モデル ◦ BERT [Devlin+, 18] やGPT [Brown+, 20] などに用いられている 既存研究 問題点 ARIMA [Box+, 68] 統計的手法.大規模な予測タスクには適していない TRMF [Yu+, NIPS16] 時系列データを行列としてモデル化し, 予測を行列の因数分解問題として扱う手法 DeepState [Rangapuram+, NIPS18] RNNを用いて状態空間モデルのパラメータを推定する手法 関連研究
  5. 5 1. 周辺のコンテキストを考慮することが難しい ◦ 2. メモリのボトルネック ◦ 全てのセルのペア間でattentionを計算するため,空間計算量が    になる                       同じパターン?

    時系列データの予測にTransformerを適用する際の課題 データ数 1日 365 1時間 8,760 1分 525,600 1秒 31,536,000 Attentionを計算する際に1時刻に関する データしか与えないため, 観測値が【異常値 ・変化点・パターンの一部】のどれに属する か判断することが難しい
  6. 6 ▷ LogSparse Transformer 1. 周辺コンテキストを考慮するため, Causal Convolution を導入 2.

    空間計算量を削減するため ,LogSparse Self Attention を導入                       ①Causal Convolution ②LogSparse Self Attention 提案手法 : LogSparse Transformer
  7. 7 ▷ 周辺コンテキストを考慮するため, Causal Convolutionを導入 ◦ Attentionを計算する前に,カーネルサイズ k の畳み込みを適用 ◦

    将来のデータを参照しないように過去のデータのみを参照する                       手法① Causal Convolutionを用いた周辺コンテキストの考慮
  8. 14 ▷ 実験設定 ◦ データ① 顧客の消費電力 i. 15分毎に計測された370の顧客の 電力消費量(kW) × 3年

    分のデータセット ii. 4データ毎の平均値を算出し, 1時間毎の電力消費量となるように加工 ◦ データ② 道路上の各地点の混雑率 i. 20分毎に計測された963地点の センサー計測値 × 15か月 分のデータセット ii. 3データ毎の平均値を算出し, 1時間毎のセンサー計測値となるように加工 実験② 実世界データセットにおける検証
  9. 15 ARIMA ETS TRMF DeepAR DeepState 提案手法 電力-1d 0.154 0.101

    0.084 0.075 0.083 0.059 渋滞-1d 0.223 0.236 0.186 0.161 0.167 0.122 電力-1w 0.283 0.121 0.087 0.082 0.085 0.070 渋滞-1w 0.492 0.509 0.202 0.179 0.168 0.139 ▷ 実験結果 ◦ -1d :1日後のデータを予測するタスク ▪ 短期的な関係性を学習する必要がある ◦ -1w:1週間後のデータを予測するタスク ▪ 長期的な関係性を学習する必要がある ⇒ どちらのタスクに対しても既存手法により予測誤差が改善 結果 : 短期/長期的な関係性を学習することに成功
  10. 16 制約 従来 Sparse Conv Sparse+Conv メモリ 電力-1d 0.083 0.084

    0.078 0.079 渋滞-1d 0.161 0.150 0.149 0.138 時系列 の長さ 電力-1d 0.082 0.084 0.074 0.079 渋滞-1d 0.147 0.150 0.139 0.138 ▷ 実験結果 ◦ Causal Convolutionを導入したことにより,全ての場合で予測誤差が改善 ◦ LogSparse Self Attentionの導入 ▪ メモリの制約ある場合では予測誤差が改善,もしくは同程度 ▪ その他の場合ではFull attentionに基本劣るが,渋滞 -1dでは予測誤差が改善 Ablation Studies
  11. 17 制約 従来 Sparse Conv Sparse+Conv メモリ 電力-1d 0.083 0.084

    0.078 0.079 渋滞-1d 0.161 0.150 0.149 0.138 時系列 の長さ 電力-1d 0.082 0.084 0.074 0.079 渋滞-1d 0.147 0.150 0.139 0.138 ▷ 実験結果 ◦ Causal Convolutionを導入したことにより,全ての場合で予測誤差が改善 ◦ LogSparse Self Attentionの導入 ▪ メモリの制約ある場合では予測誤差が改善,もしくは同程度 ▪ その他の場合ではFull attentionに基本劣るが,渋滞 -1dでは予測誤差が改善 Ablation Studies
  12. 18 制約 従来 Sparse Conv Sparse+Conv メモリ 電力-1d 0.083 0.084

    0.078 0.079 渋滞-1d 0.161 0.150 0.149 0.138 時系列 の長さ 電力-1d 0.082 0.084 0.074 0.079 渋滞-1d 0.147 0.150 0.139 0.138 ▷ 実験結果 ◦ Causal Convolutionを導入したことにより,全ての場合で予測誤差が改善 ◦ LogSparse Self Attentionの導入 ▪ メモリの制約ある場合では予測誤差が改善,もしくは同程度 ▪ その他の場合ではFull attentionに基本劣るが,渋滞 -1dでは予測誤差が改善 Ablation Studies
  13. 19 制約 従来 Sparse Conv Sparse+Conv メモリ 電力-1d 0.083 0.084

    0.078 0.079 渋滞-1d 0.161 0.150 0.149 0.138 時系列 の長さ 電力-1d 0.082 0.084 0.074 0.079 渋滞-1d 0.147 0.150 0.139 0.138 ▷ 実験結果 ◦ Causal Convolutionを導入したことにより,全ての場合で予測誤差が改善 ◦ LogSparse Self Attentionの導入 ▪ メモリの制約ある場合では予測誤差が改善,もしくは同程度 ▪ その他の場合ではFull attentionに基本劣るが,渋滞 -1dでは予測誤差が改善 Ablation Studies
  14. 20 ▷ 実験結果 ▷ 仮説 ◦ シーケンスの長さに依存する Restart Attentionの長さが影響しているのではないか? t0

    Restart 分位点ロス (×10-3) 24 4 12.47 ± 0.10 48 7 15.04 ± 0.28 96 12 16.80 ± 0.60 144 16 39.05 ± 0.72 192 21 41.91 ± 1.66 合成信号データセットにおける提案手法の実装 使用コード : https://github.com/mlpotter/Transformer_Time_Series t0 = 192の予測結果 t0 = 48の予測結果
  15. 21 ▷ シーケンスの長さを固定し、 Restart Attentionの長さを変更  ▷ 考察  ◦ データに適したSelf Attentionのとり方を決めることが重要

    使用コード : https://github.com/mlpotter/Transformer_Time_Series Attention 分位点ロス (×10-3) Full Attention 13.96 ± 0.24 Restart = 6 13.28 ± 0.13 Restart = 12 16.80 ± 0.60 Restart = 24 40.89 ± 1.37 合成信号データセットにおける提案手法の実装 Restart=24の予測結果 Restart=6の予測結果
  16. 22 まとめ ▷ 背景  時系列データの予測タスクに対するTransformerの応用 ▷ 提案   ▷ 結果

     人工および実世界データに対して,提案手法により予測誤差が改善 TransformerにCausal ConvolutionおよびLogSparse Self Attentionを 組み込んだLogSparse Transfomerモデル
  17. 23 参考文献 1. George EP Box and Gwilym M Jenkins.

    Some recent advances in forecasting and control. Journal of the Royal Statistical Society. Series C (Applied Statistics), 17(2):91–109, 1968. 2. Hsiang-Fu Yu, Nikhil Rao, and Inderjit S Dhillon. Temporal regularized matrix factorization for high-dimensional time series prediction. In Advances in neural information processing systems, pages 847–855, 2016. 3. Syama Sundar Rangapuram, Matthias W Seeger, Jan Gasthaus, Lorenzo Stella, Yuyang Wang, and Tim Januschowski. Deep state space models for time series forecasting. In Advances in Neural Information Processing Systems, pages 7785–7794, 2018. 4. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008, 2017. 5. https://docs.aws.amazon.com/ja_jp/forecast/latest/dg/aws-forecast-recipe-deeparplus.htm l 6. https://github.com/mlpotter/Transformer_Time_Series
  18. 25 既存手法 ▷ ARIMA (自己回帰和分移動平均モデル) ◦ Auto Regressive モデルとMoving Average

    モデルを一般化したARMAモデルを,非定常 な系列に適用するため階差時系列に対して適用したモデル ▷ ETS (指数平滑法) ◦ 入力データにおけるすべての観測値の加重平均を計算し,重みは時間経過とともに指数 関数的に減少 ▷ TRMF ◦ 時系列データを行列としてモデル化し,予測を行列の因数分解問題として扱う ▷ DeepAR (Amazon Forecast) ◦ RNNを使用しスカラー時系列を予測する教師あり学習アルゴリズム ▷ DeepState ◦ 時系列に対する状態空間モデルのパラメータを共通の RNNで学習