[論文紹介] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting

Slide 1

Slide 1 text

iTransformer: Inverted Transformers are effective for time series forecasting 発表者: 岡留研M1 柴崎誉広著者: Yong Liu et al., 所属: Tsinghua University (清華大学) ICLR 2024

Slide 2

Slide 2 text

2 概要多変量時系列予測でSOTAを達成し、 Transformerの課題を解決した「時間軸中心」→「変数軸中心」の処理 Transformerモジュールの変更はなし

Slide 3

Slide 3 text

3 背景 ◼ 同一時刻の異なる変量を１つのトークンに組み込む際、変数間の相関が失われる ◼ このトークンは、局所的な範囲に限られ、実世界の多変量データの時間的ずれもあり、有用な情報の抽出が困難 → 変数間の相関の把握と、様々な時系列データの特徴抽出が不十分となる多変量時系列データに対する従来のTransformerの適用方法

Slide 4

Slide 4 text

4 目標次元を反転して適用する(iTransformer) ◼ 時系列の各変数を独立してトークンとして埋め込めば、系列全体の表現を集約でき、多変量の相関のためのattentionでより効果的な学習ができるのではないか？

Slide 5

Slide 5 text

5 関連研究コンポーネントと全体アーキテクチャの変更の有無でカテゴリ化 (I) 時間的依存関係や高計算コストに対処 (II) Patching等の新しい処理を追加 (III) 変量間依存関係に考慮 (IV) 同一コンポーネントで適用次元を変更

Slide 6

Slide 6 text

6 iTransformer 問題設定 ◼ 過去の観測値 𝑋 = 𝑋1 , … , 𝑋𝑇 ∈ ℝ𝑇×𝑁 (𝑇: 時刻, 𝑁: 変量) ◼ 将来の𝑆ステップ先の値 𝑌 = 𝑋𝑇+1 , … , 𝑋𝑇+𝑆 ∈ ℝ𝑆×𝑁 （例） 𝑋 = 15 60 5 16 62 4 14 13 15 59 58 64 7 8 7 𝑌 = 17 62 7 15 59 6 14 58 6 Time 𝑋:,𝑛 : 𝑛番目の変量の全系列

Slide 7

Slide 7 text

7 iTransformer 全体的な構造 (a)変量の特性を捉えるトークン化→ (b)変量間の関係を捉えるattention→ (c)系列表現のためにFFN → (d)変量間のばらつきを減少するlayerNorm

Slide 8

Slide 8 text

8 iTransformer (a)Embedding 各変量を独立トークンとして特性を捉える ℎ𝑛 = Embedding 𝑋:,𝑛 𝐻 = ℎ1 , … , ℎ𝑛 ◼ 多層パーセプトロン(MLP)で実装（Projectionも同様） ◼ 系列の順序はFFNで表現されるためポジショナルエンコーディングは不要

Slide 9

Slide 9 text

9 iTransformer (b) Multivariate Attention 各時系列の埋め込み表現𝑯から変量間の相関を捉える ◼ その後Softmax→Valueに重みづけ ◼ これまで: 時刻トークンにattention ◼ 提案モデル: 変量トークンにattention 𝐴𝑖,𝑗 = 𝑞𝑖 𝑇𝑘𝑗 𝑑𝑘 ◼ 各変量トークン𝑖と𝑗について、 𝑞𝑖 と𝑘𝑗 の内積を計算 (𝑑𝑘 : 射影次元)

Slide 10

Slide 10 text

10 iTransformer (c) Feed-Forward Network ◼ 全結合層、活性化関数、ドロップアウトから構成される ◼ MLPにより振れ幅、周期性、周波数スペクトル等が学習される ◼ これまで: 変量が交錯した表現 ◼ 提案モデル：独立に表現可能各変量トークンの系列表現のために適用する

Slide 11

Slide 11 text

11 iTransformer (d) Layer Normalization ◼ これまで: 異なる時刻のトークンを正規化し、時系列が滑らかになりすぎる学習の安定性向上をはかる ◼ 本モデル: 変量ごとの系列表現を正規化し、非定常問題に対処可能

Slide 12

Slide 12 text

12 実験 ◼ 7つのデータセット(数10～100の変量数) – ECL (電力変圧器の温度等) – ETT (電力消費) – Exchange (為替レート) – Traffic – Weather – Solar-Energy – PEMS (交通量等) ◼ 実験内訳 1. 時系列予測タスク 2. iTransformerの汎用性 3. モデルの分析

Slide 13

Slide 13 text

13 実験1: 時系列予測タスク ◼ ベンチマーク: Transformer-based, Linear-based, TCN-based( ) 手法 ◼ PEMSの予測長 𝑆 = 12, 24, 36, 48 , その他の予測長𝑆 = 96, 192, 336, 720 ◼ 固定ルックバック長𝑇 = 96 他と比較して、iTransformerの予測が優れているのがわかる

Slide 14

Slide 14 text

14 実験2: iTransformerの一般性 Transformerとその変種に、inverted frameworkを適用 ◼ 変種…self-attentionによりもたらされる高計算コストに対処したモデル ◼ 例: Reformer、Informer、Flowformer、Flashformer 内訳 ◼ 実験2.1 性能向上の促進 ◼ 実験2.2 未知の変量における予測 ◼ 実験2.3 ルックバック長の拡大

Slide 15

Slide 15 text

15 実験2.1:性能向上の促進各行の内容: Original: 各モデルのオリジナル精度 +Inverted: frameworkありの精度 Promotion: 精度の向上率 Inverted frameworkにより、Transformerモデルの性能が一貫して向上 →時系列予測のTransformerでは、変量次元でのAttentionが有効と示唆 iTransformerの一般性

Slide 16

Slide 16 text

16 実験2.2:未知の変量における予測 iTransformerの方がCI-transformerより、未知の変量に対して高い一般化性能をもつ (独立した変量トークンに対して同一のFFNを適用するため) Channel-independence(CI): 各変量を単変量と考え、それぞれTransformerに入力 iTransformerの一般性

Slide 17

Slide 17 text

17 実験2.3: ルックバック長の拡大縦： MSE 横：ルックバック長予測長: 𝑆 = 96 Inverted frameworkを適用したモデル iTransformerの一般性

Slide 18

Slide 18 text

18 実験2.3: ルックバック長の拡大 iTransformerとその適用モデルは、ルックバックの長さが増えると性能が向上する iTransformerの一般性縦： MSE 横：ルックバック長予測長: 𝑆 = 96

Slide 19

Slide 19 text

19 実験３: モデルの分析内訳 ◼ 実験3.1 系列表現の分析 ◼ 実験3.2 計算コストの削減

Slide 20

Slide 20 text

20 実験３.1: 系列表現の分析モデル分析次元の反転により適切な時系列表現を学習し、正確な予測が達成された CKA類似度 ◼ 特徴抽出や予測の一貫性を測る ◼ CKA高いと表現が類似している Inverted framework を適用したモデル

Slide 21

Slide 21 text

21 実験３.2: 計算コストの削減モデル分析縦: MSE、横：変量の抽出率全ての変量での学習と比較して、一部の変量の学習でも同様の性能(左図)、メモリの使用量の削減(右図)が期待される縦: メモリ使用量、横軸：変量の抽出率

Slide 22

Slide 22 text

22 まとめ ◼ これまでの問題点: 多変量相関の考慮、系列表現タイムステップではなく変量に基づくトークン化 ◼ 実験内訳 1. 時系列予測タスク: 提案手法が一貫した性能向上を達成した 2. iTransformerの汎用性: 既存のTransformerに適用することで性能向上 3. モデルの分析: 予測の一貫性や部分的な変量による学習でも高性能

Slide 23

Slide 23 text

23 補足 Q.予測に関して、変量の異質性(heterogeneity)が時間依存性よりも重要であると暗黙的にみなしてますか? (変量の異質性: 各変量が独自の特性（スケールや物理的意味等）を持つこと) A. どちらも重要だが、通常のTransformerは変量の異質性をほとんど考慮できていない。変量の埋め込み後、物理的意味の不一致を無視し、変量の独立性を維持できず、さらに複数の変量の相関を捉えられない。また、FFNはシンプルに見えるが、時間的依存性を学習できる。統計的予測手法にさかのぼることもできるレビュワーのコメント

Slide 24

Slide 24 text

24 補足 • iTransformerが、一般に最良の性能をもつ • 注目すべきは、通常のTransformer( )の性能が最も低い →従来のアーキテクチャは時系列に適してない実験３: ablation(モデル分析)

Slide 25

Slide 25 text

25 補足自然言語処理におけるEmbedding This is a pen This is a pen 多変量時系列におけるこれまでEmbedding(言語としての例) 金町は葛飾区ですカレーを食べた

Slide 26

Slide 26 text

26 補足予測結果の可視化(ECL) https://gigazine.net/news/20230423-transformer-model/

Slide 27

Slide 27 text

27 補足予測結果の可視化(PEMS) https://gigazine.net/news/20230423-transformer-model/