Slide 1

Slide 1 text

iTransformer: Inverted Transformers are effective for time series forecasting 発表者: 岡留研M1 柴崎 誉広 著者: Yong Liu et al., 所属: Tsinghua University (清華大学) ICLR 2024

Slide 2

Slide 2 text

2 概要 多変量時系列予測でSOTAを達成し、 Transformerの課題を解決した 「時間軸中心」→「変数軸中心」の処理 Transformerモジュールの変更はなし

Slide 3

Slide 3 text

3 背景 ◼ 同一時刻の異なる変量を1つのトークンに組み込む際、変数間の相関が失われる ◼ このトークンは、局所的な範囲に限られ、実世界の多変量データの時間的ずれもあり、 有用な情報の抽出が困難 → 変数間の相関の把握と、様々な時系列データの特徴抽出が不十分となる 多変量時系列データに対する従来のTransformerの適用方法

Slide 4

Slide 4 text

4 目標 次元を反転して適用する(iTransformer) ◼ 時系列の各変数を独立してトークンとして埋め込めば、系列全体の表現を集約でき、 多変量の相関のためのattentionでより効果的な学習ができるのではないか?

Slide 5

Slide 5 text

5 関連研究 コンポーネントと全体アーキテクチャの変更の有無でカテゴリ化 (I) 時間的依存関係や高計算コストに対処 (II) Patching等の新しい処理を追加 (III) 変量間依存関係に考慮 (IV) 同一コンポーネントで適用次元を変更

Slide 6

Slide 6 text

6 iTransformer 問題設定 ◼ 過去の観測値 𝑋 = 𝑋1 , … , 𝑋𝑇 ∈ ℝ𝑇×𝑁 (𝑇: 時刻, 𝑁: 変量) ◼ 将来の𝑆ステップ先の値 𝑌 = 𝑋𝑇+1 , … , 𝑋𝑇+𝑆 ∈ ℝ𝑆×𝑁 (例) 𝑋 = 15 60 5 16 62 4 14 13 15 59 58 64 7 8 7 𝑌 = 17 62 7 15 59 6 14 58 6 Time 𝑋:,𝑛 : 𝑛番目の変量の全系列

Slide 7

Slide 7 text

7 iTransformer 全体的な構造 (a)変量の特性を捉えるトークン化→ (b)変量間の関係を捉えるattention→ (c)系列表現のためにFFN → (d)変量間のばらつきを減少するlayerNorm

Slide 8

Slide 8 text

8 iTransformer (a)Embedding 各変量を独立トークンとして特性を捉える ℎ𝑛 = Embedding 𝑋:,𝑛 𝐻 = ℎ1 , … , ℎ𝑛 ◼ 多層パーセプトロン(MLP)で実装 (Projectionも同様) ◼ 系列の順序はFFNで表現されるため ポジショナルエンコーディングは不要

Slide 9

Slide 9 text

9 iTransformer (b) Multivariate Attention 各時系列の埋め込み表現𝑯から変量間の相関を捉える ◼ その後Softmax→Valueに重みづけ ◼ これまで: 時刻トークンにattention ◼ 提案モデル: 変量トークンにattention 𝐴𝑖,𝑗 = 𝑞𝑖 𝑇𝑘𝑗 𝑑𝑘 ◼ 各変量トークン𝑖と𝑗について、 𝑞𝑖 と𝑘𝑗 の内積を計算 (𝑑𝑘 : 射影次元)

Slide 10

Slide 10 text

10 iTransformer (c) Feed-Forward Network ◼ 全結合層、活性化関数、ドロップアウト から構成される ◼ MLPにより振れ幅、周期性、 周波数スペクトル等が学習される ◼ これまで: 変量が交錯した表現 ◼ 提案モデル:独立に表現可能 各変量トークンの系列表現のために適用する

Slide 11

Slide 11 text

11 iTransformer (d) Layer Normalization ◼ これまで: 異なる時刻のトークンを正規化し、 時系列が滑らかになりすぎる 学習の安定性向上をはかる ◼ 本モデル: 変量ごとの系列表現を正規化し、 非定常問題に対処可能

Slide 12

Slide 12 text

12 実験 ◼ 7つのデータセット(数10~100の変量数) – ECL (電力変圧器の温度等) – ETT (電力消費) – Exchange (為替レート) – Traffic – Weather – Solar-Energy – PEMS (交通量等) ◼ 実験内訳 1. 時系列予測タスク 2. iTransformerの汎用性 3. モデルの分析

Slide 13

Slide 13 text

13 実験1: 時系列予測タスク ◼ ベンチマーク: Transformer-based, Linear-based, TCN-based( ) 手法 ◼ PEMSの予測長 𝑆 = 12, 24, 36, 48 , その他の予測長𝑆 = 96, 192, 336, 720 ◼ 固定ルックバック長𝑇 = 96 他と比較して、iTransformerの予測が優れているのがわかる

Slide 14

Slide 14 text

14 実験2: iTransformerの一般性 Transformerとその変種に、inverted frameworkを適用 ◼ 変種…self-attentionによりもたらされる高計算コストに対処したモデル ◼ 例: Reformer、Informer、Flowformer、Flashformer 内訳 ◼ 実験2.1 性能向上の促進 ◼ 実験2.2 未知の変量における予測 ◼ 実験2.3 ルックバック長の拡大

Slide 15

Slide 15 text

15 実験2.1:性能向上の促進 各行の内容: Original: 各モデルのオリジナル精度 +Inverted: frameworkありの精度 Promotion: 精度の向上率 Inverted frameworkにより、Transformerモデルの性能が一貫して向上 →時系列予測のTransformerでは、変量次元でのAttentionが有効と示唆 iTransformerの一般性

Slide 16

Slide 16 text

16 実験2.2:未知の変量における予測 iTransformerの方がCI-transformerより、未知の変量に対して高い一般化性能をもつ (独立した変量トークンに対して同一のFFNを適用するため) Channel-independence(CI): 各変量を単変量と考え、それぞれTransformerに入力 iTransformerの一般性

Slide 17

Slide 17 text

17 実験2.3: ルックバック長の拡大 縦: MSE 横: ルックバック長 予測長: 𝑆 = 96 Inverted frameworkを適用したモデル iTransformerの一般性

Slide 18

Slide 18 text

18 実験2.3: ルックバック長の拡大 iTransformerとその適用モデルは、ルックバックの長さが増えると性能が向上する iTransformerの一般性 縦: MSE 横: ルックバック長 予測長: 𝑆 = 96

Slide 19

Slide 19 text

19 実験3: モデルの分析 内訳 ◼ 実験3.1 系列表現の分析 ◼ 実験3.2 計算コストの削減

Slide 20

Slide 20 text

20 実験3.1: 系列表現の分析 モデル分析 次元の反転により適切な時系列表現を学習し、正確な予測が達成された CKA類似度 ◼ 特徴抽出や予測の一貫性を測る ◼ CKA高いと表現が類似している Inverted framework を適用したモデル

Slide 21

Slide 21 text

21 実験3.2: 計算コストの削減 モデル分析 縦: MSE、横: 変量の抽出率 全ての変量での学習と比較して、一部の変量の学習でも 同様の性能(左図)、メモリの使用量の削減(右図)が期待される 縦: メモリ使用量、横軸: 変量の抽出率

Slide 22

Slide 22 text

22 まとめ ◼ これまでの問題点: 多変量相関の考慮、系列表現 タイムステップではなく 変量に基づくトークン化 ◼ 実験内訳 1. 時系列予測タスク: 提案手法が一貫した性能向上を達成した 2. iTransformerの汎用性: 既存のTransformerに適用することで性能向上 3. モデルの分析: 予測の一貫性や部分的な変量による学習でも高性能

Slide 23

Slide 23 text

23 補足 Q.予測に関して、変量の異質性(heterogeneity)が時間依存性よりも 重要であると暗黙的にみなしてますか? (変量の異質性: 各変量が独自の特性(スケールや物理的意味等)を持つこと) A. どちらも重要だが、通常のTransformerは変量の異質性をほとんど考慮で きていない。変量の埋め込み後、物理的意味の不一致を無視し、変量の独立性を 維持できず、さらに複数の変量の相関を捉えられない。 また、FFNはシンプルに見えるが、時間的依存性を学習できる。統計的予測手 法にさかのぼることもできる レビュワーのコメント

Slide 24

Slide 24 text

24 補足 • iTransformerが、一般に最良の性能をもつ • 注目すべきは、通常のTransformer( )の性能が最も低い →従来のアーキテクチャは時系列に適してない 実験3: ablation(モデル分析)

Slide 25

Slide 25 text

25 補足 自然言語処理におけるEmbedding This is a pen This is a pen 多変量時系列におけるこれまでEmbedding(言語としての例) 金町 は 葛飾区 です カレー を 食べ た

Slide 26

Slide 26 text

26 補足 予測結果の可視化(ECL) https://gigazine.net/news/20230423-transformer-model/

Slide 27

Slide 27 text

27 補足 予測結果の可視化(PEMS) https://gigazine.net/news/20230423-transformer-model/