Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
iTransformer: Inverted Transformers are effective for time series forecasting 発表者: 岡留研M1 柴崎 誉広 著者: Yong Liu et al., 所属: Tsinghua University (清華大学) ICLR 2024
Slide 2
Slide 2 text
2 概要 多変量時系列予測でSOTAを達成し、 Transformerの課題を解決した 「時間軸中心」→「変数軸中心」の処理 Transformerモジュールの変更はなし
Slide 3
Slide 3 text
3 背景 ◼ 同一時刻の異なる変量を1つのトークンに組み込む際、変数間の相関が失われる ◼ このトークンは、局所的な範囲に限られ、実世界の多変量データの時間的ずれもあり、 有用な情報の抽出が困難 → 変数間の相関の把握と、様々な時系列データの特徴抽出が不十分となる 多変量時系列データに対する従来のTransformerの適用方法
Slide 4
Slide 4 text
4 目標 次元を反転して適用する(iTransformer) ◼ 時系列の各変数を独立してトークンとして埋め込めば、系列全体の表現を集約でき、 多変量の相関のためのattentionでより効果的な学習ができるのではないか?
Slide 5
Slide 5 text
5 関連研究 コンポーネントと全体アーキテクチャの変更の有無でカテゴリ化 (I) 時間的依存関係や高計算コストに対処 (II) Patching等の新しい処理を追加 (III) 変量間依存関係に考慮 (IV) 同一コンポーネントで適用次元を変更
Slide 6
Slide 6 text
6 iTransformer 問題設定 ◼ 過去の観測値 𝑋 = 𝑋1 , … , 𝑋𝑇 ∈ ℝ𝑇×𝑁 (𝑇: 時刻, 𝑁: 変量) ◼ 将来の𝑆ステップ先の値 𝑌 = 𝑋𝑇+1 , … , 𝑋𝑇+𝑆 ∈ ℝ𝑆×𝑁 (例) 𝑋 = 15 60 5 16 62 4 14 13 15 59 58 64 7 8 7 𝑌 = 17 62 7 15 59 6 14 58 6 Time 𝑋:,𝑛 : 𝑛番目の変量の全系列
Slide 7
Slide 7 text
7 iTransformer 全体的な構造 (a)変量の特性を捉えるトークン化→ (b)変量間の関係を捉えるattention→ (c)系列表現のためにFFN → (d)変量間のばらつきを減少するlayerNorm
Slide 8
Slide 8 text
8 iTransformer (a)Embedding 各変量を独立トークンとして特性を捉える ℎ𝑛 = Embedding 𝑋:,𝑛 𝐻 = ℎ1 , … , ℎ𝑛 ◼ 多層パーセプトロン(MLP)で実装 (Projectionも同様) ◼ 系列の順序はFFNで表現されるため ポジショナルエンコーディングは不要
Slide 9
Slide 9 text
9 iTransformer (b) Multivariate Attention 各時系列の埋め込み表現𝑯から変量間の相関を捉える ◼ その後Softmax→Valueに重みづけ ◼ これまで: 時刻トークンにattention ◼ 提案モデル: 変量トークンにattention 𝐴𝑖,𝑗 = 𝑞𝑖 𝑇𝑘𝑗 𝑑𝑘 ◼ 各変量トークン𝑖と𝑗について、 𝑞𝑖 と𝑘𝑗 の内積を計算 (𝑑𝑘 : 射影次元)
Slide 10
Slide 10 text
10 iTransformer (c) Feed-Forward Network ◼ 全結合層、活性化関数、ドロップアウト から構成される ◼ MLPにより振れ幅、周期性、 周波数スペクトル等が学習される ◼ これまで: 変量が交錯した表現 ◼ 提案モデル:独立に表現可能 各変量トークンの系列表現のために適用する
Slide 11
Slide 11 text
11 iTransformer (d) Layer Normalization ◼ これまで: 異なる時刻のトークンを正規化し、 時系列が滑らかになりすぎる 学習の安定性向上をはかる ◼ 本モデル: 変量ごとの系列表現を正規化し、 非定常問題に対処可能
Slide 12
Slide 12 text
12 実験 ◼ 7つのデータセット(数10~100の変量数) – ECL (電力変圧器の温度等) – ETT (電力消費) – Exchange (為替レート) – Traffic – Weather – Solar-Energy – PEMS (交通量等) ◼ 実験内訳 1. 時系列予測タスク 2. iTransformerの汎用性 3. モデルの分析
Slide 13
Slide 13 text
13 実験1: 時系列予測タスク ◼ ベンチマーク: Transformer-based, Linear-based, TCN-based( ) 手法 ◼ PEMSの予測長 𝑆 = 12, 24, 36, 48 , その他の予測長𝑆 = 96, 192, 336, 720 ◼ 固定ルックバック長𝑇 = 96 他と比較して、iTransformerの予測が優れているのがわかる
Slide 14
Slide 14 text
14 実験2: iTransformerの一般性 Transformerとその変種に、inverted frameworkを適用 ◼ 変種…self-attentionによりもたらされる高計算コストに対処したモデル ◼ 例: Reformer、Informer、Flowformer、Flashformer 内訳 ◼ 実験2.1 性能向上の促進 ◼ 実験2.2 未知の変量における予測 ◼ 実験2.3 ルックバック長の拡大
Slide 15
Slide 15 text
15 実験2.1:性能向上の促進 各行の内容: Original: 各モデルのオリジナル精度 +Inverted: frameworkありの精度 Promotion: 精度の向上率 Inverted frameworkにより、Transformerモデルの性能が一貫して向上 →時系列予測のTransformerでは、変量次元でのAttentionが有効と示唆 iTransformerの一般性
Slide 16
Slide 16 text
16 実験2.2:未知の変量における予測 iTransformerの方がCI-transformerより、未知の変量に対して高い一般化性能をもつ (独立した変量トークンに対して同一のFFNを適用するため) Channel-independence(CI): 各変量を単変量と考え、それぞれTransformerに入力 iTransformerの一般性
Slide 17
Slide 17 text
17 実験2.3: ルックバック長の拡大 縦: MSE 横: ルックバック長 予測長: 𝑆 = 96 Inverted frameworkを適用したモデル iTransformerの一般性
Slide 18
Slide 18 text
18 実験2.3: ルックバック長の拡大 iTransformerとその適用モデルは、ルックバックの長さが増えると性能が向上する iTransformerの一般性 縦: MSE 横: ルックバック長 予測長: 𝑆 = 96
Slide 19
Slide 19 text
19 実験3: モデルの分析 内訳 ◼ 実験3.1 系列表現の分析 ◼ 実験3.2 計算コストの削減
Slide 20
Slide 20 text
20 実験3.1: 系列表現の分析 モデル分析 次元の反転により適切な時系列表現を学習し、正確な予測が達成された CKA類似度 ◼ 特徴抽出や予測の一貫性を測る ◼ CKA高いと表現が類似している Inverted framework を適用したモデル
Slide 21
Slide 21 text
21 実験3.2: 計算コストの削減 モデル分析 縦: MSE、横: 変量の抽出率 全ての変量での学習と比較して、一部の変量の学習でも 同様の性能(左図)、メモリの使用量の削減(右図)が期待される 縦: メモリ使用量、横軸: 変量の抽出率
Slide 22
Slide 22 text
22 まとめ ◼ これまでの問題点: 多変量相関の考慮、系列表現 タイムステップではなく 変量に基づくトークン化 ◼ 実験内訳 1. 時系列予測タスク: 提案手法が一貫した性能向上を達成した 2. iTransformerの汎用性: 既存のTransformerに適用することで性能向上 3. モデルの分析: 予測の一貫性や部分的な変量による学習でも高性能
Slide 23
Slide 23 text
23 補足 Q.予測に関して、変量の異質性(heterogeneity)が時間依存性よりも 重要であると暗黙的にみなしてますか? (変量の異質性: 各変量が独自の特性(スケールや物理的意味等)を持つこと) A. どちらも重要だが、通常のTransformerは変量の異質性をほとんど考慮で きていない。変量の埋め込み後、物理的意味の不一致を無視し、変量の独立性を 維持できず、さらに複数の変量の相関を捉えられない。 また、FFNはシンプルに見えるが、時間的依存性を学習できる。統計的予測手 法にさかのぼることもできる レビュワーのコメント
Slide 24
Slide 24 text
24 補足 • iTransformerが、一般に最良の性能をもつ • 注目すべきは、通常のTransformer( )の性能が最も低い →従来のアーキテクチャは時系列に適してない 実験3: ablation(モデル分析)
Slide 25
Slide 25 text
25 補足 自然言語処理におけるEmbedding This is a pen This is a pen 多変量時系列におけるこれまでEmbedding(言語としての例) 金町 は 葛飾区 です カレー を 食べ た
Slide 26
Slide 26 text
26 補足 予測結果の可視化(ECL) https://gigazine.net/news/20230423-transformer-model/
Slide 27
Slide 27 text
27 補足 予測結果の可視化(PEMS) https://gigazine.net/news/20230423-transformer-model/