Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介] iTransformer: Inverted Transformers Are ...

shiba4839
January 21, 2025

[論文紹介] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting

修士1年の10月、時系列解析の授業で行った論文紹介の際に使用した資料です。私の対話システムに関する研究でTransformerを用いたdiffusionモデルを扱っているため、同様にTransformerを時系列解析に活用とした論文を選びました。

shiba4839

January 21, 2025
Tweet

More Decks by shiba4839

Other Decks in Research

Transcript

  1. iTransformer: Inverted Transformers are effective for time series forecasting 発表者:

    岡留研M1 柴崎 誉広 著者: Yong Liu et al., 所属: Tsinghua University (清華大学) ICLR 2024
  2. 6 iTransformer 問題設定 ◼ 過去の観測値 𝑋 = 𝑋1 , …

    , 𝑋𝑇 ∈ ℝ𝑇×𝑁 (𝑇: 時刻, 𝑁: 変量) ◼ 将来の𝑆ステップ先の値 𝑌 = 𝑋𝑇+1 , … , 𝑋𝑇+𝑆 ∈ ℝ𝑆×𝑁 (例) 𝑋 = 15 60 5 16 62 4 14 13 15 59 58 64 7 8 7 𝑌 = 17 62 7 15 59 6 14 58 6 Time 𝑋:,𝑛 : 𝑛番目の変量の全系列
  3. 8 iTransformer (a)Embedding 各変量を独立トークンとして特性を捉える ℎ𝑛 = Embedding 𝑋:,𝑛 𝐻 =

    ℎ1 , … , ℎ𝑛 ◼ 多層パーセプトロン(MLP)で実装 (Projectionも同様) ◼ 系列の順序はFFNで表現されるため ポジショナルエンコーディングは不要
  4. 9 iTransformer (b) Multivariate Attention 各時系列の埋め込み表現𝑯から変量間の相関を捉える ◼ その後Softmax→Valueに重みづけ ◼ これまで:

    時刻トークンにattention ◼ 提案モデル: 変量トークンにattention 𝐴𝑖,𝑗 = 𝑞𝑖 𝑇𝑘𝑗 𝑑𝑘 ◼ 各変量トークン𝑖と𝑗について、 𝑞𝑖 と𝑘𝑗 の内積を計算 (𝑑𝑘 : 射影次元)
  5. 10 iTransformer (c) Feed-Forward Network ◼ 全結合層、活性化関数、ドロップアウト から構成される ◼ MLPにより振れ幅、周期性、

    周波数スペクトル等が学習される ◼ これまで: 変量が交錯した表現 ◼ 提案モデル:独立に表現可能 各変量トークンの系列表現のために適用する
  6. 12 実験 ◼ 7つのデータセット(数10~100の変量数) – ECL (電力変圧器の温度等) – ETT (電力消費)

    – Exchange (為替レート) – Traffic – Weather – Solar-Energy – PEMS (交通量等) ◼ 実験内訳 1. 時系列予測タスク 2. iTransformerの汎用性 3. モデルの分析
  7. 13 実験1: 時系列予測タスク ◼ ベンチマーク: Transformer-based, Linear-based, TCN-based( ) 手法

    ◼ PEMSの予測長 𝑆 = 12, 24, 36, 48 , その他の予測長𝑆 = 96, 192, 336, 720 ◼ 固定ルックバック長𝑇 = 96 他と比較して、iTransformerの予測が優れているのがわかる
  8. 15 実験2.1:性能向上の促進 各行の内容: Original: 各モデルのオリジナル精度 +Inverted: frameworkありの精度 Promotion: 精度の向上率 Inverted

    frameworkにより、Transformerモデルの性能が一貫して向上 →時系列予測のTransformerでは、変量次元でのAttentionが有効と示唆 iTransformerの一般性
  9. 17 実験2.3: ルックバック長の拡大 縦: MSE 横: ルックバック長 予測長: 𝑆 =

    96 Inverted frameworkを適用したモデル iTransformerの一般性
  10. 22 まとめ ◼ これまでの問題点: 多変量相関の考慮、系列表現 タイムステップではなく 変量に基づくトークン化 ◼ 実験内訳 1.

    時系列予測タスク: 提案手法が一貫した性能向上を達成した 2. iTransformerの汎用性: 既存のTransformerに適用することで性能向上 3. モデルの分析: 予測の一貫性や部分的な変量による学習でも高性能
  11. 25 補足 自然言語処理におけるEmbedding This is a pen This is a

    pen 多変量時系列におけるこれまでEmbedding(言語としての例) 金町 は 葛飾区 です カレー を 食べ た