KDD2021の多変量時系列関連のタイトルいくつか

KDD2021の多変量時系列関連のタイトルいくつか Chihiro Mihara 私の誤りは私に帰属します。

2 トランスフォーマーを用いた多変量時系列の表現学習 Representation Learning of Multivariate Time Series using
a Transformer Framework George Zerveas, Srideepika Jayaraman, Dhaval Patel, Anuradha Bhamidipaty, Carsten Eickhoff 原題新しいと思った点・個人的感想トランスフォーマーによる多変量時系列の事前学習の枠組みを初めて提案している。特に、時系列データ向けにカスタマイズすべき点（正規化、事前学習のマスク）をカスタマイズしその有効性の裏付けもとっている。提案手法で学習したモデルは様々な多変量時系列の回帰・分類タスクで既存モデルの性能を上回った。マスクの仕方にもっと工夫の余地はないだろうか。時空間データだったら空間方向のパターンも正規化したい。→ 2本目へ

先行研究 3 LogSparse Transformer [Li et al. 2019] トランスフォーマーを時系列データに応用する上で、アテンション Softmax(QK⊤/√d)
の計算量が系列長の2乗のオーダーになることがボトルネックになる。→ アテンションを完全に計算することを避け、「近くは綿密に、遠くにいくほど大雑把に」といった感じで間引く。その他トランスフォーマーを時系列に適用した研究はあるが、ドメインスペシフィックなものや、タスクスペシフィックなものが多い。この研究ではトランスフォーマーを汎用的な時系列に適用できる手法を目指す。

ベースのモデル 4 + + 𝑥1 𝑥2 𝑢1 𝑢2 トランスフォーマーエンコーダ 𝑧1
𝑧2 𝑊 𝑝 𝑊 𝑝 + 𝑥3 𝑢3 𝑧3 𝑊 𝑝 + 𝑥𝑤 𝑢𝑤 𝑧𝑤 𝑊 𝑝 ・・・・・・・・・・・・通常のトランスフォーマーのエンコーダ部分を使って表現ベクトル列を得る。通常の言語向けトランスフォーマーとの違い • 位置エンコーディングは学習対象とする。 ‐ 経験的によかったため。 • LayerNorm ではなく BatchNorm にする。 ‐ 言語処理では一般に文章長さがばらつくため BatchNorm は向かない。 ‐ 時空間データでは調整できるし BatchNorm で外れ値の影響を抑えられる（Table 1）。位置エンコーディング（学習対象）インプットエンコーダ ℝ𝑚 ℝ𝑑 ℝ𝑑 ℝ𝑑 得られた表現ベクトル列 concat して全結合して回帰や分類に使う BatchNorm BatchNorm 入力時系列

補足：LayerNorm と BatchNorm 5 LayerNorm 系列長特徴次元数 BatchNorm 系列長特徴次元数
言語処理ならば（位置や前後の文脈を反映した）単語ベクトルの正規化．単語空間で方向のみが意味をもつときの処理．特徴によるスケールの差の吸収、外れ値の抑制．

教師なし事前学習 6 𝑥1 𝑥2 トランスフォーマーエンコーダ 𝑧1 𝑧2 𝑥3 𝑧3 𝑥𝑤
𝑧𝑤 ・・・・・・・・・事前学習の方法データごとエポックごとにランダムにマスクを生成し、入力の一部を0に置換する。 • 入力ベクトルの各成分の割合 𝑟 がマスクされるようにする（検証では 𝑟 = 0.15 ）。 • マスク長さは平均 𝑙𝑚 の幾何分布にしたがうようにする。その後マスクされない長さは平均 𝑙𝑢 = 𝑙𝑚 (1 − 𝑟)/𝑟 の幾何分布にしたがうようにする（検証では 𝑙𝑚 = 3）。得られた表現ベクトルを全結合し、マスク箇所の元データとの平均2乗誤差が最小になるように学習する。 ℝ𝑚 ℝ𝑑 ℝ𝑑 得られた表現ベクトルインプットエンコーダ全結合 ො 𝑥1 ො 𝑥2 ො 𝑥3 ො 𝑥𝑤 ・・・ ℝ𝑚 ランダムマスクマスク箇所の元データとの平均2乗誤差を最小化する入力時系列

言語処理でのマスクとの違い 7 BERTのような言語処理での「穴埋め」マスクとは以下が異なる。 1. ある特徴ベクトル全体をマスクするのではなく一部の成分をマスクする。 → 同時刻の成分間の依存関係も学習されることが期待される。 2. 一定の長さの区間をマスクする。→ 時系列では一定区間を連続してマスク
しないと復元がトリビアルになりがち（単に両隣の線形補間になるなど）。実際、以下4パターンで4つ目のパターンが一番よかった（Table 3）。 𝑥1 𝑥2 𝑥3 𝑥𝑤 𝑥1 𝑥2 𝑥3 𝑥𝑤 𝑥1 𝑥2 𝑥3 𝑥𝑤 𝑥1 𝑥2 𝑥3 𝑥𝑤 Sync., Bern. Sep., Bern. Sync., Stateful Sep., Stateful … … … … ファインチューニングファインチューニング時には出力層以外をフリーズするのではなく、全てのパラメータを学習可能にするとよかった（Table 2）。教師あり学習のみでの学習より収束も早く性能も上回った（Table 4, 5）。

検証 8 Monash University, UEA, UCR Time Series Regression and
Classification Archives から次元数、系列長、データ数、分類クラス数、予測難度が多様になるように選定（回帰6タスク、分類11タスク）。が、同名のアーカイブがあるのかわからない。似た名前のサーベイ論文はあり（Regression のみ）。個々のデータセットは探せばおそらくみつかる。クラス分類の InsectWingbeat（昆虫の鳴き声の音声からどの昆虫か分類するタスク）はここ。

9 多変量時系列予測のための空間的 & 時間的正規化 ST-Norm: Spatial and Temporal Normalization
for Multi-variate Time Series Forecasting Jinliang Deng, Xiusi Chen, Renhe Jiang, Xuan Song, Ivor W. Tsang 原題新しいと思った点・個人的感想何が時空間データ (空間方向にも時間方向にも広がりがあるデータ)の予測のボトルネックになっているのかを考え、時間的周波数・空間的周波数に目を付け、「時空間データであれば時間方向にも空間方向にも正規化すべき」というアイデアを実装している（ST-Norm）。実際それで WaveNet などの系列モデルの学習性能を向上させている。時間と空間でなくとも、データが2次元以上の配列（インデックスごとに何らかの意味をもつような）であったら適用できると思われる。正規化のスパンを複数にすれば色々な周波数成分を拾えるのではないか。

前提：WaveNet [van den Oord et al., 2016]10 ＋ Conv dilation=1
Residual Connection Residual Block Residual Block dilation=2 Residual Block dilation=4 𝑥 𝑡−𝑇 :𝑡 自然な音声生成（Ex. テキスト読み上げ）を達成すべく「膨張畳込み（Dilated Conv）」「残差接続」「スキップ接続」「ゲート付活性化」を盛り込んだ。今回の論文はこのモデルをベースに紹介している（Figure 3）。 𝑥𝑡 𝑥𝑡−𝑇 時刻ごと Linear Conv dilation=1 tanh sigmoid × ゲーティング＋ Skip Connection 𝑖 Block 目の Conv1D の dilation（膨張）を 2𝑖−1 にすることで広範囲を参照。 Dilated Conv Conv 1 2 3 4 5 ℎ 𝑡−𝑇 :𝑡 (1)

イラストは • 隠れ層次元数 ℎ = 4 • 畳込みサイズ 𝑘 =
5 • スタック数 𝑛 = 3 のときの畳込みのイメージ。 𝑇 = 2(𝑘 − 1)(2𝑛 − 1) = 56 ステップを参照している。前提：TCN [Bai et al., 2018] 11 ＋ Conv dilation=1 WeightNorm, ReLU WeightNorm, ReLU Residual Connection Conv dilation=1 Residual Block Residual Block dilation=2 Residual Block dilation=4 𝑥 𝑡−𝑇 :𝑡 ℎ𝑡 系列データに対する汎用的な畳込みモデルとして提案された。 WaveNet からスキップ接続やゲート付き活性化を取り除いている。今回の論文の正規化はこのモデルにも適用されている（Table 2, 3, 4）。 ℎ𝑡 𝑥𝑡 𝑥𝑡−𝑇 Linear 1Block目のみ次元をそろえる

12 問題意識ある県での色々な地点での時間毎の交通量を予測したいとする。このとき訓練データが以下のようであったとする。 • 県内の地域Aでも地域Bでも午前7時から午前8時にかけては交通量が増加する。が、その増加幅は地域Aの方が圧倒的に大きい。 • 平日でも土日でも午前7時から午前8時にかけては交通量が増加する。が、その増加幅は平日の方が圧倒的に大きい。
このようなとき、地域Bでも／土日でも交通量が増加するという情報は埋もれてしまうかもしれない。増加幅が小さくても、それがいつも同じような状況でみられるか学習したい。

13 𝑧1 𝑧2 𝑧3 𝑧𝑤 … 𝑧1 𝑧2 𝑧3 𝑧𝑤
… × 空間的 & 時間的正規化付きモデル Dilated Conv 𝑧1 𝑧2 𝑧3 𝑧𝑤 … Temporal Norm. Spatial Norm. × tanh sigmoid + Residual Block Dilated Conv Residual Connection 時刻ごと Linear Skip Connection 初回の Conv を経た入力データまたは前回の Residual Block の出力 WaveNet の残差ブロックの冒頭で時間方向にも空間方向にも正規化し、元の入力に掛け合わせる。図は WaveNet だが、 TCN にも適用できるし、 Transformer にも適用できる。

14 ニューラルネットによる時空間データ予測の不確かさの定量化 Quantifying Uncertainty in Deep Spatiotemporal Forecasting Dongxia
Wu, Liyao Gao, Matteo Chinazzi, Xinyue Xiong, Alessandro Vespignani, Yi-An Ma, Rose Yu 原題新しいと思った点・個人的感想不確かさも含めて予測する様々な手法を比較し、傾向を調べている。なぜ同じ区間予測をしているのに手法間でそんなにばらつきが出てしまうのか。

概要 15 何かを予測するとき予測値だけでなくその予測がどれだけ不確かなのかもほしいことがある。判断を誤ると致命的なドメインでは重要。ニューラルネットでも予測の不確かさを扱おうという研究は色々なされてきた [17, 47, 55, 60]。
しかし、時空間データの予測の不確かさをどう扱うべきかという研究はあまりなされてこなかった。そこで、色々なドメインの時空間データ (PM2.5, Traffic, COVID-19) を用いて、どのような手法が適するか検証した。 • PM2.5：グリッド状データ • Traffic, COVID-19：グラフ状データ結果、以下のことがわかった。 • 平均値の予測の観点では確率的勾配MCMCが安定した性能を示す（点予測の手法よりも）。 • 95%信頼区間（MIS: 平均インターバルスコア）の観点ではMIS回帰や分位点回帰が有利だった。

KDD2021の多変量時系列関連のタイトルいくつか

KDD2021の多変量時系列関連のタイトルいくつか

CookieBox26

More Decks by CookieBox26

Featured

Transcript

KDD2021の多変量時系列関連のタイトルいくつか Chihiro Mihara 私の誤りは私に帰属します。

2 トランスフォーマーを用いた多変量時系列の表現学習 Representation Learning of Multivariate Time Series using

先行研究 3 LogSparse Transformer [Li et al. 2019] トランスフォーマーを時系列データに応用する上で、アテンション Softmax(QK⊤/√d)

ベースのモデル 4 + + 𝑥1 𝑥2 𝑢1 𝑢2 トランスフォーマーエンコーダ 𝑧1

補足：LayerNorm と BatchNorm 5 LayerNorm 系列長特徴次元数 BatchNorm 系列長特徴次元数

教師なし事前学習 6 𝑥1 𝑥2 トランスフォーマーエンコーダ 𝑧1 𝑧2 𝑥3 𝑧3 𝑥𝑤

検証 8 Monash University, UEA, UCR Time Series Regression and

9 多変量時系列予測のための空間的 & 時間的正規化 ST-Norm: Spatial and Temporal Normalization

前提：WaveNet [van den Oord et al., 2016]10 ＋ Conv dilation=1

イラストは • 隠れ層次元数 ℎ = 4 • 畳込みサイズ 𝑘 =

13 𝑧1 𝑧2 𝑧3 𝑧𝑤 … 𝑧1 𝑧2 𝑧3 𝑧𝑤

14 ニューラルネットによる時空間データ予測の不確かさの定量化 Quantifying Uncertainty in Deep Spatiotemporal Forecasting Dongxia