論文紹介 AST: Audio Spectrogram Transformer

Slide 1

Slide 1 text

論文紹介 AST: Audio Spectrogram Transformer (Y.Gong+,2021) Y. Gong, Y.-A. Chung, and J. Glass, “AST: Audio Spectrogram Transformer,” in Interspeech 2021, Aug. 2021. doi: 10.21437/interspeech.2021-698. 山形大学理工学研究科近藤研究室中澤和司

Slide 2

Slide 2 text

研究背景 • 音響の分野ではCNN-attentionが各タスクでSOTAを達成している ◆ CNNは空間的特徴や並進的特徴量が有用と考えられている ◆ CNNとattenntionを組み合わせることで長距離のグローバルな文脈をとらえることが可能 • 画像領域では純粋なattentionベースのモデルVision Transformer(ViT)が高い性能を示す • 音分類のタスクにおいてCNNが重要であるかをattentionベースのモデルAudio Spectrogram Transformer(AST)と比較

Slide 3

Slide 3 text

ASTについて筆者の３つの主張 • ASTは性能が高くSOTAを達成している • 可変長の入力に対応している • CNNーattentionを組み合わせたモデルと比較してより少ないパラメータでシンプルなアーキテクチャであり収束が早い • 本研究では畳み込みはなく純粋なattention機構から構成されている • ViTを可変長入力に対応させたものである

Slide 4

Slide 4 text

モデルのアーキテクチャ入力対数メルスペクトログラム（128ｘ100t） T秒の音声を25msのハニング窓で生成パッチ数 N＝12[(100t-16/10)] これがtransformerへの入力となるパッチサイズ 16x16 1次元ベクトル(768)へ埋め込み [CLS]トークンを系列の先頭に追加学習可能な位置埋め込みベクトル(768)を加算空間位置構造を捉えるため Transformerのエンコーダー部分を使用する

Slide 5

Slide 5 text

モデルのアーキテクチャ Transformer • pytorchやtensorfwlowでも既実装されているベース構成を使用 Linear Projection • (16x16)のカーネルを使用したCNN 多層のCNNや小さなカーネルを使用していないためこの構造はConvolution-freeである Multi-head attention Feed forward ブロック x6

Slide 6

Slide 6 text

事前学習モデルの使用 ViTのモデルを音分類のタスクに流用するためにいくつかの変更をする ViT とASTの違いチャネル数 • VIT：3チャネル画像 • AST: 1チャネル画像（対数メルスペクトログラム） ➢ 対応 ViTの3チャネル分の重みを平均化して使用入力サイズの違いによるパッチ数の違い • VIT: 固定サイズ (384x384の場合576パッチ) • AST: 音声の長さに依存 (128 x 100 tの場合N＝12x[(100t-16/10)]) ➢ 対応 ViTの埋め込みベクトル補間して使用

Slide 7

Slide 7 text

事前学習モデルの使用（位置埋め込み） e e e e e e e e e e e e e e e e e e e e e e e e (24x24) e e e e e e e e e e e e e e e e • 位置埋め込みベクトルの流用方法の説明 • 補間を適用することで入力時間フレームの変動に対応 e e e e e e e e e e e e e e e e T <= 48 T > 48 ViT 流用可変長 (12xT) T > 48 e e e e e e e e e e e e e e e e AST 入力パッチ埋め込みベクトル固定数 (24x24) (12x48) 切り出して使用補間して使用補間 (バイリニア) 音の長さによる形状変形パッチの位置に対応固定数固定数入力パッチ埋め込みベクトル

Slide 8

Slide 8 text

Audiosetを使用した実験 • バランスセットとフルセットで学習を行い，テストセットで評価バランスセットフルセットデータサンプル数 22,000 2,000,000 エポック数 25 5 初期学習率 5e-5 1e-5 学習率低減方法 10エポック以降の5エポックごとに半減 2エポック以降の1エポックごとに半減バッチサイズ 12 最適化方法 Adam 損失関数バイナリークロスエントロピー • Audiosetの概要 • Youtubeの動画から切り出した10秒の音声データセット • ラベル数は527

Slide 9

Slide 9 text

結果-フルセット Single: 最後のエポックのモデルの精度は0.448 重み平均（全エポックで保存した重みを平均）の精度は0.459 Ensumble-S: 同じセッティングで異なるシードで学習した3つの最終エポックモデルの出力の平均 Ensumble-M : 異なるセッティングで学習したモデルのアンサンブル（Ensumble-Sとパッチ分割を変更したモデル）

Slide 10

Slide 10 text

結果-バランスセット Single: 重み平均（最後の20エポックで保存した重みの平均） Ensumble-S 同じセッティングで異なるシードで学習した3つの最終エポックモデルの出力の平均 Ensumble-M 異なる事前学習重み，異なる位置埋め込み補完，異なるパッチ分割，計11モデル

Slide 11

Slide 11 text

先行研究との比較 • 先行研究(PSLA Y.Gong+,2021)では30epoch必要 • ASTだと5epochの学習で十分であり精度も高い (PSLA Y.Gong+,2021)

Slide 12

Slide 12 text

切除試験 ASTの設計上の選択を説明するため切除試験を行う 1. 事前学習の有無による評価 2. 事前学習モデルの違いによる影響 3. 位置埋め込み方法の違いによる影響 4. パッチ分割時のオーバーラップ方法による影響 5. パッチ分割の形状と大きさについての影響 • モデルに重み平均手法は使用するが，アンサンブルは使用しない

Slide 13

Slide 13 text

事前学習の有無による評価内容 • ImageNet事前学習済みモデルを使用したASTと事前学習なしのASTを比較 • バランスとフルデータセットを使用して比較結果 • 事前学習済みモデルの使用は初期化モデルより高精度に分類 • 目的タスクのデータ数が少ないほど性能に差がある ➢ ドメイン用データの需要を削減できる可能性

Slide 14

Slide 14 text

事前学習モデルの違いによる影響内容 • 複数の画像処理モデル(ViT-Base、ViT-Large、DeiT)の事前 • 学習済み重みを用いてASTモデルの性能を比較結果 • 画像分類データセット(ImageNet)で最も高い精度を出しているDeiT用いた場合に音識別タスクでも最も性能が高い

Slide 15

Slide 15 text

位置埋め込み方法の違いによる影響内容 • VITの位置埋め込みベクトルを補間して転用した場合と初期化して学習した場合を比較結果 • ViTの埋め込みベクトルを転用する方が精度が高い • 空間的埋め込み情報の重要性を示している

Slide 16

Slide 16 text

パッチ分割時のオーバーラップ方法による影響内容 • パッチ分割時のオーバーラップによる性能を評価 • バランスドセットとフルセットを使用する結果 • オーバーラップサイズを増加すると性能が向上 ➢ パッチの増加により演算量も増えてしまう • オーバーラップなしでも先行研究より高い性能を示す

Slide 17

Slide 17 text

パッチ分割の形状と大きさについての影響内容 (1)パッチ分割の形状の影響 • 16x16のパッチではtoransformerへの入力が時系列順になるとは限らない • 128x2のサイズでパッチを生成することで時系列順に入力が可能になる時系列順に埋め込み埋め込み情報が時系列になっているかは分からないパッチ分割埋め込みパッチ分割 16x16 128x2

Slide 18

Slide 18 text

パッチ分割の形状と大きさについての影響結果 ❑ パッチ形状 • 矩形分割(128x2)の方が精度が高い • しかし事前学習モデルにはこのような形状のパッチ分割をしているモデルがないため16x16の方が最適 ❑ 正方形パッチサイズ • 16x16の方が精度が高い学習方法 • 初期状態(scratch)から学習し評価 • パッチ同士のオーバーラップはなし (2)正方形パッチの大きさの比較 • 16x16と32x32のサイズの比較

Slide 19

Slide 19 text

切除試験まとめ 1. 事前学習の有無による評価 ✓ 事前学習済みモデルの使用は初期化モデルより高精度に分類 2. 事前学習モデルの違いによる影響 ✓ 画像分類タスクで精度高いほど音クラス分類タスクで精度高い 3. 位置埋め込み方法の違いによる影響 ✓ 埋め込みベクトルを転用する方が精度が高い 4. パッチ分割時のオーバーラップ方法による影響 ✓ オーバーラップサイズが大きいほど性能も良い 5. パッチ分割の形状と大きさについての影響 ✓ 周波数軸に沿った形状のパッチ分割がより性能高い ✓ 正方形パッチを使用した場合16x16の場合性能高い

Slide 20

Slide 20 text

複数の音声分類データセットでの評価データセット ESC-50 • SOTAは86.5サンプルサイズ2000の5秒間の自然音データセット • 音の分類クラス数は50 Speech Commands • サンプルサイズ105,829の1秒間の音声コマンドデータセット • 分類クラスは35 内容 • AudioSetによる事前学習の有無による性能の比較 • 他のデータセットを使用して学習や評価を行う AST-S imagenet AST AST-P Audioset で学習初期化 ESC-50 Speech Commands で学習，評価

Slide 21

Slide 21 text

複数の音声分類データセットでの評価 AST-S: 事前学習なし AST-P: Audioset事前学習モデル結果 • ESC-50では事前学習ありの方が精度が高い • Speech Commandsでは初期モデルの方が精度が高い • ASTのアーキテクチャによりSOTAを超えている

Slide 22

Slide 22 text

まとめ • 音クラス分類タスクにおけるAttention機構の重要性を示すためにattention ベースモデルのASTを提案 • ASTの構造を使用することでCNNあるいはCNN-AttentionモデルのSOTAを超える精度を示す • 画像処理モデルの重みを転移学習することで精度の向上可能 • Attention機構の重要性を示唆