Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

論文紹介 AST: Audio Spectrogram Transformer 

論文紹介 AST: Audio Spectrogram Transformer 

学生時代に作ったスライドです

Kazushi Nakazawa

April 29, 2024
Tweet

More Decks by Kazushi Nakazawa

Other Decks in Research

Transcript

  1. 論文紹介 AST: Audio Spectrogram Transformer (Y.Gong+,2021) Y. Gong, Y.-A. Chung,

    and J. Glass, “AST: Audio Spectrogram Transformer,” in Interspeech 2021, Aug. 2021. doi: 10.21437/interspeech.2021-698. 山形大学理工学研究科 近藤研究室 中澤和司
  2. モデルのアーキテクチャ 入力 対数メルスペクトログラム(128x100t) T秒の音声を25msのハニング窓で生成 パッチ数 N=12[(100t-16/10)] これがtransformerへの入力となる パッチ サイズ 16x16

    1次元ベクトル(768)へ埋め込み [CLS]トークンを系列の先頭に追加 学習可能な位置埋め込みベクトル(768)を加算 空間位置構造を捉えるため Transformerのエンコーダー部分を使用する
  3. 事前学習モデルの使用 ViTのモデルを音分類のタスクに流用するためにいくつかの変更をする ViT とASTの違い チャネル数 • VIT:3チャネル画像 • AST: 1チャネル画像(対数メルスペクトログラム)

    ➢ 対応 ViTの3チャネル分の重みを平均化して使用 入力サイズの違いによるパッチ数の違い • VIT: 固定サイズ (384x384の場合576パッチ) • AST: 音声の長さに依存 (128 x 100 tの場合N=12x[(100t-16/10)]) ➢ 対応 ViTの埋め込みベクトル補間して使用
  4. 事前学習モデルの使用(位置埋め込み) e e e e e e e e e

    e e e e e e e e e e e e e e e (24x24) e e e e e e e e e e e e e e e e • 位置埋め込みベクトルの流用方法の説明 • 補間を適用することで入力時間フレームの変動に対応 e e e e e e e e e e e e e e e e T <= 48 T > 48 ViT 流用 可変長 (12xT) T > 48 e e e e e e e e e e e e e e e e AST 入力 パッチ 埋め込み ベクトル 固定数 (24x24) (12x48) 切り出して 使用 補間して使用 補間 (バイリニア) 音の長さによる 形状変形 パッチの位 置に対応 固定数 固定数 入力パッチ 埋め込み ベクトル
  5. Audiosetを使用した実験 • バランスセットとフルセットで学習を行い,テストセットで評価 バランスセット フルセット データサンプル数 22,000 2,000,000 エポック数 25

    5 初期学習率 5e-5 1e-5 学習率低減方法 10エポック以降の5エ ポックごとに半減 2エポック以降の1エ ポックごとに半減 バッチサイズ 12 最適化方法 Adam 損失関数 バイナリークロスエントロピー • Audiosetの概要 • Youtubeの動画から切り出した10秒の音声データセット • ラベル数は527
  6. パッチ分割の形状と大きさについての影響 結果 ❑ パッチ形状 • 矩形分割(128x2)の方が精度が高い • しかし事前学習モデルにはこのような形状のパッチ分割をしているモデルが ないため16x16の方が最適 ❑

    正方形パッチサイズ • 16x16の方が精度が高い 学習方法 • 初期状態(scratch)から学習し評価 • パッチ同士のオーバーラップはなし (2)正方形パッチの大きさの比較 • 16x16と32x32のサイズの比較
  7. 切除試験まとめ 1. 事前学習の有無による評価 ✓ 事前学習済みモデルの使用は初期化モデルより高精度に分類 2. 事前学習モデルの違いによる影響 ✓ 画像分類タスクで精度高いほど音クラス分類タスクで精度高い 3.

    位置埋め込み方法の違いによる影響 ✓ 埋め込みベクトルを転用する方が精度が高い 4. パッチ分割時のオーバーラップ方法による影響 ✓ オーバーラップサイズが大きいほど性能も良い 5. パッチ分割の形状と大きさについての影響 ✓ 周波数軸に沿った形状のパッチ分割がより性能高い ✓ 正方形パッチを使用した場合16x16の場合性能高い
  8. 複数の音声分類データセットでの評価 データセット ESC-50 • SOTAは86.5サンプルサイズ2000の5秒間の自然音データセット • 音の分類クラス数は50 Speech Commands •

    サンプルサイズ105,829の1秒間の音声コマンドデータセット • 分類クラスは35 内容 • AudioSetによる事前学習の有無による性能の比較 • 他のデータセットを使用して学習や評価を行う AST-S imagenet AST AST-P Audioset で学習 初期化 ESC-50 Speech Commands で学習,評価