Slide 1

Slide 1 text

論文紹介 AST: Audio Spectrogram Transformer (Y.Gong+,2021) Y. Gong, Y.-A. Chung, and J. Glass, “AST: Audio Spectrogram Transformer,” in Interspeech 2021, Aug. 2021. doi: 10.21437/interspeech.2021-698. 山形大学理工学研究科 近藤研究室 中澤和司

Slide 2

Slide 2 text

研究背景 • 音響の分野ではCNN-attentionが各タスクでSOTAを達成している ◆ CNNは空間的特徴や並進的特徴量が有用と考えられている ◆ CNNとattenntionを組み合わせることで長距離のグローバルな文脈をとらえ ることが可能 • 画像領域では純粋なattentionベースのモデルVision Transformer(ViT)が高い性 能を示す • 音分類のタスクにおいてCNNが重要であるかをattentionベースのモデルAudio Spectrogram Transformer(AST)と比較

Slide 3

Slide 3 text

ASTについて 筆者の3つの主張 • ASTは性能が高くSOTAを達成している • 可変長の入力に対応している • CNNーattentionを組み合わせたモデルと比較してより少ないパ ラメータでシンプルなアーキテクチャであり収束が早い • 本研究では畳み込みはなく純粋なattention機構から構成されている • ViTを可変長入力に対応させたものである

Slide 4

Slide 4 text

モデルのアーキテクチャ 入力 対数メルスペクトログラム(128x100t) T秒の音声を25msのハニング窓で生成 パッチ数 N=12[(100t-16/10)] これがtransformerへの入力となる パッチ サイズ 16x16 1次元ベクトル(768)へ埋め込み [CLS]トークンを系列の先頭に追加 学習可能な位置埋め込みベクトル(768)を加算 空間位置構造を捉えるため Transformerのエンコーダー部分を使用する

Slide 5

Slide 5 text

モデルのアーキテクチャ Transformer • pytorchやtensorfwlowでも既実装さ れているベース構成を使用 Linear Projection • (16x16)のカーネルを使用したCNN 多層のCNNや小さなカーネルを使用していな いためこの構造はConvolution-freeである Multi-head attention Feed forward ブロック x6

Slide 6

Slide 6 text

事前学習モデルの使用 ViTのモデルを音分類のタスクに流用するためにいくつかの変更をする ViT とASTの違い チャネル数 • VIT:3チャネル画像 • AST: 1チャネル画像(対数メルスペクトログラム) ➢ 対応 ViTの3チャネル分の重みを平均化して使用 入力サイズの違いによるパッチ数の違い • VIT: 固定サイズ (384x384の場合576パッチ) • AST: 音声の長さに依存 (128 x 100 tの場合N=12x[(100t-16/10)]) ➢ 対応 ViTの埋め込みベクトル補間して使用

Slide 7

Slide 7 text

事前学習モデルの使用(位置埋め込み) e e e e e e e e e e e e e e e e e e e e e e e e (24x24) e e e e e e e e e e e e e e e e • 位置埋め込みベクトルの流用方法の説明 • 補間を適用することで入力時間フレームの変動に対応 e e e e e e e e e e e e e e e e T <= 48 T > 48 ViT 流用 可変長 (12xT) T > 48 e e e e e e e e e e e e e e e e AST 入力 パッチ 埋め込み ベクトル 固定数 (24x24) (12x48) 切り出して 使用 補間して使用 補間 (バイリニア) 音の長さによる 形状変形 パッチの位 置に対応 固定数 固定数 入力パッチ 埋め込み ベクトル

Slide 8

Slide 8 text

Audiosetを使用した実験 • バランスセットとフルセットで学習を行い,テストセットで評価 バランスセット フルセット データサンプル数 22,000 2,000,000 エポック数 25 5 初期学習率 5e-5 1e-5 学習率低減方法 10エポック以降の5エ ポックごとに半減 2エポック以降の1エ ポックごとに半減 バッチサイズ 12 最適化方法 Adam 損失関数 バイナリークロスエントロピー • Audiosetの概要 • Youtubeの動画から切り出した10秒の音声データセット • ラベル数は527

Slide 9

Slide 9 text

結果-フルセット Single: 最後のエポックのモデルの精度は0.448 重み平均(全エポックで保存した重みを平均)の精度は0.459 Ensumble-S: 同じセッティングで異なるシードで学習した3つの最終エポックモデルの出力の平均 Ensumble-M : 異なるセッティングで学習したモデルのアンサンブル(Ensumble-Sとパッチ分割を変 更したモデル)

Slide 10

Slide 10 text

結果-バランスセット Single: 重み平均(最後の20エポックで保存した重みの平均) Ensumble-S 同じセッティングで異なるシードで学習した3つの最終エポックモデルの出力の平均 Ensumble-M 異なる事前学習重み,異なる位置埋め込み補完,異なるパッチ分割,計11モデル

Slide 11

Slide 11 text

先行研究との比較 • 先行研究(PSLA Y.Gong+,2021)では30epoch必要 • ASTだと5epochの学習で十分であり精度も高い (PSLA Y.Gong+,2021)

Slide 12

Slide 12 text

切除試験 ASTの設計上の選択を説明するため切除試験を行う 1. 事前学習の有無による評価 2. 事前学習モデルの違いによる影響 3. 位置埋め込み方法の違いによる影響 4. パッチ分割時のオーバーラップ方法による影響 5. パッチ分割の形状と大きさについての影響 • モデルに重み平均手法は使用するが,アンサンブルは使用しない

Slide 13

Slide 13 text

事前学習の有無による評価 内容 • ImageNet事前学習済みモデルを使用したASTと事前学習なしのASTを比較 • バランスとフルデータセットを使用して比較 結果 • 事前学習済みモデルの使用は初期化モデルより高精度に分類 • 目的タスクのデータ数が少ないほど性能に差がある ➢ ドメイン用データの需要を削減できる可能性

Slide 14

Slide 14 text

事前学習モデルの違いによる影響 内容 • 複数の画像処理モデル(ViT-Base、ViT-Large、DeiT)の事前 • 学習済み重みを用いてASTモデルの性能を比較 結果 • 画像分類データセット(ImageNet)で最も高い精度を出しているDeiT用い た場合に音識別タスクでも最も性能が高い

Slide 15

Slide 15 text

位置埋め込み方法の違いによる影響 内容 • VITの位置埋め込みベクトルを補間して転用した場合と初期化して学 習した場合を比較 結果 • ViTの埋め込みベクトルを転用する方が精度が高い • 空間的埋め込み情報の重要性を示している

Slide 16

Slide 16 text

パッチ分割時のオーバーラップ方法による影響 内容 • パッチ分割時のオーバーラップによる性能を評価 • バランスドセットとフルセットを使用する 結果 • オーバーラップサイズを増加すると性能が向上 ➢ パッチの増加により演算量も増えてしまう • オーバーラップなしでも先行研究より高い性能を示す

Slide 17

Slide 17 text

パッチ分割の形状と大きさについての影響 内容 (1)パッチ分割の形状の影響 • 16x16のパッチではtoransformerへの入力が時系列順になるとは限らない • 128x2のサイズでパッチを生成することで時系列順に入力が可能になる 時系列順に埋め込み 埋め込み情報が時系列 になっているかは分か らない パッチ分割 埋め込み パッチ分割 16x16 128x2

Slide 18

Slide 18 text

パッチ分割の形状と大きさについての影響 結果 ❑ パッチ形状 • 矩形分割(128x2)の方が精度が高い • しかし事前学習モデルにはこのような形状のパッチ分割をしているモデルが ないため16x16の方が最適 ❑ 正方形パッチサイズ • 16x16の方が精度が高い 学習方法 • 初期状態(scratch)から学習し評価 • パッチ同士のオーバーラップはなし (2)正方形パッチの大きさの比較 • 16x16と32x32のサイズの比較

Slide 19

Slide 19 text

切除試験まとめ 1. 事前学習の有無による評価 ✓ 事前学習済みモデルの使用は初期化モデルより高精度に分類 2. 事前学習モデルの違いによる影響 ✓ 画像分類タスクで精度高いほど音クラス分類タスクで精度高い 3. 位置埋め込み方法の違いによる影響 ✓ 埋め込みベクトルを転用する方が精度が高い 4. パッチ分割時のオーバーラップ方法による影響 ✓ オーバーラップサイズが大きいほど性能も良い 5. パッチ分割の形状と大きさについての影響 ✓ 周波数軸に沿った形状のパッチ分割がより性能高い ✓ 正方形パッチを使用した場合16x16の場合性能高い

Slide 20

Slide 20 text

複数の音声分類データセットでの評価 データセット ESC-50 • SOTAは86.5サンプルサイズ2000の5秒間の自然音データセット • 音の分類クラス数は50 Speech Commands • サンプルサイズ105,829の1秒間の音声コマンドデータセット • 分類クラスは35 内容 • AudioSetによる事前学習の有無による性能の比較 • 他のデータセットを使用して学習や評価を行う AST-S imagenet AST AST-P Audioset で学習 初期化 ESC-50 Speech Commands で学習,評価

Slide 21

Slide 21 text

複数の音声分類データセットでの評価 AST-S: 事前学習なし AST-P: Audioset事前学習モデル 結果 • ESC-50では事前学習ありの方が精度が高い • Speech Commandsでは初期モデルの方が精度が高い • ASTのアーキテクチャによりSOTAを超えている

Slide 22

Slide 22 text

まとめ • 音クラス分類タスクにおけるAttention機構の重要性を示すためにattention ベースモデルのASTを提案 • ASTの構造を使用することでCNNあるいはCNN-AttentionモデルのSOTAを 超える精度を示す • 画像処理モデルの重みを転移学習することで精度の向上可能 • Attention機構の重要性を示唆