Audio-Visual Learning in NeurIPS2020

NeurIPS2020における Audio-Visual Learning 早稲田大学基幹理工学研究科表現工学専攻升山義紀 1

自己紹介 ◼ 升山義紀 (Masuyama Yoshiki) ◼ 所属 ◦ 早稲田大学
基幹理工学研究科表現工学専攻 (M2) ◦ 産総研人工知能研究センター (RA) ◼ 研究テーマ ◦ マルチモーダル自己教師あり学習による環境理解シミュレーション実データ (日本科学未来館) 音のでる展示 2 Y. Masuyama, et al., “Self-supervised Neural Audio-Visual Sound Source Localization via Probabilistic Spatial Modeling,” in IROS, 2020.

本スライドの内容は個人の解釈であり，誤りの可能性があります．多くの論文を紹介して分野の概観をとらえてもらうために，厳密さより直感的な理解を優先します．紹介中の論文から図を引用した場合，引用元の記載を省略します． 3

近年のAudio-Visual (AV) Learning 音と映像の関係性を深層学習に利用 ◼ 各モダリティで取り組まれてきたタスクの性能改善 ◦ AV source separation:
口の動きや表情を音源分離に利用 ◼ 音と映像が同じ事象を表していることに基づく新タスク ◦ Music2dance, Speech2Face: 音から映像を生成 2話者の場合，音のみと比べ妨害音を30%近く削減 4 A. Ephrat, et al., “Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation,” in SIGGRAPH 2018.

Audio-Visual Correspondence (AVC) 音と映像の共起関係に基づく自己教師あり学習 ◼ 音と映像が対応しているかの識別タスクで特徴抽出器を学習 ◦ 正例: 画像とペアになった音 ◦
負例: 別の映像に含まれていた音どちらもYoutubeなどから大量に収集可能 Visual DNN Audio DNN Fusion layer Yes / No 同じ動画の音 5 R. Arandjelovic and A. Zisserman, “Objects That Sound,” in ECCV, 2018.

Audio-Visual Correspondence (AVC) 音と映像の共起関係に基づく自己教師あり学習 ◼ 音と映像が対応しているかの識別タスクで特徴抽出器を学習 ◦ 正例: 画像とペアになった音 ◦
負例: 別の映像に含まれていた音何の音がしているかの特徴量 Visual DNN Audio DNN Fusion layer Yes / No 同じ動画の音何が写っているかの特徴量 6 R. Arandjelovic and A. Zisserman, “Objects That Sound,” in ECCV, 2018.

NeurIPS2020でのAudio-Visual Learning 自己教師あり学習に関する発表多数 ◼ 自己教師あり学習 ◦ Self-Supervised Learning by Cross-Modal
Audio-Video Clustering ◦ Labelling Unlabelled Videos from Scratch with Multi-Modal Self- Supervision ◦ Learning Representations from Audio-Visual Spatial Alignment ◦ Self-Supervised MultiModal Versatile Networks ◦ Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching ◼ 応用 ◦ See, Hear, Explore: Curiosity via Audio-Visual Association ◦ Audeo: Audio Generation for a Silent Performance Video 7

Audio-Video Clustering ◦ Labelling Unlabelled Videos from Scratch with Multi-Modal Self- Supervision ◦ Learning Representations from Audio-Visual Spatial Alignment ◦ Self-Supervised MultiModal Versatile Networks ◦ Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching ◼ 応用 ◦ See, Hear, Explore: Curiosity via Audio-Visual Association ◦ Audeo: Audio Generation for a Silent Performance Video クラスタリングによる学習 8

Audio-Video Clustering ◦ Labelling Unlabelled Videos from Scratch with Multi-Modal Self- Supervision ◦ Learning Representations from Audio-Visual Spatial Alignment ◦ Self-Supervised MultiModal Versatile Networks ◦ Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching ◼ 応用 ◦ See, Hear, Explore: Curiosity via Audio-Visual Association ◦ Audeo: Audio Generation for a Silent Performance Video AVCの拡張 9

Audio-Video Clustering ◦ Labelling Unlabelled Videos from Scratch with Multi-Modal Self- Supervision ◦ Learning Representations from Audio-Visual Spatial Alignment ◦ Self-Supervised MultiModal Versatile Networks ◦ Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching ◼ 応用 ◦ See, Hear, Explore: Curiosity via Audio-Visual Association ◦ Audeo: Audio Generation for a Silent Performance Video AVCを強化学習へ応用 10

Self-Supervised Learning by Cross- Modal Audio-Video Clustering H. Alwassel, D.
Mahajan, B. Korbar, L. Torresani, B. Ghanem and D. Tran 11

Deep Clustering (DC) ラベルなし画像のみを用いた表現学習 ◼ 特徴量をクラスタリングして疑似ラベルを生成 ◦ Convnetで画像をエンコード，K-meansによって疑似ラベルを獲得 ◦ Classifierの出力を疑似ラベルに近づけるように誤差逆伝搬
◼ なぜ表現学習できるのか？ ◦ 畳み込み構造自体が持つ弱い特徴抽出能力をクラスタリングと組み合わせてbootstrap 12 M. Caron, et al., “Deep Clustering for Unsupervised Learning of Visual Features,” in ECCV, 2018.

提案手法: Multi-Modal DC DCを複数の形式でAudio-Visualに拡張 ◼ 他方のモダリティを補助的/排他的に利用従来の単一モダリティのDC 13

提案手法: Multi-Modal DC DCを複数の形式でAudio-Visualに拡張 ◼ 他方のモダリティを補助的/排他的に利用他方のクラスタリング結果を推定する補助識別器を導入 14

提案手法: Multi-Modal DC DCを複数の形式でAudio-Visualに拡張 ◼ 他方のモダリティを補助的/排他的に利用両モダリティの特徴量を連結し，クラスタリング 15

提案手法: Multi-Modal DC DCを複数の形式でAudio-Visualに拡張 ◼ 他方のモダリティを補助的/排他的に利用他モダリティのクラスタリング結果のみを疑似ラベルに 16

表現学習における有効性の確認 XDCがDC内で最も高い性能を実現 ◼ 実験条件 ◦ Kineticsの240K個の動画で学習 ◦ 各データセット(UCF101, HMDB51, ESC50)でエンコーダ含め再学習
17

DCによる表現学習はデータセットによらず有効 18

データセットによらずXDCが高性能 19

他自己教師あり表現学習手法との比較行動認識と音響イベント分類で有効性を確認 20

Learning Representations from Audio-Visual Spatial Alignment P. Morgado, Y Li
and N. Vasconcelos 21

AVCの課題音と共起する複数の物体が識別困難 ◼ AVC: 音と画像全体のマッチングで学習 ◦ 自動車/電車と共起する道路/線路を音と結び付ける可能性あり AVCに基づいた従来手法では半教師あり学習にすることで対応
22 A. Senocak, et al., “Learning to Localize Sound Source in Visual Scenes,” in CVPR, 2018.

提案手法: Audio-Visual Spatial Alignment 方向情報を利用し空間的なマッチング (AVSA) ◼ ランダムな方向の音と画像が対応しているかで学習 ◦ 360°の映像とアンビソニックス
(空間情報を含んだ音の形式) を利用 ◦ K方向の音と画像を抽出し，contrastive learningで学習 ◦ 自己教師あり学習のみで音源物体を識別 23

Transformerで複数方向の特徴量を変換各方向の音/画像の特徴量を集合として処理 ◼ 特定の方向の音と映像に含まれる情報のズレに対応 ◦ 音: ある方向の音には別の方向の音も混在 ◦ 画像: 特定の方向にはその方向の物体のみ
Transformerで他の方向の特徴量と照らし合わせながら，音の特徴量を画像の特徴量に変換 24

Semantic Segmentationへの応用 AVSAの表現学習タスクとしての有効性を確認 ◼ 実験条件 ◦ Youtubeから360°映像を収集し，データセットを新たに構築 ◦ 事前に学習した重みは固定，セグメンテーション用のFPNのみ学習 ◦
学習初期には従来のAVCを利用 (カリキュラムラーニング) 25

See, Hear, Explore: Curiosity via Audio-Visual Association V. Dean, S.
Tulsiani and A. Gupta 26

好奇心に基づく報酬を用いた強化学習未知状態への到達を内部報酬にし効率的に探索 ◼ Intrinsic Curiosity Module (ICM) ◦ 状態と行動
によって，状態+1 へ ◦ 状態と+1 からを推定するようにinverse modelを学習 ◦ とから将来の特徴量+1 を予測するようにforward modelを学習 ◦ 特徴量の予測誤差を報酬として行動を決定する方策の学習に利用 27 D. Pathak, et al., “Curiosity-driven Exploration by Self-supervised Prediction,” in ICML, 2017.

好奇心に基づく報酬を用いた強化学習未知状態への到達を内部報酬にし効率的に探索 ◼ Intrinsic Curiosity Module (ICM) ◦ 状態と行動
によって，状態+1 へ ◦ 状態と+1 からを推定するようにinverse modelを学習 ◦ とから将来の特徴量+1 を予測するようにforward modelを学習 ◦ 特徴量の予測誤差を報酬として行動を決定する方策の学習に利用入力データ (画像) 自体の予測は困難なので，エージェントの行動と関連した特徴量を抽出し予測 28

提案手法: See Hear Explore (SHE) 新しい音と画像のペアへの到達を内部報酬に ◼ 将来予測の代わりにAVCを利用 ◦ ICMの代わりにAVCで特徴抽出器を学習
◦ 状態 = ( , ) のうち，方策は画像にのみにアクセス ( は音) ◦ AVCの識別器に (+1 , +1 ) を入力した時の負例としての尤度が報酬 29 画像 +1 音 +1

提案手法: See Hear Explore (SHE) 新しい音と画像のペアへの到達を内部報酬に ◼ 将来予測の代わりにAVCを利用 ◦ ICMの代わりにAVCで特徴抽出器を学習
◦ 状態 = ( , ) のうち，方策は画像にのみにアクセス ( は音) ◦ AVCの識別器に (+1 , +1 ) を入力した時の負例としての尤度が報酬 = 1, … , で音と画像の対応関係を自己教師あり学習これまでの学習では対応づけられないペアは新しい 30

SHEの学習手順ステップごとに2つの学習を反復 ◼ AVCによる識別器の学習 ◦ 1 , 1 , …,
( , )から正例・負例を50%ずつ生成 ◦ 正しく識別できるように識別器を学習 ◼ 内部報酬によるエージェントの学習 ◦ 正例 +1 , +1 , …, (2 , 2 ) に対する負対数尤度が報酬画像 +1 音 +1 識別器 Yes / No ( , ) 31

Atariでの実験評価将来予測に基づく内部報酬と比べ有効性を確認 ◼ 実験条件 ◦ 音が付属しておりBGMのない12のAtariのサブセットを利用 ◦ 音/画像の特徴抽出にはFFT/ランダムな重みのCNNを利用予測に基づいた内部報酬を用いるよりも高性能
音と画像から予測するタスクでも画像のみと変化なし 32

まとめ自己教師あり表現学習手法の発展と応用 ◼ 音と画像の特徴量をクロスさせる構造 ◦ XDC: 互いの特徴量のクラスタリング結果を他方の疑似ラベルに ◦ AVSA: 音/画像の特徴量をtransformerで画像/音の特徴量へ
◼ 転移学習だけでなく強化学習の内部報酬に利用 ◦ SHE: シンプルなAVCでも将来予測に基づく内部報酬を上回る性能 33

Audio-Visual Learning in NeurIPS2020

Audio-Visual Learning in NeurIPS2020

Yoshiki Masuyama

More Decks by Yoshiki Masuyama

Other Decks in Technology

Featured

Transcript

NeurIPS2020における Audio-Visual Learning 早稲田大学基幹理工学研究科表現工学専攻升山義紀 1

自己紹介 ◼ 升山義紀 (Masuyama Yoshiki) ◼ 所属 ◦ 早稲田大学

近年のAudio-Visual (AV) Learning 音と映像の関係性を深層学習に利用 ◼ 各モダリティで取り組まれてきたタスクの性能改善 ◦ AV source separation:

Audio-Visual Correspondence (AVC) 音と映像の共起関係に基づく自己教師あり学習 ◼ 音と映像が対応しているかの識別タスクで特徴抽出器を学習 ◦ 正例: 画像とペアになった音 ◦

Audio-Visual Correspondence (AVC) 音と映像の共起関係に基づく自己教師あり学習 ◼ 音と映像が対応しているかの識別タスクで特徴抽出器を学習 ◦ 正例: 画像とペアになった音 ◦

NeurIPS2020でのAudio-Visual Learning 自己教師あり学習に関する発表多数 ◼ 自己教師あり学習 ◦ Self-Supervised Learning by Cross-Modal

NeurIPS2020でのAudio-Visual Learning 自己教師あり学習に関する発表多数 ◼ 自己教師あり学習 ◦ Self-Supervised Learning by Cross-Modal

NeurIPS2020でのAudio-Visual Learning 自己教師あり学習に関する発表多数 ◼ 自己教師あり学習 ◦ Self-Supervised Learning by Cross-Modal

NeurIPS2020でのAudio-Visual Learning 自己教師あり学習に関する発表多数 ◼ 自己教師あり学習 ◦ Self-Supervised Learning by Cross-Modal

Self-Supervised Learning by Cross- Modal Audio-Video Clustering H. Alwassel, D.

提案手法: Multi-Modal DC DCを複数の形式でAudio-Visualに拡張 ◼ 他方のモダリティを補助的/排他的に利用従来の単一モダリティのDC 13

提案手法: Multi-Modal DC DCを複数の形式でAudio-Visualに拡張 ◼ 他方のモダリティを補助的/排他的に利用他方のクラスタリング結果を推定する補助識別器を導入 14

提案手法: Multi-Modal DC DCを複数の形式でAudio-Visualに拡張 ◼ 他方のモダリティを補助的/排他的に利用両モダリティの特徴量を連結し，クラスタリング 15

提案手法: Multi-Modal DC DCを複数の形式でAudio-Visualに拡張 ◼ 他方のモダリティを補助的/排他的に利用他モダリティのクラスタリング結果のみを疑似ラベルに 16

表現学習における有効性の確認 XDCがDC内で最も高い性能を実現 ◼ 実験条件 ◦ Kineticsの240K個の動画で学習 ◦ 各データセット(UCF101, HMDB51, ESC50)でエンコーダ含め再学習

表現学習における有効性の確認 XDCがDC内で最も高い性能を実現 ◼ 実験条件 ◦ Kineticsの240K個の動画で学習 ◦ 各データセット(UCF101, HMDB51, ESC50)でエンコーダ含め再学習

表現学習における有効性の確認 XDCがDC内で最も高い性能を実現 ◼ 実験条件 ◦ Kineticsの240K個の動画で学習 ◦ 各データセット(UCF101, HMDB51, ESC50)でエンコーダ含め再学習

他自己教師あり表現学習手法との比較行動認識と音響イベント分類で有効性を確認 20

Learning Representations from Audio-Visual Spatial Alignment P. Morgado, Y Li

AVCの課題音と共起する複数の物体が識別困難 ◼ AVC: 音と画像全体のマッチングで学習 ◦ 自動車/電車と共起する道路/線路を音と結び付ける可能性あり AVCに基づいた従来手法では半教師あり学習にすることで対応

提案手法: Audio-Visual Spatial Alignment 方向情報を利用し空間的なマッチング (AVSA) ◼ ランダムな方向の音と画像が対応しているかで学習 ◦ 360°の映像とアンビソニックス

Semantic Segmentationへの応用 AVSAの表現学習タスクとしての有効性を確認 ◼ 実験条件 ◦ Youtubeから360°映像を収集し，データセットを新たに構築 ◦ 事前に学習した重みは固定，セグメンテーション用のFPNのみ学習 ◦

See, Hear, Explore: Curiosity via Audio-Visual Association V. Dean, S.

好奇心に基づく報酬を用いた強化学習未知状態への到達を内部報酬にし効率的に探索 ◼ Intrinsic Curiosity Module (ICM) ◦ 状態と行動

好奇心に基づく報酬を用いた強化学習未知状態への到達を内部報酬にし効率的に探索 ◼ Intrinsic Curiosity Module (ICM) ◦ 状態と行動

提案手法: See Hear Explore (SHE) 新しい音と画像のペアへの到達を内部報酬に ◼ 将来予測の代わりにAVCを利用 ◦ ICMの代わりにAVCで特徴抽出器を学習

提案手法: See Hear Explore (SHE) 新しい音と画像のペアへの到達を内部報酬に ◼ 将来予測の代わりにAVCを利用 ◦ ICMの代わりにAVCで特徴抽出器を学習

SHEの学習手順ステップごとに2つの学習を反復 ◼ AVCによる識別器の学習 ◦ 1 , 1 , …,

まとめ自己教師あり表現学習手法の発展と応用 ◼ 音と画像の特徴量をクロスさせる構造 ◦ XDC: 互いの特徴量のクラスタリング結果を他方の疑似ラベルに ◦ AVSA: 音/画像の特徴量をtransformerで画像/音の特徴量へ