近年のAudio-Visual (AV) Learning
音と映像の関係性を深層学習に利用
◼ 各モダリティで取り組まれてきたタスクの性能改善
◦ AV source separation: 口の動きや表情を音源分離に利用
◼ 音と映像が同じ事象を表していることに基づく新タスク
◦ Music2dance, Speech2Face: 音から映像を生成
2話者の場合,音のみと比べ
妨害音を30%近く削減
4
A. Ephrat, et al., “Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model
for Speech Separation,” in SIGGRAPH 2018.
Slide 5
Slide 5 text
Audio-Visual Correspondence (AVC)
音と映像の共起関係に基づく自己教師あり学習
◼ 音と映像が対応しているかの識別タスクで特徴抽出器を学習
◦ 正例: 画像とペアになった音
◦ 負例: 別の映像に含まれていた音 どちらもYoutubeなどから
大量に収集可能
Visual DNN
Audio DNN
Fusion layer Yes / No
同じ動画の音
5
R. Arandjelovic and A. Zisserman, “Objects That Sound,” in ECCV, 2018.
Slide 6
Slide 6 text
Audio-Visual Correspondence (AVC)
音と映像の共起関係に基づく自己教師あり学習
◼ 音と映像が対応しているかの識別タスクで特徴抽出器を学習
◦ 正例: 画像とペアになった音
◦ 負例: 別の映像に含まれていた音
何の音がしているかの特徴量
Visual DNN
Audio DNN
Fusion layer Yes / No
同じ動画の音
何が写っているかの特徴量
6
R. Arandjelovic and A. Zisserman, “Objects That Sound,” in ECCV, 2018.
Slide 7
Slide 7 text
NeurIPS2020でのAudio-Visual Learning
自己教師あり学習に関する発表多数
◼ 自己教師あり学習
◦ Self-Supervised Learning by Cross-Modal Audio-Video Clustering
◦ Labelling Unlabelled Videos from Scratch with Multi-Modal Self-
Supervision
◦ Learning Representations from Audio-Visual Spatial Alignment
◦ Self-Supervised MultiModal Versatile Networks
◦ Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching
◼ 応用
◦ See, Hear, Explore: Curiosity via Audio-Visual Association
◦ Audeo: Audio Generation for a Silent Performance Video
7
Slide 8
Slide 8 text
NeurIPS2020でのAudio-Visual Learning
自己教師あり学習に関する発表多数
◼ 自己教師あり学習
◦ Self-Supervised Learning by Cross-Modal Audio-Video Clustering
◦ Labelling Unlabelled Videos from Scratch with Multi-Modal Self-
Supervision
◦ Learning Representations from Audio-Visual Spatial Alignment
◦ Self-Supervised MultiModal Versatile Networks
◦ Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching
◼ 応用
◦ See, Hear, Explore: Curiosity via Audio-Visual Association
◦ Audeo: Audio Generation for a Silent Performance Video
クラスタリングによる学習
8
Slide 9
Slide 9 text
NeurIPS2020でのAudio-Visual Learning
自己教師あり学習に関する発表多数
◼ 自己教師あり学習
◦ Self-Supervised Learning by Cross-Modal Audio-Video Clustering
◦ Labelling Unlabelled Videos from Scratch with Multi-Modal Self-
Supervision
◦ Learning Representations from Audio-Visual Spatial Alignment
◦ Self-Supervised MultiModal Versatile Networks
◦ Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching
◼ 応用
◦ See, Hear, Explore: Curiosity via Audio-Visual Association
◦ Audeo: Audio Generation for a Silent Performance Video
AVCの拡張
9
Slide 10
Slide 10 text
NeurIPS2020でのAudio-Visual Learning
自己教師あり学習に関する発表多数
◼ 自己教師あり学習
◦ Self-Supervised Learning by Cross-Modal Audio-Video Clustering
◦ Labelling Unlabelled Videos from Scratch with Multi-Modal Self-
Supervision
◦ Learning Representations from Audio-Visual Spatial Alignment
◦ Self-Supervised MultiModal Versatile Networks
◦ Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching
◼ 応用
◦ See, Hear, Explore: Curiosity via Audio-Visual Association
◦ Audeo: Audio Generation for a Silent Performance Video
AVCを強化学習へ応用
10
Slide 11
Slide 11 text
Self-Supervised Learning by Cross-
Modal Audio-Video Clustering
H. Alwassel, D. Mahajan, B. Korbar, L. Torresani,
B. Ghanem and D. Tran
11
Slide 12
Slide 12 text
Deep Clustering (DC)
ラベルなし画像のみを用いた表現学習
◼ 特徴量をクラスタリングして疑似ラベルを生成
◦ Convnetで画像をエンコード,K-meansによって疑似ラベルを獲得
◦ Classifierの出力を疑似ラベルに近づけるように誤差逆伝搬
◼ なぜ表現学習できるのか?
◦ 畳み込み構造自体が持つ弱い特徴抽出能力をクラスタリングと
組み合わせてbootstrap
12
M. Caron, et al., “Deep Clustering for Unsupervised Learning of Visual Features,” in ECCV, 2018.
Slide 13
Slide 13 text
提案手法: Multi-Modal DC
DCを複数の形式でAudio-Visualに拡張
◼ 他方のモダリティを補助的/排他的に利用
従来の単一モダリティのDC
13
Slide 14
Slide 14 text
提案手法: Multi-Modal DC
DCを複数の形式でAudio-Visualに拡張
◼ 他方のモダリティを補助的/排他的に利用
他方のクラスタリング結果を推定する補助識別器を導入
14
Slide 15
Slide 15 text
提案手法: Multi-Modal DC
DCを複数の形式でAudio-Visualに拡張
◼ 他方のモダリティを補助的/排他的に利用
両モダリティの特徴量を連結し,クラスタリング
15
Slide 16
Slide 16 text
提案手法: Multi-Modal DC
DCを複数の形式でAudio-Visualに拡張
◼ 他方のモダリティを補助的/排他的に利用
他モダリティのクラスタリング結果のみを疑似ラベルに
16