Slide 10
Slide 10 text
Sound Event Detection (SED)
10
今回のタスクを解くには⼤きく⼆つの⽴場がある
Audio Tagging Sound Event Detection
⼊⼒の⾳クリップ単位でラベルづけを⾏う ⼊⼒に時間情報込みでラベルづけを⾏う
時間⽅向に集約
(max, mean, attention,…)
Feature Extractor
特徴マップ
⼊⼒
(waveform,melspec,…)
特徴抽出
CNNなど Feature Extractor
特徴マップ
⼊⼒
(waveform,melspec,…)
特徴抽出
CNNなど
Pointwise
Classifier
Classifier
Clip-level予測
Frame-level予測
時間⽅向に集約
(max, mean, attention,…)
出⼒はClip-level予測と
Frame-level予測の2つ