$30 off During Our Annual Pro Sale. View Details »

An Ontology-Aware Framework for Audio Event Classification紹介.pdf

Kota Dohi
June 19, 2020

An Ontology-Aware Framework for Audio Event Classification紹介.pdf

Kota Dohi

June 19, 2020
Tweet

Other Decks in Research

Transcript

  1. © Hitachi, Ltd. 2020. All rights reserved. 株式会社 日立製作所 メディア処理知能研究部

    2020/6/19 @ ICASSP2020読み会(オンライン) 土肥宏太 An Ontology-Aware Framework for Audio Event Classification 紹介
  2. © Hitachi, Ltd. 2020. All rights reserved. 名前: 土肥宏太 所属:

    日立製作所 人工知能イノベーションセンタ メディア知能処理研究部 略歴: 2020年3月 東京大学航空宇宙工学専攻修士課程修了(堀・矢入研究室) 2020年4月 日立製作所入社 専門分野:異常音検知 自己紹介 1
  3. © Hitachi, Ltd. 2020. All rights reserved. “An Ontology-Aware Framework

    for Audio Event Classification” 著者:Yiwei Sun, Shabnam Ghaffarzadegan (The Pennsylvania State University, Bosch Research and Technology Center) 概要:オントロジーの構造を活用した音響イベント分類を提案 Feed-Forward Ontology Layersを用いて、音響データの概念木の階層構造を活用 GCNを用いて、ラベルの共起関係から生成した共起グラフの構造を活用 選んだ理由: 今まで活用されていなかった人間の知識を取り込む方法に、個人的に興味があった 2 紹介論文の概要
  4. © Hitachi, Ltd. 2020. All rights reserved. 前提:オントロジーとは? 3 小鳥

    大きな鳥 鳥 スズメ メジロ タカ フクロウ “An ontology is an explicit specification of a conceptualization” [Gruber 93] 「「オントロジー」とは、「概念化」の明示的な「仕様」である。」 [赤間 10] 「「概念」を人間の「知識」に置き換えれば、「人工知能」における「オントロジー」 の定義になる。」 [赤間 10] 「コンピュータの世界では、「仕様」は、人工的な「言語」で定義される」 [赤間 10] → 人間の「知識」を表現する、人工的な「言語」の一つが、概念木(concept hierarchy) 大分類 小分類 図:概念木の一例
  5. © Hitachi, Ltd. 2020. All rights reserved. 人間は、音の識別に概念木を活用することができる 背景 4

    例:これは何の鳴き声ですか? 回答者1 「スズメです」 → 小分類で判定できた 回答者2 「小鳥です」 → 大分類で判定、小分類では判定できなかった だが、小分類が「スズメ」、「メジロ」等、なのはわかる 人間は大分類の判定「小鳥」と、概念木を組み合わせて小分類の判定を絞り込める → 機械でも、概念木の階層構造を組み込んで学習を行えないか? 小鳥 大きな鳥 鳥 スズメ メジロ タカ フクロウ 大分類 小分類
  6. © Hitachi, Ltd. 2020. All rights reserved. 人間は、音の識別にイベントの共起関係を活用することができる 背景 5

    例:「自動車のモーター音」と「掃除機の音」が似ている ・ 「自動車のモーター音」は、「街中の音(電車の音等)」と共起しやすい ・ 「掃除機の音」は、「家の中の音(洗濯機の音等)」と共起しやすい 参考 [Imoto+, 20]では、イベントとシーンの共起関係を組み込む手法を提案 人間は、似た音でも、共起する音との関係を活用して識別できる (「街中の音」が聞こえるから、これは「自動車のモーター音だ」等) → 機械でも、イベント同士の共起関係を組み込んで学習を行えないか? [Imoto+, 20]より引用
  7. © Hitachi, Ltd. 2020. All rights reserved. 1)概念木の階層構造を組み込んだ学習を行う 2)イベント同士の共起関係を組み込んだ学習を行う 目的

    6 “… , we aim to augment audio event classification models with the ontology structure of the abstract sound categories.” [Sun+ 20] 機械にオントロジー構造を取り入れ、音響識別の性能を向上させる
  8. © Hitachi, Ltd. 2020. All rights reserved. 先行研究例:概念木の階層構造を組み込んだ学習 7 ・

    Ontological Layerを提案し、オントロジーの階層間の関係性を組み込んで学習 “Sound Event Classification Using Ontology-Based Neural Networks” [Elizalde+, 18] [Elizalde+, 18]より引用、一部改変 と の上下関係を行列Mで表現 ∈ · ラベル ラベル [Elizalde+, 18]より引用 ラベル 推定部分にMを追加し、ラベル も同時に推定
  9. © Hitachi, Ltd. 2020. All rights reserved. 8 ・ Siamese

    Networkを用いて、オントロジー内の距離を制約にしたEmbeddingを学習 音響特徴量 Embedding 下位クラス予測 上位クラス予測 距離制約 下位クラスまで同じ:0 下位クラスは異なる、上位クラスは同じ:5 下位クラスも上位クラス異なる:10 [Elizalde+, 18]より引用 訓練時に、2つの入力データが属するクラスに応じて、Embeddingに距離制約を課した 先行研究例:概念木の階層構造を組み込んだ学習 [Elizalde+, 18]より引用
  10. © Hitachi, Ltd. 2020. All rights reserved. 先行研究例:イベント同士の共起関係を組み込んだ学習 9 “Multi-Label

    Image Recognition with Graph Convolutional Networks” [Chen+, 19] ・ 画像複数ラベル分類で、ラベルの共起関係をGCNを用いて学習した [Chen+, 19]より引用 D:グラフノードの次元、 画像特徴量の次元 C:グラフノードの数、 ラベルの種類の数
  11. © Hitachi, Ltd. 2020. All rights reserved. ℎ ( :正規化隣接行列、

    : 層目ノード特徴量、 :重み行列、 ℎ:非線形変換、 にはGloVe[Pennington+,14]のword embeddingを使う) ラベル間の条件付確率から、隣接行列を計算する ( :i番目のラベル、 :j番目のラベル) ノイズや訓練データへの過剰適合を防ぐ 0, if 1, if 過剰平滑化を防ぐ ′ p ∑ , , if 1 p, if 先行研究例:イベント同士の共起関係を組み込んだ学習 10 ・ ラベルの共起関係(隣接行列)を、訓練データからデータドリブンで求めた [Chen+, 19]より引用
  12. © Hitachi, Ltd. 2020. All rights reserved. Semantic Ontology 所与の概念木と、計算された共起グラフの2種類のオントロジーを用いた

    提案手法:Semantic OntologyとContext Ontology 11 Context Ontology 人間が定めた階層構造の活用が目的 例:犬(上位概念)、犬の鳴き声(下位概念) ・データセット内で与えられている概念木 ・階層構造を持つ ・タスク非依存 タスク依存な共起関係の活用が目的 例:道路では音楽と車の音が共起しやすい ・データセットから抽出した共起グラフ ・重み付き有効グラフ ・タスク(データセット)に依存 [Elizalde+, 18]より引用 [Chen+, 19]より引用
  13. © Hitachi, Ltd. 2020. All rights reserved. Base Network, Feed-Forward

    Ontology Layers, GCNの三要素からなる 提案手法:全体の構成 12 [Sun+, 20]より引用、一部改変 特徴量(log-Mel) Base Network (8CNN,1LSTM) 下位クラスの共起関係を表すGCN 上位クラスの共起関係 を表すGCN Feed-Forward Ontology Layers
  14. © Hitachi, Ltd. 2020. All rights reserved. 上位クラス、下位クラス間双方向にFeed-Forward Ontology Layerを適用

    提案手法:Semantic Ontologyを取り込む方法 13 ・ [Elizalde+, 18]では下位クラス→上位クラスの一方向のみ 下位→上位 上位→下位 [Sun+, 20]より引用、一部改変
  15. © Hitachi, Ltd. 2020. All rights reserved. 各ノードのEmbeddingを、隣接行列を使って逐次更新 提案手法:Context Ontologyを取り込む方法

    14 ・ 隣接行列も[Chen+, 19]が提案した方法で求めた ・ Initial Embeddingは[Chen+, 19]同様、GloVe[Pennington+,14]を使用 Glove使用 [Sun+, 20]より引用、一部改変 隣接行列計算 エッジ特徴量計算 ノード特徴量更新
  16. © Hitachi, Ltd. 2020. All rights reserved. 1) DCASE 2019-task5

    (D19T5) [Bello+, 19] ・ 市街地(ニューヨーク市)で録音された各10秒のデータ ・ 23種の下位クラス、8種の上位クラスを含む、複数ラベルデータセット 2) Urban Sounds(US8K) [Salamon+, 14] ・ 市街地で録音された各4~10秒のデータ ・ 10種の下位クラス、4種の上位クラスを含む、単一ラベルデータセット 概念木の構造を含む2種類の音響データセットを使用 実験に用いたデータセット 15
  17. © Hitachi, Ltd. 2020. All rights reserved. Feed-Forward Ontology LayerやGCNを用いて識別性能が向上した

    実験1:複数ラベル音響識別 16 ・ D19T5データセットを用いて上位、下位クラスのラベル識別性能を求めた ・ Feed-Forward Ontology Layerで階層関係を取り込むことで、性能が向上した ・ GCNを上位下位で2つ用いると、各クラス毎の共起関係を取り込み、性能が向上した [Sun+, 20]より引用、一部改変 9層CNN 9層CNN+1層LSTM DCASE Baseline GCN1つのみ GCN1つ,FF Ontology GCN2つのみ GCN2つ,FF Ontology
  18. © Hitachi, Ltd. 2020. All rights reserved. 実験2:単一ラベル音響識別 17 単一ラベル識別でも、提案手法により識別性能が向上した

    ・ US8Kデータセットを用いて上位、下位クラスのラベル識別性能を求めた ・ 単一ラベルではクラス内の共起関係が存在しないので、GCNを全クラスにまとめて適用 [Sun+, 20]より引用
  19. © Hitachi, Ltd. 2020. All rights reserved. 実験2:単一ラベル音響識別 18 t-SNEプロットでも、提案手法がデータをより良くグループ化していた

    [Sun+, 20]より引用
  20. © Hitachi, Ltd. 2020. All rights reserved. 音響識別モデルに複数のオントロジーを取り込むことの有効性を示した まとめ 19

    ・ GCNで生成した共起グラフを用いて識別性能が向上した ・ GCNを上位下位のクラス毎に適用して、識別性能が向上した ・ Feed-Forward Ontology Layersを加え概念木の構造を取り込み、識別性能が向上した ・ Feed-Forward Ontology Layersを双方向に用いることの有効性は不明
  21. © Hitachi, Ltd. 2020. All rights reserved. ・ [Sun+, 20]

    Yiwei Sun, and Shabnam Ghaffarzadegan, “An Ontology-Aware Framework for Audio Event Classification”, arXiv:2001.10048. ・ [Gruber 93] Thomas R. Gruber, “A Translation Approach to Portable Ontology Specifications”, Knowledge acquisition, 5(2), 1993, pp.199-220. ・ [赤間 10] 赤間世紀, “オントロジーがわかる本”, 工学社, 2010. ・ [Imoto+, 20] Keisuke Imoto et al, “Sound Event Detection by Multitask Learning of Sound Events and Scenes with Soft Scene Labels”, arXiv:2002.05848. ・ [Elizalde+, 18] B. Elizalde et al, “Sound Event Classification Using Ontology-Based Neural Networks”, NIPS2018 Workshop, 2018. ・ [Chen+, 19] Zhao-Min Chen et al, “Multi-Label Image Recognition with Graph Convolutional Networks”, CVPR, 2019, pp.5177-5186. ・ [Pennington+, 14] J. Pennington et al, “GloVe: Global Vectors for Word Representation”, EMNLP, 2014, pp.1532-1543. 参考文献 20
  22. None