An Ontology-Aware Framework for Audio Event Classification紹介.pdf

© Hitachi, Ltd. 2020. All rights reserved. 株式会社日立製作所メディア処理知能研究部
2020/6/19 @ ICASSP2020読み会(オンライン）土肥宏太 An Ontology-Aware Framework for Audio Event Classification 紹介

© Hitachi, Ltd. 2020. All rights reserved. 名前：土肥宏太所属：
日立製作所人工知能イノベーションセンタメディア知能処理研究部略歴：２０２０年３月東京大学航空宇宙工学専攻修士課程修了（堀・矢入研究室）２０２０年４月日立製作所入社専門分野：異常音検知自己紹介 1

© Hitachi, Ltd. 2020. All rights reserved. “An Ontology-Aware Framework
for Audio Event Classification” 著者：Yiwei Sun, Shabnam Ghaffarzadegan (The Pennsylvania State University, Bosch Research and Technology Center) 概要：オントロジーの構造を活用した音響イベント分類を提案 Feed-Forward Ontology Layersを用いて、音響データの概念木の階層構造を活用 GCNを用いて、ラベルの共起関係から生成した共起グラフの構造を活用選んだ理由：今まで活用されていなかった人間の知識を取り込む方法に、個人的に興味があった 2 紹介論文の概要

© Hitachi, Ltd. 2020. All rights reserved. 前提：オントロジーとは？ 3 小鳥
大きな鳥鳥スズメメジロタカフクロウ “An ontology is an explicit specification of a conceptualization” [Gruber 93] 「「オントロジー」とは、「概念化」の明示的な「仕様」である。」 [赤間 10] 「「概念」を人間の「知識」に置き換えれば、「人工知能」における「オントロジー」の定義になる。」 [赤間 10] 「コンピュータの世界では、「仕様」は、人工的な「言語」で定義される」 [赤間 10] → 人間の「知識」を表現する、人工的な「言語」の一つが、概念木(concept hierarchy) 大分類小分類図：概念木の一例

© Hitachi, Ltd. 2020. All rights reserved. 人間は、音の識別に概念木を活用することができる背景 4
例：これは何の鳴き声ですか？回答者１「スズメです」 → 小分類で判定できた回答者２「小鳥です」 → 大分類で判定、小分類では判定できなかっただが、小分類が「スズメ」、「メジロ」等、なのはわかる人間は大分類の判定「小鳥」と、概念木を組み合わせて小分類の判定を絞り込める → 機械でも、概念木の階層構造を組み込んで学習を行えないか？小鳥大きな鳥鳥スズメメジロタカフクロウ大分類小分類

© Hitachi, Ltd. 2020. All rights reserved. 人間は、音の識別にイベントの共起関係を活用することができる背景 5
例：「自動車のモーター音」と「掃除機の音」が似ている・「自動車のモーター音」は、「街中の音（電車の音等）」と共起しやすい・「掃除機の音」は、「家の中の音（洗濯機の音等）」と共起しやすい参考 [Imoto+, 20]では、イベントとシーンの共起関係を組み込む手法を提案人間は、似た音でも、共起する音との関係を活用して識別できる（「街中の音」が聞こえるから、これは「自動車のモーター音だ」等） → 機械でも、イベント同士の共起関係を組み込んで学習を行えないか？ [Imoto+, 20]より引用

© Hitachi, Ltd. 2020. All rights reserved. １）概念木の階層構造を組み込んだ学習を行う２）イベント同士の共起関係を組み込んだ学習を行う目的
6 “… , we aim to augment audio event classification models with the ontology structure of the abstract sound categories.” [Sun+ 20] 機械にオントロジー構造を取り入れ、音響識別の性能を向上させる

© Hitachi, Ltd. 2020. All rights reserved. 先行研究例：概念木の階層構造を組み込んだ学習 7 ・
Ontological Layerを提案し、オントロジーの階層間の関係性を組み込んで学習 “Sound Event Classification Using Ontology-Based Neural Networks” [Elizalde+, 18] [Elizalde+, 18]より引用、一部改変との上下関係を行列Mで表現 ∈ · ラベルラベル [Elizalde+, 18]より引用ラベル推定部分にMを追加し、ラベルも同時に推定

© Hitachi, Ltd. 2020. All rights reserved. 8 ・ Siamese
Networkを用いて、オントロジー内の距離を制約にしたEmbeddingを学習音響特徴量 Embedding 下位クラス予測上位クラス予測距離制約下位クラスまで同じ：０下位クラスは異なる、上位クラスは同じ：５下位クラスも上位クラス異なる：１０ [Elizalde+, 18]より引用訓練時に、２つの入力データが属するクラスに応じて、Embeddingに距離制約を課した先行研究例：概念木の階層構造を組み込んだ学習 [Elizalde+, 18]より引用

© Hitachi, Ltd. 2020. All rights reserved. 先行研究例：イベント同士の共起関係を組み込んだ学習 9 “Multi-Label
Image Recognition with Graph Convolutional Networks” [Chen+, 19] ・画像複数ラベル分類で、ラベルの共起関係をGCNを用いて学習した [Chen+, 19]より引用 D：グラフノードの次元、画像特徴量の次元 C：グラフノードの数、ラベルの種類の数

© Hitachi, Ltd. 2020. All rights reserved. ℎ ( ：正規化隣接行列、
：層目ノード特徴量、：重み行列、 ℎ：非線形変換、にはGloVe[Pennington+,14]のword embeddingを使う）ラベル間の条件付確率から、隣接行列を計算する（：i番目のラベル、：j番目のラベル）ノイズや訓練データへの過剰適合を防ぐ 0, if 1, if 過剰平滑化を防ぐ ′ p ∑ , , if 1 p, if 先行研究例：イベント同士の共起関係を組み込んだ学習 10 ・ラベルの共起関係（隣接行列)を、訓練データからデータドリブンで求めた [Chen+, 19]より引用

© Hitachi, Ltd. 2020. All rights reserved. Semantic Ontology 所与の概念木と、計算された共起グラフの２種類のオントロジーを用いた
提案手法：Semantic OntologyとContext Ontology 11 Context Ontology 人間が定めた階層構造の活用が目的例：犬（上位概念）、犬の鳴き声（下位概念）・データセット内で与えられている概念木・階層構造を持つ・タスク非依存タスク依存な共起関係の活用が目的例：道路では音楽と車の音が共起しやすい・データセットから抽出した共起グラフ・重み付き有効グラフ・タスク（データセット）に依存 [Elizalde+, 18]より引用 [Chen+, 19]より引用

© Hitachi, Ltd. 2020. All rights reserved. Base Network, Feed-Forward
Ontology Layers, GCNの三要素からなる提案手法：全体の構成 12 [Sun+, 20]より引用、一部改変特徴量(log-Mel) Base Network (8CNN,1LSTM) 下位クラスの共起関係を表すGCN 上位クラスの共起関係を表すGCN Feed-Forward Ontology Layers

© Hitachi, Ltd. 2020. All rights reserved. 上位クラス、下位クラス間双方向にFeed-Forward Ontology Layerを適用
提案手法：Semantic Ontologyを取り込む方法 13 ・ [Elizalde+, 18]では下位クラス→上位クラスの一方向のみ下位→上位上位→下位 [Sun+, 20]より引用、一部改変

© Hitachi, Ltd. 2020. All rights reserved. 各ノードのEmbeddingを、隣接行列を使って逐次更新提案手法：Context Ontologyを取り込む方法
14 ・隣接行列も[Chen+, 19]が提案した方法で求めた・ Initial Embeddingは[Chen+, 19]同様、GloVe[Pennington+,14]を使用 Glove使用 [Sun+, 20]より引用、一部改変隣接行列計算エッジ特徴量計算ノード特徴量更新

© Hitachi, Ltd. 2020. All rights reserved. １） DCASE 2019-task5
(D19T5) [Bello+, 19] ・市街地（ニューヨーク市）で録音された各10秒のデータ・ 23種の下位クラス、8種の上位クラスを含む、複数ラベルデータセット２） Urban Sounds(US8K) [Salamon+, 14] ・市街地で録音された各4～10秒のデータ・ 10種の下位クラス、4種の上位クラスを含む、単一ラベルデータセット概念木の構造を含む２種類の音響データセットを使用実験に用いたデータセット 15

© Hitachi, Ltd. 2020. All rights reserved. Feed-Forward Ontology LayerやGCNを用いて識別性能が向上した
実験１：複数ラベル音響識別 16 ・ D19T5データセットを用いて上位、下位クラスのラベル識別性能を求めた・ Feed-Forward Ontology Layerで階層関係を取り込むことで、性能が向上した・ GCNを上位下位で２つ用いると、各クラス毎の共起関係を取り込み、性能が向上した [Sun+, 20]より引用、一部改変 9層CNN 9層CNN+1層LSTM DCASE Baseline GCN1つのみ GCN1つ,FF Ontology GCN2つのみ GCN2つ,FF Ontology

© Hitachi, Ltd. 2020. All rights reserved. 音響識別モデルに複数のオントロジーを取り込むことの有効性を示したまとめ 19
・ GCNで生成した共起グラフを用いて識別性能が向上した・ GCNを上位下位のクラス毎に適用して、識別性能が向上した・ Feed-Forward Ontology Layersを加え概念木の構造を取り込み、識別性能が向上した・ Feed-Forward Ontology Layersを双方向に用いることの有効性は不明

© Hitachi, Ltd. 2020. All rights reserved. ・ [Sun+, 20]
Yiwei Sun, and Shabnam Ghaffarzadegan, “An Ontology-Aware Framework for Audio Event Classification”, arXiv:2001.10048. ・ [Gruber 93] Thomas R. Gruber, “A Translation Approach to Portable Ontology Specifications”, Knowledge acquisition, 5(2), 1993, pp.199-220. ・ [赤間 10] 赤間世紀, “オントロジーがわかる本”, 工学社, 2010. ・ [Imoto+, 20] Keisuke Imoto et al, “Sound Event Detection by Multitask Learning of Sound Events and Scenes with Soft Scene Labels”, arXiv:2002.05848. ・ [Elizalde+, 18] B. Elizalde et al, “Sound Event Classification Using Ontology-Based Neural Networks”, NIPS2018 Workshop, 2018. ・ [Chen+, 19] Zhao-Min Chen et al, “Multi-Label Image Recognition with Graph Convolutional Networks”, CVPR, 2019, pp.5177-5186. ・ [Pennington+, 14] J. Pennington et al, “GloVe: Global Vectors for Word Representation”, EMNLP, 2014, pp.1532-1543. 参考文献 20

An Ontology-Aware Framework for Audio Event Cla...

An Ontology-Aware Framework for Audio Event Classification紹介.pdf

Kota Dohi

Other Decks in Research

Featured

Transcript

© Hitachi, Ltd. 2020. All rights reserved. 株式会社日立製作所メディア処理知能研究部

© Hitachi, Ltd. 2020. All rights reserved. 名前：土肥宏太所属：

© Hitachi, Ltd. 2020. All rights reserved. “An Ontology-Aware Framework

© Hitachi, Ltd. 2020. All rights reserved. 前提：オントロジーとは？ 3 小鳥

© Hitachi, Ltd. 2020. All rights reserved. 人間は、音の識別に概念木を活用することができる背景 4

© Hitachi, Ltd. 2020. All rights reserved. 人間は、音の識別にイベントの共起関係を活用することができる背景 5

© Hitachi, Ltd. 2020. All rights reserved. １）概念木の階層構造を組み込んだ学習を行う２）イベント同士の共起関係を組み込んだ学習を行う目的

© Hitachi, Ltd. 2020. All rights reserved. 先行研究例：概念木の階層構造を組み込んだ学習 7 ・

© Hitachi, Ltd. 2020. All rights reserved. 8 ・ Siamese

© Hitachi, Ltd. 2020. All rights reserved. 先行研究例：イベント同士の共起関係を組み込んだ学習 9 “Multi-Label

© Hitachi, Ltd. 2020. All rights reserved. ℎ ( ：正規化隣接行列、

© Hitachi, Ltd. 2020. All rights reserved. Semantic Ontology 所与の概念木と、計算された共起グラフの２種類のオントロジーを用いた

© Hitachi, Ltd. 2020. All rights reserved. Base Network, Feed-Forward

© Hitachi, Ltd. 2020. All rights reserved. 上位クラス、下位クラス間双方向にFeed-Forward Ontology Layerを適用

© Hitachi, Ltd. 2020. All rights reserved. 各ノードのEmbeddingを、隣接行列を使って逐次更新提案手法：Context Ontologyを取り込む方法

© Hitachi, Ltd. 2020. All rights reserved. １） DCASE 2019-task5

© Hitachi, Ltd. 2020. All rights reserved. Feed-Forward Ontology LayerやGCNを用いて識別性能が向上した

© Hitachi, Ltd. 2020. All rights reserved. 実験２：単一ラベル音響識別 17 単一ラベル識別でも、提案手法により識別性能が向上した

© Hitachi, Ltd. 2020. All rights reserved. 実験２：単一ラベル音響識別 18 t-SNEプロットでも、提案手法がデータをより良くグループ化していた

© Hitachi, Ltd. 2020. All rights reserved. 音響識別モデルに複数のオントロジーを取り込むことの有効性を示したまとめ 19

© Hitachi, Ltd. 2020. All rights reserved. ・ [Sun+, 20]