音声異常検知をためしてみよう～身近な音声を録音して、音声異常検知モデルにかけてみよう

音声異常検知をためしてみよう! ～身近な音声を録音して、音声異常検知モデルにかけてみよう～ 2022年10月13日堀扶 [email protected] (C)Tasuku Hori, EXA CORPORATION
Japan, 2022 1

音声異常検知で「死角」をなくせるかセンサ死角対策カメラ △ ９軸センサ × ホイールローダ × LiDAR
△ マイク ◦ カメラ/LiDARの死角 SLAM併用はじめに (C)Tasuku Hori, EXA CORPORATION Japan, 2022 2

簡易環境デモ《音源》タミヤバギー《音声異常検知》 Raspberry Pi4B/8GB ほぼリアルタイムでグラフ可視化 2秒毎に音声異常検知の結果である最新値を追加縦軸：平均二乗誤差値(0に近いと正常) 横軸：時系列
位置を変化させるデモ動画リンクはQiita記事「 USBマイクをつけて音声異常検知をためそう」を参照のこと《トレーニングデータ》疑似エージェントなしの環境で360秒録音 1秒間隔で1秒音声データを録音はじめに (C)Tasuku Hori, EXA CORPORATION Japan, 2022 3

音声 • 空気を震わせる波 • 音は「縦波」 • 固体中は剪断波という横波も混ざる場合も • 波の大きさ、音の粗密の変化を捉えたものが「音」空気を震わせて遠方へ伝わっていく
はじめに入力データ入力データ（数値の配列）は波形データをあらわす空気の粗密 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 4

デモ構成《録音》 PyAudio wave wav形式ファイル wav形式ファイル１秒間隔で実行
２秒間録音し wav形式ファイルとして保存《音声異常検知》 wav形式ファイル 2秒間隔で異常スコア取得グラフに追加 librosa python_speech_features scipy.io.wav TensorFlow/Keras Flask 学習済みモデル 5世代分をスプール最新の wav形式ファイルを取得非同期 chart.js jQuery/Ajax 自律走行エージェント搭載時は ROSフレームワークモジュールとして配置はじめに ※PC(Lenovo T14/Win10)でも動作する（要PortAudio） USBマイクはRaspberry Pi側の電圧低下で機能しない場合があるので非同期にしている (C)Tasuku Hori, EXA CORPORATION Japan, 2022 5

音声異常検知構成《音声異常検知》特徴抽出分類器音響特徴量入力データ
出力データ wav形式ファイルログメルスペクトルメルフィルタバンク全結層×4 音響特徴量と同型式の配列異常スコア算出異常スコアデモ実装：学習済みモデル音響特徴量と出力データの平均二乗誤差 0以上のfloat (数字が大きいほど異常) デモ実装の場合Raspberry Pi前提のため可能な限り分類器を低コストにする必要があった特徴抽出にて可能な限りサイズの小さい音響特徴量にしたいはじめに (C)Tasuku Hori, EXA CORPORATION Japan, 2022 6

分類器構成 wav メルフィルタバ
ンク 20 n (録音時間により伸縮) 全結合層 n R e L U 10 全結合層 R e L U 全結合層 R e L U 全結合層 R e L U 20 n (録音時間により伸縮) 平均二乗誤差（誤差関数）が0になるように機械学習《特徴抽出》《事前処理》《入力層》《隠れ層》《出力層》平均二乗誤差閾値スコア (0以上) 《正常処理》《異常処理》 [＜] [≧] anormaly score 《分類器》《隠れ層》《音響特徴量》入力データと出力データの平均二乗誤差が0になるように学習正常音データのみ学習データにすれば良いはじめに (C)Tasuku Hori, EXA CORPORATION Japan, 2022 7

既存研究における特徴抽出/分類器想定環境対象特徴量識別手法一般銃声 MFCC,パワー、スペクトル重心＋△＋△△ GMM 家屋など
転倒音 Wavelet、ZCR HMM 一般会話、叫び声、歩行、走行、ノック ZCR、LPC、LPCC、LFCC GMM 公共空間銃声、悲鳴 MFCC、ZCR、スペクトル傾斜、自己相関など GMM 駅暴力行為 F0、スペクトル傾斜決定木＋Dynamic Bayesian Network 家庭ガラス音、転倒音など MFCC(segment)、パワー多段階GMM 医療現場など転倒音音響イベントの長さとパワー、MFCC、Shock response spectrum(SRS) Gaussian 公共空間（駅）爆発、銃声、悲鳴 MFCC、MPEG-7LLD 2段階HMM 公共空間（駅）爆発、銃声、悲鳴 MFCC、MPEG-7LLD、TEO、イントネーション GMM 一般悲鳴、銃声、爆発、ガラス音 △パワー、ZCR、Spectral flatness、ZCRなどヒューリスティック医療現場転倒音相対振幅、ピーク周波数閾値家庭、ATMなど叫び声、火災報知器など MFCC、TEO、MPEG-7LLD、Wavelet packet HMM、GMMクラスタリング、SVM 公共空間銃声、悲鳴、ガラス音 MFCC、MPEG-7LLD HMM 駅サイレン、爆発などフィルタバンク OC-SVM 家庭日常音中の稀なイベント MFCC、スペクトルフラックス→クラスタリング HMM モバイル叫び声など MFCC GMM 公共空間銃声、悲鳴 MFCC、パワーと△、△△ HMM 家庭警報、転倒音、叫び声など openSMILE DAE＋BLSTM 道路タイヤの滑り音と音、衝突音 MFCC、フィルタバンク、LLD→VQヒストグラム複数のSVMの組み合わせ一般爆発、銃声、ガラス音、悲鳴 MPEG-7LLD SVM 鉄道叫び声 MFCC+パワー DBN-DNN 日本音響学会紙75巻9号(2019) p539より引用抜粋近年はほとんど機械学習モデルはじめに対象とする環境・対象に合わせて音響特徴量を選択 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 8

音響特徴量の選択音声データを可視化して決める ①Raw Signal グラフ ②パワースペクトログラム ③ログメルスペクトログラムはじめに Raw Signal
パワースペクトルログメルスペクトル音響特徴量 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 9

Raw Signalグラフ • Wavファイルの値を時系列にならべたグラフ • モノラルの場合は横軸に対して線対称 • ステレオの場合、上限が左チャンネル、下限が右チャンネル •
縦軸：wavファイルに格納されていた値 • 横軸：時系列 • 音圧、音高のちがいは比較的判別しやすいあいうえお右図「う」「え：と「あ」「い」「お」の違いは明確だが５音の分類は難しい正規化して図示することが多い ①Raw Signal グラフ (C)Tasuku Hori, EXA CORPORATION Japan, 2022 10

Raw Signalグラフ：簡易環境デモ無音最遠至近 -0.006～0.006 -0.015～0.015 -0.004～0.004 「最遠」位置が最も振幅が大きいようにみえるのは、
縦軸のスケールが異なっているため＜＜＞３種類の縦軸範囲が明確に違うので分類可能 ①Raw Signal グラフ (C)Tasuku Hori, EXA CORPORATION Japan, 2022 11

サンプルサイズ: フレーム内で使用する要素数２の累乗で指定周波数振幅位相 XXXX AAA 〇〇
YYYY BBB ×× ZZZZ CCC △△ 周波数振幅位相 XXXX AAA 〇〇 YYYY BBB ×× ZZZZ CCC △△ 周波数振幅位相 XXXX AAA 〇〇 YYYY BBB ×× ZZZZ CCC △△ スペクトログラム ①フレーム(ウィンドウ)に分割フレームサイズ=4 フレームシフト=4 フレームシフト分ずらしながら一部重なるように切り出していく ②切り出したフレームごとにフーリエ変換フーリエ変換＋＋周波数振幅位相 XXXX AAA 〇〇 YYYY BBB ×× ZZZZ CCC △△ ③振幅を色の濃さでプロット元データがdB単位のもの →パワースペクトログラム「音紋」とも呼ばれる音響学で使用する元データの種類はいくつか存在する短時間フーリエ変換(STFT) ②パワースペクトログラム (C)Tasuku Hori, EXA CORPORATION Japan, 2022 12

パワースペクトログラム • 音圧をスペクトログラムで表示したもの • 縦軸：周波数 • 横軸：時系列 • 色：音圧(単位:dB）
• 声紋・音紋と呼ばれることもある • 音声認識に利用されている • 肉声や楽器などの音素分類などあいうえお Raw Signalグラフより母音のちがいが明確に確認できる ②パワースペクトログラム (C)Tasuku Hori, EXA CORPORATION Japan, 2022 13

パワースペクトログラム：簡易環境デモ無音最遠至近無音状態は0Hz(直流方向)のみ距離の違う２つのグラフ比較・低周波領域：音圧の違い・高周波領域は至近側は雑音が多い ②パワースペクトログラム (C)Tasuku
Hori, EXA CORPORATION Japan, 2022 14

メル尺度 • 人間の聴覚に基づいた音高の尺度、単位はmel • 周波数が低いと敏感、高いと鈍感 • 算出定義内に自由パラメータがあり、用途・目的に合わせ決定する →ここではlibrosaライブラリ実装を使用メル
尺度 667 Hz 1,410 Hz 2,80 5 5,57 8 11,093 Hz 22,06 1 《メルフィルタバンク》メル尺度をもとに重み付けした行列にしたもの行を周波数分離数に列を低次元の要素数に ③ログメルスペクトログラム (C)Tasuku Hori, EXA CORPORATION Japan, 2022 15

メルフィルタバンクによる低次元化《メルフィルタバンク》 × mel_dims (周波数をあらわす) フレーム数(時間をあらわす) 対数《パワースペクトログラム》《ログメルスペクトログラム》縦軸をHzに、
横軸を時間にスケール変更 num_bins num_bins mel_dims 周波数の分割数元の次元より小さくするより人間の近くに近い尺度でより次元数をさげて評価できる ③ログメルスペクトログラム《メルスペクトル》《ログメルスペクトル》 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 16

ログメルスペクトログラム • メルスペクトルをスペクトログラムで表示 • 縦軸：周波数 • 横軸：時系列 • 色：メルスペクトル(対数スケール）
• 人の聴覚に近い音響特徴量 • パワースペクトルより高周波数に敏感にあいうえおパワースペクトログラムより高周波数帯の変化を目で確認できる ③ログメルスペクトログラム (C)Tasuku Hori, EXA CORPORATION Japan, 2022 17

ログメルスペクトログラム:簡易環境デモ無音最遠至近パワースペクトログラムより特徴の異なる範囲が大きい ③ログメルスペクトログラム (C)Tasuku Hori, EXA
CORPORATION Japan, 2022 18

音声特徴量 Raw Signal パワースペクトルログメルスペクトルメル係数ケプストラムより次元数の少ない特徴量ベクトルへ
フーリエ変換メルフィルタバンク離散コサイン変換 Raw Signal グラフパワースペクトログラム人の感覚により近く周波数ごとに分解音色の特徴を（楽器など）分類器に機械学習をつかうようになりあまり利用されなくなったログメルスペクトログラム《特徴抽出》音声は軽そのもの(正規化) まとめデモ次元：(257,997) デモ次元：(24,997) デモ次元(20,429) デモ次元(219136,) MFCC ※要素数としては少し増えている ※要素数は元の1割程度 ※要素数は元の4%程度 ※10秒音声、44100Hz、2バイト (C)Tasuku Hori, EXA CORPORATION Japan, 2022 19

音声データ可視化Webアプリ • GitHub リポジトリからclone • Git clone https://github.com/coolerking/anormaly_sound_pi • Python環境にlibrosa/Streamlitパッケージをインストール
• cd anormaly_sound_pi • pip install streamlit~=1.3.0 librosa~=0.9.2 matplotlib~=3.5.2 scikit-learn~=1.1.2 soundfile~=0.10.3.post1 numpy=~1.22.4 • view.py を実行 • streamlit run view.py まとめ (C)Tasuku Hori, EXA CORPORATION Japan, 2022 20

音声データメタ情報を比較(1/6) まとめ (C)Tasuku Hori, EXA CORPORATION Japan, 2022 21

ヒストグラムの比較(2/6) まとめ (C)Tasuku Hori, EXA CORPORATION Japan, 2022 22

Raw Signal グラフの比較(3/6) まとめ (C)Tasuku Hori, EXA CORPORATION Japan, 2022
23

パワースペクトログラムの比較(4/6) まとめ (C)Tasuku Hori, EXA CORPORATION Japan, 2022 24

ログメルスペクトログラムの比較(5/6) まとめ (C)Tasuku Hori, EXA CORPORATION Japan, 2022 25

MFCCの比較(6/6) まとめ (C)Tasuku Hori, EXA CORPORATION Japan, 2022 26

音響特徴量の選択音声データを可視化して決める ①Raw Signal グラフ ②パワースペクトログラム ③ログメルスペクトログラム Raw Signal パワー
スペクトルログメルスペクトル音響特徴量まとめ非機能要件の変更を考える • 音声以外のものを使う • 複数のセンサを使う非機能要件変更が可能な PoC段階以前に済ませておく (C)Tasuku Hori, EXA CORPORATION Japan, 2022 27

音響特徴量を磨く • 加法性歪み • 様々な環境雑音を特徴量から除去する • 対象音が発生していない状態で録音、特徴量化して差分をとる • 乗法性歪み •
マイクやアンプなどの増幅の影響（伝達特性）を補正する • 補正対象は対数メルスペクトル • ログをとることで掛け算が足し算に変わるので • 動的特徴量の検討 • フレームの前後における変化を特徴量化する • Δ特徴量(1階差分)、ΔΔ特徴量(2階差分)などまとめ (C)Tasuku Hori, EXA CORPORATION Japan, 2022 28

提案における注意 • 実現可・困難を早期に決めなくてはならないまず録音 • 正常音・異常音の２組 • 同じ環境で録音 • PoC実行中にSEは、解析学、音響学を学習する
まとめ実装は簡単でも、引数の選択は知識が必要非機能要件を固める前に (C)Tasuku Hori, EXA CORPORATION Japan, 2022 29

おわり音声異常検知は、お客様ごとに異なる実装が必要 → カスタムSI向きの技術提案になりうるユースケース《エクサ》 (C)Tasuku Hori, EXA CORPORATION Japan,
2022 30

おまけ AI Programmerに「wavファイルをもとに音声異常検知をおこなう。」プログラムを自動コード生成させてみた。 wavファイルを読み込みメタ情報を取得する関数が生成された。 (C)Tasuku Hori, EXA
CORPORATION Japan, 2022 31

初学者向け参考講座 • Udemy「【最速で実装】ディープラーニングによる異常検知」 • 画像やログ、音声などの異常検知を手っ取り早く試せる • 初学者向け、Pythonの基礎はあると良い • Udemy「Python/Steamlitによる機械学習WEBアプリの開発」 •
Streamlitを手っ取り早く使えるようになる • UI経験者なら公式のチュートリアルでも十分 • Youtube「フーリエ変換フーリエ級数周波数スペクトル」 • フーリエ変換を視覚(3DCG)的に理解できる • 英語だがキャプションを日本語にすればOK まずコレ PoCの前に実装のあたりをつける参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 32

参考書籍 • オーム社刊「Pythonによる異常検知」 • 音声のような時系列データだけでなく画像のような比時系列データについても解説 • 数式多めで比較的汎化されている • インプレス刊「Pythonで学ぶ音源分離」
• 話者分離・音源分離法が中心 • かなり数学よりの書籍 • 講談社刊「テキスト・画像・音声データ分析」 • 音声データについては音声認識を中心に記述 • 比較的実例を出しつつ解説しており、用語を理解するのに適しているまずコレ PoC中に特徴抽出・音響特徴量の知識を得る参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 33

《解析学》《スペクトル分析》短時間フーリエ解析を理解する手順級数展開フーリエ級数展開複素フーリエ級数展開離散フーリエ変換(DFT) 高速フーリエ変換(FFT) 短時間フーリエ変換(STFT) フレームごとに分割して計算
窓関数を使用線形代数 o(n^2)をo(n logn)にただしn=1,2,4,8,16,32,.. 非周期関数化周期∞の周期関数として考える対象を周期関数(周期2π)にする関数系を三角関数系にオイラーの公式を適用周期2π→一般周期化(2π→2Lで計算) librosa.stft() ある関数の性質を知るためにより基本的な関数系に展開するテイラー展開、マクローリン展開など高校数学微積分、偏微分、連鎖律行列計算 ※戻り値は複素数理解してないと本来の値の意味が理解できない推奨学習順序ライブラリの引数・戻り値の意味を理解できるように参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 34

異常検知利用例 • 不正侵入検知 • 詐欺検出 • 医療診断 • ビデオ監視
• 産業用欠陥損傷検出機械学習マルチモーダル × によるユースケースの多様化《医療診断×AI》《欠陥損傷検出×AI》《ビデオ監視×AI》《不正侵入検知×AI》《詐欺検出×AI》参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 35

マイク（マイクロフォン） • 音を電気信号に変換する装置 • 空気信号→機械的振動→電気信号 • 人間の耳に模して作られている • ダイナミック型
• 空気の振動で磁石の中のコイルや金属箔を動かし電気を起こす • コンデンサー型 • 振動板と固定極に予め電気を溜め振動で振動膜が動き電圧が変化する参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 36

wavファイルフォーマットバイト長内容 4 文字列”RIFF” 4 以降のファイルサイズ(総ファイルサイズ-8)(バイト) 4 文字列”WAVE” 4
文字列”fmt” 4 fmtチャンクのバイト数 2 フォーマットID (1:リニアPCM) 2 チャネル数 4 サンプリング周波数(Hz) 4 データ速度(バイト/秒) 2 ブロックサイズ(バイト/サンプル数×チャネル数) 2 サンプルあたりのビット数、ビット解像度(ビット/サンプル) 4 文字列”data” n 波形データ 40 インプレス「Pythonで学ぶ音源分離」より引用リニアPCM （無圧縮・サンプリング周波数固定）参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 37

WAV(リニアPCM)波形データ • サンプリング周波数ごとの信号を記録したもの • 信号をビット解像度範囲で量子化した数値を記録 • 量子化には線形量子化を使用 • モノラル音声信号のみ使用波形データメタ情報
今回使用した波形データ説明サンプリング周波数 44,100Hz 1秒間に何回記録するかビット解像度 8ビット(-32,768～32,768) 記録数値の範囲量子化線形量子化信号を離散的な数値で表す方法チャンネル 1 1:モノラル、2:ステレオ Δ Δ Δ Δごとに区切る信号値 Δ Δ Δ 量子化誤差が最も小さい値に近似線形量子化量子化誤差チャンク：何件溜まったらデータに書き出すか参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 38

音源モデルと空間モデル • 音源モデル • 音源の音色構造をモデル化 • 音源ごとの発する音の特徴 • 非負値行列因子分解、時間周波数マスキング •
空間モデル • 空間的な伝達をモデル化 • 音がマイクまで空間的にどのようにつたわるか • ビームフォーマ、方位クラスタリング参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 39

音響における優決定系、劣決定系 • 線形代数用語 • 優決定系 • 連立方程式において変数の数に対して制限式が多い • 音源数よりマイクの数（チャネル数）が多い場合のこと •
劣決定系 • 連立方程式において変数の数に対して制限式が少ない • マイクの数（チャネル数）より音源数が多い場合のこと参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 40

音高 • 音の高さを示す心理量、ピッチ • 単位：mel(メル) • 周波数1kHz、音圧40dBの純音を人が聞いた音の高さ＝1000mel • 比率尺度：人が音の高さ２倍に聞こえたらmel値も２倍 •
一般的に周波数が高いと高音にきこえる • ほかの要素でも音高は変化する参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 41

音圧 • 音による圧力、大気圧からの変動分 • 単位はPa (パスカル） • 瞬間音圧：ある瞬間における音の圧力変異 • ピーク音圧：ある時間区間における瞬間音圧の最大絶対値
• 一般的に瞬間音圧の実効値で表現される • 音圧レベル • 音圧の大きさを基準値との比を常用対数によって表現した量 • 単位はdB (デシベル) • 人が認識できる音圧はPaだと広範囲(20μPa～20Paといわれている)になるのでdBで表現することが多い参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 42

基音、上音 • 音の波形をフーリエ変換などで周波数成分ごとに分解 • 基音 • 各周波数成分のうちもっとも周波数の低いもの • 上音 •
基音以外の周波数成分 • 基音の周波数がその音の音高に、上音にどのような成分が含まれているかで音色がかわる参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 43

音色 • 音の波形のちがい • 「聴覚に関する音の属性の一つで、物理的に異なる二つの音が、たとえ同じ音の大きさ及び高さであっても異なった感じに聞こえるとき、その相違に対応する属性」(JIS Z 8106:2000 音響用語)
• 人は上音にどのような周波数の音がどれくらいの強さで含まれているかが音色のちがいとして感じる参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 44

音素 • 意味を区別する働きをする音声上の最小単位 • 音声認識では発音記号に対応する音 • 日本語の音素(Wikipedia) 種類発音記号母音
/a/, /i/, /u/, /e/, /o/ 子音 /k/, /s/, /t/, /c/, /n/, /h/, /m/, /r/, /g/, /z/, /d/, /b/, /p/ 半母音 /j/, /w/ 特殊モーラ /N/(ん), /Q/(っ), /H/(ー) 参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 45

周期、周波数、振幅、位相 • 周期 • 波１回あたりの時間、y=a sin(bt+c)の2π/b • 周波数（振動数） • １秒間あたり何回の山がやってくるか
• 振幅 • 山の高さ（片振幅、y=a sin(t）のa) • 山谷の高さは両振幅 • 位相 • ずれ、y=a sin(bt+c) のc 振幅２倍周波数２倍位相＋１周期１／２倍参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 46

サンプリング周波数 • AD（アナログ→デジタル）変換を１秒間に何回実行するか • 単位：Hz • 一般的に、ある音を正確に記録するには、対象音の倍以上の周波数が必要といわれている • CDのサンプリング周波数：44.1
kHz • ナイキスト周波数 • サンプリング周波数の1/2の周波数のこと《サンプリングレート》何秒に1回データを取得したかサンプリング周波数の逆数参考《注意》スペクトル分析結果の周波数と混同しやすい！ (C)Tasuku Hori, EXA CORPORATION Japan, 2022 47

ビットレート • 単位時間あたり処理・転送されるビット数 • 単位はbit/sなど (bpsは非公式らしい) • 音声は音声ビットレート、映像は映像ビットレートと呼ばれる • 音声と映像を合わせたものはオーバルビットレート
• 音声ビットレート • 平均96～128bit/s、高品質の場合192～320boit/s 参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 48

ZCR: Zero Crossing Rate • 信号の中で正負がどれくらい切り替わっているかを示す値 • 音声認識や音楽情報検索などに使用される • 打楽器を分類する場合や、音声アクティビティ検出（人間の発話
が存在するか）の場合などにも使用される • ZCR値が大きいとノイズが多いといわれている参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 49

主な音声コーデック一覧音声データ形式拡張子特徴 WAVE .wav (32bit符号なし整数) .w64
(64bit符号なし整数) MSが開発したWindows用音声ファイル形式データサイズは大きい CD並の品質を保つことが可能(44.1kHz 16bit ステレオ) コンテナ規格なのでdataチャンクにほかのコーデックも格納できる .wavは4GBまで、.w64は4GB以上可能 AIFF .aif .aifc (非可逆圧縮) Appleが開発したMac用音声ファイル形式非圧縮の場合CD並の品質を保つことが可能(44.1kHz 16bit ステレオ) MP3 .mp3 独フラウンホーファが開発、MPEG-1の音声データコーデックのひとつ非可逆圧縮により高い圧縮率を誇る(音質を犠牲により高くできる) CDとほぼ同じ音質をたもって圧縮することも可能 WMA .wma MSが開発したWindows用音声ファイル形式人間の聴覚では気づきにくい部分を改変・間引きすることで劇的に圧縮率を上げる非可逆圧縮方式を採用希望する音質に合わせ圧縮率をかえることができる同音質の場合、MP3の半分程度のデータ量で済む WMA Standardの派生として、可逆圧縮のWMA Lossless、声に特化したWMA Voice、最高7.1chまで可能なWMA Proなどが追加 AAC .mov、.mp4、 .m2ts、.m4a、 .m4b、.3gp、 .3g2、.aac ISO/IECにて規定された不可逆圧縮方式 MP3の光景として策定、同程度ビットレートの場合MP3より高品質 MPEG-2/4の仕様の一部としても利用される MP3より若干データサイズは大きめだがサンプリング周波数はMP3が48kHzまでに対しAACは96kHzまで FLAC .flac、 .fla、.oga、 .mka オープンフォーマットの可逆圧縮方式を採用したコーデック GPLだったがOggプロジェクトが加わりコアライブラリは修正版BSDライセンスへ変更されたエンコード・デコード速度が早く、データ構造がエラーに強い非圧縮方式として FLAC Uncompressedがある参考デモで使用したコーデックはwave 波形データはリニアPCM(非圧縮) サンプリング周波数44100Hzモノラル→実質22050Hz ※CD並の音質→44100Hzステレオ (C)Tasuku Hori, EXA CORPORATION Japan, 2022 50

PCM Pulse Code Modulation • パルス変調方式 • アナログ信号をデジタル信号に変換数方式の一つ • 標本化と量子化を行いデジタル信号に変換する
• 標本化 • アナログ信号を一定間隔で測定 • 量子化 • 信号の値を離散値で近似的にあらわす • 量子化ビット数をへらすとデータ量が減るが誤差は増える • リニアPCM • 線形量子化を使ったPCM、代表的な無圧縮PCMに使用される Δ Δ Δ Δごとに区切る信号値 Δ Δ Δ 量子化誤差が最も小さい値に近似線形量子化量子化誤差参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 51

フーリエ級数展開 f(x)は周期2πの周期関数とするの形であらわされる級数展開 ※必ず収束するとは限らない音は「波」 →どのような波で構成されているか知りたい【参考】目で見てわかるフーリエ変換の概要 →Youtube動画「フーリエ変換フーリエ級数周波数スペクトル」
参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 52

非連続関数におけるフーリエ級数展開を周期的に拡張した周期関数とする級数展開の係数を増やすことで、元の関数に近づいていくフーリエ級数展開された関数は、必ずしも元の関数に近似するとは限らないこのため＝ではなく～で表現する非連続関数非連続点の近似値は中間点になる f(x)が区分的に滑らかである場合、近似
このときのフーリエ級数展開は参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 53

フーリエ解析周期2Lの周期関数f(x)の場合：《フーリエ級数展開》《フーリエ係数》 n:離散的非周期関数f(x)の場合：フーリエの積分公式フーリエ変換 ω:連続的 n
ω Youtube動画「【大学数学】フーリエ解析入門⑤(フーリエ変換)/全5講【解析学】」より引用参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 54

フーリエ変換 • 非周期関数を周期∞の周期関数としてフーリエ級数展開 • 時間領域のデータを位相領域のデータに変換する • 音響学では周波数ごとの振幅が時系列で変化する様子を捉えることができないため、短時間フーリエ変換をつかう • 短時間フーリエ変換
STFT: Short Term Fourier Transform • 音声データを短時間の時系列データに区切る • 各データごとにフーリエ変換を実行 • フレーム • 短時間に区切った時系列データのひとつ周波数振幅位相 XXXX AAA 〇〇 YYYY BBB ×× ZZZZ CCC △△ STFT (-∞, ∞)において区分的になめらか (-∞, ∞)において絶対可積分可能周波数振幅位相 XXXX AAA 〇〇 YYYY BBB ×× ZZZZ CCC △△ 周波数振幅位相 XXXX AAA 〇〇 YYYY BBB ×× ZZZZ CCC △△ 参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 55

• 元の音に何らかの処理をかけて加工する • 周波数選択フィルタ • 特定の周波数を削除した音声データに変換する • フーリエ変換して特定周波数を削除加工する • 音声系ライブラリのフィルタ関数にかける
フィルタ元の音声データフーリエ変換逆フーリエ変換加工後の音声データ周波数振幅位相 XXXX AAA 〇〇 YYYY BBB ×× ZZZZ CCC △△ 周波数振幅位相 XXXX DDD 〇〇 YYYY BBB ×× ZZZZ CCC △△ 間引いたり数字を加工する「あー」「ぼえー」参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 56

フィルタバンク • 周波数フィルタの１つ • 入力信号を複数のコンポーネントに分割 • 一般的には、分割したコンポーネントを再結合し元の信号に戻せるように作成される • 信号の間引き、補完処理などを行う
• フィルタバンクの例 • ボコーダ：携帯通話などで使用、一旦パラメータ化し送信 • ダウンサンプリング：周波数を上げる • アップサンプリング：周波数を下げる • メルフィルタバンク • メル尺度で等間隔になるように等間隔に参考次元が変わる場合は情報損失がおこることも (C)Tasuku Hori, EXA CORPORATION Japan, 2022 57

ケプストラム cepstrum • 音声波形を離散フーリエ変換にかけ、パワースペクトルを算出 • 横軸：周波数、縦軸：パワースペクトル • 対数をとり、対数パワースペクトルを算出 • 横軸：周波数、縦軸：対数パワースペクトル
• 対数パワースペクトルを離散フーリエ変換にかけ、ケプストラムを算出 • 横軸：ケフレンシー（ケプストラムにおける時系列のようなもの）、縦軸：ケプストラムここで①メルフィルタバンクにかけここで②離散コサイン変換にかけると MFCC(メル尺度ケプストラム)になる参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 58

動的特徴量 • 前後フレームでどのような変化があったかを特徴量に反映 • 音響特徴量としては、静的特徴量＋Δ特徴量＋ΔΔ特徴量を使うと性能が向上する場合がある • Δ特徴量 • 前後フレームの静的特徴量の1階差分(1次微分)をとったもの
• ΔΔ特徴量 • 前後フレームの静的特徴量の2階差分(2次微分)をとったもの参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 59

LDAを使った音響特徴量《ログメルスペクトログラム》 t フレームt t-1 t－５フレームt-5～t-1 フレームt+1～t+5 t+5 t+1
t－５ t－1 t t+1 t+5 LDA変換行列ログメルスペクトル次元×6 ログメルスペクトル次元×6 lda_dim より小さい次元に × 各t 縦に連結線形判別分類を使って次元を削減全フレームを集めて音響特徴量として使う集める動的・静的特徴量両方の効果がひとつに参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 60

音声を扱うPythonライブラリ • librosa • 音声分析を行うときに使用するPythonライブラリ • 音声系ユーティリティ、フィルタバンク、スペクトログラムなどの描画など • python_speech_features •
音声分析系Pythonライブラリ • メルフィルタバンクやMFCCなど音響特徴量抽出などの機能もある • soundfile • 音声ファイルの読み書きをおこなうPythonライブラリ • PyAudio • 音声の再生や録音を行うためのPythonライブラリ • Windows上で動作させるにはPortAudioが必要 • wave • WAVフォーマットの読み書きをおこなうPythonモジュール参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 61

データ分析結果可視化Pythonライブラリ • Dash • ダッシュボードUIを作成する場合に便利なUIフレームワーク • コールバックを書くイベント駆動型 • サンプルダッシュボードが公開されているのでできることがすぐわかる •
Udemy講座「Python/Dash/Plotlyで簡単に機械学習WEBアプリを開発しよう」ほか • Streamlit • 上から下へ流れるコードばかり書いているデータサイエンティスト向け • むちゃくちゃ簡単、サンプルコード見ればすぐに覚えられる • Web UI下記慣れている人には物足りない？ • streamlit run ～.pyで実行する • Udemy講座「Streamlit,Pandas,Pythonで学ぶ!データ分析の基礎とインタラクティブダッシュボード作成入門」ほか参考 (C)Tasuku Hori, EXA CORPORATION Japan, 2022 62

EoF (C)Tasuku Hori, EXA CORPORATION Japan, 2022 63

音声異常検知をためしてみよう ～身近な音声を録音して、音声異常検知モデルにかけてみよう

音声異常検知をためしてみよう ～身近な音声を録音して、音声異常検知モデルにかけてみよう

More Decks by Tasuku Hori

Other Decks in Technology

Featured

Transcript

音声異常検知をためしてみよう～身近な音声を録音して、音声異常検知モデルにかけてみよう

音声異常検知をためしてみよう～身近な音声を録音して、音声異常検知モデルにかけてみよう