BONXを支える技術:発話区間検出(VAD)の話/Akerun & BONX Tech Talk

by shunsukeaihara

Slide 1

Slide 1 text

2016/04/26 shunsukeaihara BONXを⽀える技術: 発話区間検出(VAD)の話

Slide 2

Slide 2 text

⾃⼰紹介 •  粟飯原俊介(@shunsukeaihara) •  http://argmax.jp •  技術顧問 •  Gunosy, MNU •  フリーランス •  ⾃然⾔語処理/画像処理/⾳声信号処理/分散処理系の開発・コンサル •  Webシステム/IoTデバイス/データ分析システムの開発/BizDev •  Bonxではサーバ(VoIP周り)開発とクライアント側⾳声処理系を担当

Slide 3

Slide 3 text

(承前)IoTにおける⾳声信号処理⼊出⼒に制限が有ることが多いIoTシステムにおいて, ⾳声インターフェイス(Digital Voice Assistant)が注⽬されており, ⾳声処理に関する周辺技術の重要が⾼まっていますボイスコマンド音声対話音源定位・分離環境音認識音声認識話者識別

Slide 4

Slide 4 text

発話区間検出とは Voice Activity Detection(VAD)

Slide 5

Slide 5 text

発話区間検出とは与えられた⾳声データから, ⼈間が発話している部分のみを抽出する技術. ⾳声認識能向上のための前処理や, ⾳声通信における通信削減/⾳声品質向上などに利⽤されています発話区間発話区間⾮発話区間⾮発話区間⾮発話区間

Slide 6

Slide 6 text

発話区間検出の難しさ⼀⾒簡単そうな発話区間検出も, 様々な環境・様々なマイクで安定した動作を実現しようとすると, 複数の問題を乗り越える適応的なアルゴリズムが必要になります環境ノイズの⼤きさ環境ノイズの多様性⾳質・⾳量の違い背景ノイズがうるさい場合でも, 背景ノイズを無視して発話がない場合は⾮発話としなければいけない⾮定常的な環境⾳や, 突発⾳, テレビや移動等による環境ノイズの変化に追随して, 環境⾳と発話を切り分けなければいけない⼈毎の声の差・機種毎のマイク・デバイスの⾳の差・サウンドデバイスの初期化毎の⾳量の差を吸収

Slide 7

Slide 7 text

発話区間検出の要素技術発話/⾮発話判定概要⼿法(⼀例) 背景雑⾳と⼈間の発話が混ざった信号から, ⼈間の発話が含まれている区間のみを発話区間として判定 • Spectral Entropy • Long-Term Spectral Divergence • Periodic Component to Aperiodic Component Ratio • ⾳声モデル(GMM等) ノイズ推定/ トラッキングノイズ除去/ ⾳声強調環境ノイズの変化や, ⾮定常的な雑⾳に対する頑健性を担保するために, ⼈間の発話と背景雑⾳が混ざった⼊⼒信号から, 変化する背景雑⾳をリアルタイムに推定推定した雑⾳の情報を元に, 背景雑⾳と⼈間の発話が混ざった信号から, ⼈間の発話を抽出・強調する技術 • Minimum Statistics • VAD Based (Soft / Hard Decision) Estimator • MMSE based Estimator • Spectrum Subtraction • Wiener ﬁltering • MMSE-STSA • Joint-Map • Beamforming(マイクアレイ)

Slide 8

Slide 8 text

ノイズ推定〜発話判定処理の⼀例発話⾳声と環境⾳(ノイズ)が重畳された信号からノイズを逐次的に推定し, ⼊⼒⾳声が環境⾳なのか, 発話を含んでいるのかをオンラインで判定しますノイズプロファイルの初期値として, 先頭数百msの平均パワースペクトルを利⽤フレーム毎にパワースペクトルとノイズプロファイルを⽐較逐次更新アルゴリズムにより, 発話・ノイズ混じりの信号からノイズプロファイルを毎フレーム更新更新⽐較

Slide 9

Slide 9 text

Bonxでの発話区間検出の流れ Bonxは独⾃のマルチマイクデバイスを利⽤しているため, デバイス上でマルチマイクを⽤いた⾳声強調処理を実施し, 後段の処理をスマートフォンで実施しています ①⾳声強調(仮) ②ノイズ推定 • Bonxデバイスからの出⼒⾳声信号 ③ノイズ除去 ④発話判定 input output • 前⽅マイクからの⼊⼒信号 • 後⽅マイクからの⼊⼒信号 • Bonxデバイスからの出⼒⾳声信号 • 推定したノイズプロファイル • ノイズ除去済みの⾳声信号* • 推定したノイズプロファイル • 前⽅マイク側の信号(⼝側の⾳)を強調(Beamforming) した⾳声信号 • ⾳声信号に含まれるノイズの推定値(ノイズプロファイル) • ノイズ除去済みの⾳声信号 Bonxデバイススマートフォン • 発話・⾮発話判定結果 • ノイズ除去済みの⾳声信号 *アルゴリズムによっては①の出⼒とノイズプロファイルを利⽤⾳量の正規化

Slide 10

Slide 10 text

デバイスとスマートフォンでの信号処理⾳声信号処理はリアルタイムでの計算が必要とされるため, スマートフォンアプリの中に実装するためには計算の効率化とアルゴリズムの簡易さが求められます •  基本的にはC/C++での実装. AndroidではNDKを⽤いる • iOS: Accelerate Framework(vDSP)を利⽤ • Android: ARM系のSIMD拡張命令(NEON), DSP拡張命令を利⽤ • cpufeature.h •  IoTハードウェアとの連携の場合は, ハードウェア側のDSPチップやSoCに機能を寄せられないか検討する •  複数マイク(マイクアレイ)を⽤いる事で⾳質の向上を⾒込むことが出来る⾼速な実装のために… デバイス側で出来ることはやろう

Slide 11

Slide 11 text

まとめ •  発話区間検出の概要と課題 •  ロバストな発話区間検出に必要な要素技術 •  ノイズ推定/トラッキング •  ノイズ除去/⾳声強調 •  発話⾮発話判定 •  IoTデバイスとスマートフォンで⾳声信号処理を実装するにあたってのTips •  ITベンチャー業界に他に⾳声信号処理実装関係者いないですかね