Upgrade to Pro — share decks privately, control downloads, hide ads and more …

合成音検出を用いた話者照合のための データクレンジングの検討

合成音検出を用いた話者照合のための データクレンジングの検討

本研究では, なりすまし音声検出として提案されている合成音検出を実環境で収録された音声データのクレンジング技術に応用することについて検討する. 近年, 大規模な音声コーパスを構築する手段として, インターネット上の様々な音声データを自動収集する手段が広く用いられている. インターネット上の音声データは背景雑音や音楽など様々な音が重畳されており, 単純な音声区間検出などでは目的の音声コーパスを作成することは難しい. そのため, 収集目的に対して適切な動画だけを選択して音声コーパスを構築するための様々なデータクレンジング技術が適用されている. 話者照合のための音声コーパス構築に必要なデータクレンジング技術として, 単一話者による実発声であることの判定がある. しかし, 従来法では合成音声と単一話者において分類精度が不十分であった. そこで本研究では, なりすまし音声検出を合成音声と実発話の分類を行うデータクレンジング技術の一つとして応用することを検討した. 実験では, シミュレーションによる合成音声と実発話の音声データ及び, 実環境下で収集された音声データの二つを評価データとして用い合成音検出の評価を行った. 実験結果より, なりすまし音声検出のデータクレンジング技術としての性能と今後の課題について報告する.

Kenzo Wada

March 15, 2023
Tweet

Other Decks in Research

Transcript

  1. 研究背景 ( 1 / 2 ) - 話者照合 02 話者照合

    人間の音声を生体情報として用いる認証技術 話者照合の現状 深層学習を用いた手法が多く提案されている 従来法と比較して、性能が向上した。 性能が学習データ量に大きく依存している 話者照合のための音声コーパスの現状 大規模なデータは言語に依存している                               → データ量が限定される言語において、データ量を確保するためにデータクレンジング技術が重要
  2. なりすまし検出の データクレンジング技術への応用 研究背景 ( 2 / 2 ) - なりすまし検出

    03 なりすまし検出 話者照合においてなりすまし音声を検出するもの なりすまし音声: 近年、高い性能を得られるようになってきている 合成音声などを用いて登録話者本人になりすましたもの 話者照合の音声コーパス構築における課題 合成音声と実発話の分類性能の低さ
  3. 推定結果 正解ラベル 合成音声 単一話者 合成音声 20 5 単一話者 80 95

    関連研究 ( 1 / 2 ) - 話者照合用の音声コーパス構築法 04 JTubeSpeech YouTube の動画とその文字起こしデータを使用 した日本語音声コーパス 話者照合用の音声コーパス構築法 集めた動画の中から、  「単一話者の動画」  「合成音声による発話の動画」へ分類 JTubeSpeechにおける合成音と単一話者の分類結果 ( 発話数 ) データクレンジングにおける課題 合成音声と単一話者の分類性能の低さ →本来話者照合に使用可能なデータを大きく削減
  4. 関連研究 ( 2 / 2 ) - なりすまし検出 05 ASVSpoof

    話者照合のためのなりすまし音声検出の手法 について比較評価するコンペティション 2015年から隔年で開催されている 想定しているなりすまし音声 Text-To-Speech(TTS) Voice Conversion(VC) ASVSpoofにて想定されている攻撃フロー 想定しているなりすまし攻撃 論理アクセス 入力系統に直接合成音声等を割り込ませる 高い分類性能ものも報告された
  5. 提案手法 ( 1 / 2 ) 06 目的 なりすまし検出システムを用いて 実発話と合成音声の分類

      → データクレンジング技術への応用 合成音検出システムの評価フロー 推定結果 正解ラベル 合成音声 単一話者 合成音声 20 5 単一話者 80 95 JTubeSpeechにおける合成音と単一話者の分類結果
  6. 提案手法 ( 2 / 2 ) - システム 07 特徴量

    線形周波数ケプストラム係数 (LFCC) Constant Q Cepstral Coefficients (CQCC) 合成音検出モデル 混合ガウスモデル (GMM) パラメータ数多くなく、学習データが少 なくても安定した性能を得れる Light CNN (LCNN) 畳み込みニューラルネットワークに比べ て軽量化 比較的学習データ量が少なく済む システム ASVSpoof 2019にて公開された LFCC-GMM CQCC-GMM LFCC-LCNN ベースラインシステムを使用 LFCC-GMM CQCC-GMM LFCC-LCNN 特徴量 LFCC CQCC LFCC モデル GMM GMM Light CNN
  7. 元のデータセット ホワイトノイズ 音楽 背景音なし ✔︎ ホワイトノイズ ✔︎ ✔︎ 音楽 ✔︎

    ✔︎ ホワイトノイズと音楽 ✔︎ ✔︎ ✔︎ データベース - 学習データ 08 ASVSpoof2019の論理アクセスのデータセットについて、 表の条件でデータ拡張を行った学習データ①〜④を用意した
  8. データ拡張 (学習) なし ホワイトノイズ 音楽 ホワイトノイズと音楽 背景音 (検証) なし ホワイト

    ノイズ 音楽 なし ホワイト ノイズ 音楽 なし ホワイト ノイズ 音楽 なし ホワイト ノイズ 音楽 LFCC-GMM 4.3 32.9 45.2 3.9 30.2 44.3 3.0 29.6 44.1 2.6 28.1 42.7 CQCC-GMM 5.2 36.7 42.6 4.8 35.5 43.7 4.6 31.2 46.6 4.3 29.4 43.8 LFCC-LCNN 2.7 38.8 44.3 3.0 35.2 43.6 3.0 33.8 43.2 2.8 27.1 38.2 実験 ( 1 / 2 ) - シミュレーションによる検証データ 11
  9. データ拡張 (学習) なし ホワイトノイズ 音楽 ホワイトノイズと音楽 背景音 (検証) なし ホワイト

    ノイズ 音楽 なし ホワイト ノイズ 音楽 なし ホワイト ノイズ 音楽 なし ホワイト ノイズ 音楽 LFCC-GMM 4.3 32.9 45.2 3.9 30.2 44.3 3.0 29.6 44.1 2.6 28.1 42.7 CQCC-GMM 5.2 36.7 42.6 4.8 35.5 43.7 4.6 31.2 46.6 4.3 29.4 43.8 LFCC-LCNN 2.7 38.8 44.3 3.0 35.2 43.6 3.0 33.8 43.2 2.8 27.1 38.2 実験 ( 1 / 2 ) - シミュレーションによる検証データ 11
  10. 背景音による影響を強くうけた 実験 ( 1 / 2 ) - シミュレーションによる検証データ 11

    データ拡張 (学習) なし ホワイトノイズ 音楽 ホワイトノイズと音楽 背景音 (検証) なし ホワイト ノイズ 音楽 なし ホワイト ノイズ 音楽 なし ホワイト ノイズ 音楽 なし ホワイト ノイズ 音楽 LFCC-GMM 4.3 32.9 45.2 3.9 30.2 44.3 3.0 29.6 44.1 2.6 28.1 42.7 CQCC-GMM 5.2 36.7 42.6 4.8 35.5 43.7 4.6 31.2 46.6 4.3 29.4 43.8 LFCC-LCNN 2.7 38.8 44.3 3.0 35.2 43.6 3.0 33.8 43.2 2.8 27.1 38.2
  11. データ拡張 (学習) なし ホワイトノイズ 音楽 ホワイトノイズと音楽 背景音 (検証) なし ホワイト

    ノイズ 音楽 なし ホワイト ノイズ 音楽 なし ホワイト ノイズ 音楽 なし ホワイト ノイズ 音楽 LFCC-GMM 4.3 32.9 45.2 3.9 30.2 44.3 3.0 29.6 44.1 2.6 28.1 42.7 CQCC-GMM 5.2 36.7 42.6 4.8 35.5 43.7 4.6 31.2 46.6 4.3 29.4 43.8 LFCC-LCNN 2.7 38.8 44.3 3.0 35.2 43.6 3.0 33.8 43.2 2.8 27.1 38.2 実験 ( 1 / 2 ) - シミュレーションによる検証データ 11 モデル別の比較:LCNNが比較的性能が良い
  12. データ拡張 (学習) なし ホワイトノイズ 音楽 ホワイトノイズと音楽 背景音除去 (検証) なし あり

    なし あり なし あり なし あり LFCC-GMM 39.2 20.3 38.7 19.8 36.1 18.2 32.8 17.6 CQCC-GMM 39.3 28.7 37.4 24.3 33.7 22.7 33.5 19.8 LFCC-LCNN 39.7 38.9 38.3 36.2 34.8 33.5 34.8 25.7 実験 ( 2 / 2 ) - 実環境下による検証データ 12
  13. データ拡張 (学習) なし ホワイトノイズ 音楽 ホワイトノイズと音楽 背景音除去 (検証) なし あり

    なし あり なし あり なし あり LFCC-GMM 39.2 20.3 38.7 19.8 36.1 18.2 32.8 17.6 CQCC-GMM 39.3 28.7 37.4 24.3 33.7 22.7 33.5 19.8 LFCC-LCNN 39.7 38.9 38.3 36.2 34.8 33.5 34.8 25.7 実験 ( 2 / 2 ) - 実環境下による検証データ 12 背景音を除去することでEERが下がる
  14. データ拡張 (学習) なし ホワイトノイズ 音楽 ホワイトノイズと音楽 背景音除去 (検証) なし あり

    なし あり なし あり なし あり LFCC-GMM 39.2 20.3 38.7 19.8 36.1 18.2 32.8 17.6 CQCC-GMM 39.3 28.7 37.4 24.3 33.7 22.7 33.5 19.8 LFCC-LCNN 39.7 38.9 38.3 36.2 34.8 33.5 34.8 25.7 実験 ( 2 / 2 ) - 実環境下による検証データ 12 背景音を除去することでEERが下がる
  15. データ拡張 (学習) なし ホワイトノイズ 音楽 ホワイトノイズと音楽 背景音除去 (検証) なし あり

    なし あり なし あり なし あり LFCC-GMM 39.2 20.3 38.7 19.8 36.1 18.2 32.8 17.6 CQCC-GMM 39.3 28.7 37.4 24.3 33.7 22.7 33.5 19.8 LFCC-LCNN 39.7 38.9 38.3 36.2 34.8 33.5 34.8 25.7 LCNNと比較してGMMの性能が良い 実験 ( 2 / 2 ) - 実環境下による検証データ 12