合成音検出を用いた話者照合のためのデータクレンジングの検討

合成音検出を用いた話者照合のためのデータクレンジングの検討和田賢造, 塩田さやか, 貴家仁志東京都立大学 2023年3⽉1⽇

研究背景 ( 1 / 2 ) - 話者照合 02 話者照合
人間の音声を生体情報として用いる認証技術話者照合の現状深層学習を用いた手法が多く提案されている従来法と比較して、性能が向上した。性能が学習データ量に大きく依存している話者照合のための音声コーパスの現状大規模なデータは言語に依存している　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 → データ量が限定される言語において、データ量を確保するためにデータクレンジング技術が重要

なりすまし検出のデータクレンジング技術への応用研究背景 ( 2 / 2 ) - なりすまし検出
03 なりすまし検出話者照合においてなりすまし音声を検出するものなりすまし音声：近年、高い性能を得られるようになってきている合成音声などを用いて登録話者本人になりすましたもの話者照合の音声コーパス構築における課題合成音声と実発話の分類性能の低さ

推定結果正解ラベル合成音声単一話者合成音声 20 5 単一話者 80 95
関連研究 ( 1 / 2 ) - 話者照合用の音声コーパス構築法 04 JTubeSpeech YouTube の動画とその文字起こしデータを使用した日本語音声コーパス話者照合用の音声コーパス構築法集めた動画の中から、　「単一話者の動画」　「合成音声による発話の動画」へ分類 JTubeSpeechにおける合成音と単一話者の分類結果 ( 発話数 ) データクレンジングにおける課題合成音声と単一話者の分類性能の低さ →本来話者照合に使用可能なデータを大きく削減

関連研究 ( 2 / 2 ) - なりすまし検出 05 ASVSpoof
話者照合のためのなりすまし音声検出の手法について比較評価するコンペティション 2015年から隔年で開催されている想定しているなりすまし音声 Text-To-Speech(TTS) Voice Conversion(VC) ASVSpoofにて想定されている攻撃フロー想定しているなりすまし攻撃論理アクセス入力系統に直接合成音声等を割り込ませる高い分類性能ものも報告された

提案手法 ( 1 / 2 ) 06 目的なりすまし検出システムを用いて実発話と合成音声の分類
　 → データクレンジング技術への応用合成音検出システムの評価フロー推定結果正解ラベル合成音声単一話者合成音声 20 5 単一話者 80 95 JTubeSpeechにおける合成音と単一話者の分類結果

提案手法 ( 2 / 2 ) - システム 07 特徴量
線形周波数ケプストラム係数 (LFCC) Constant Q Cepstral Coefficients (CQCC) 合成音検出モデル混合ガウスモデル (GMM) パラメータ数多くなく、学習データが少なくても安定した性能を得れる Light CNN (LCNN) 畳み込みニューラルネットワークに比べて軽量化比較的学習データ量が少なく済むシステム ASVSpoof 2019にて公開された LFCC-GMM CQCC-GMM LFCC-LCNN ベースラインシステムを使用 LFCC-GMM CQCC-GMM LFCC-LCNN 特徴量 LFCC CQCC LFCC モデル GMM GMM Light CNN

実験

元のデータセットホワイトノイズ音楽背景音なし ✔︎ ホワイトノイズ ✔︎ ✔︎ 音楽 ✔︎
✔︎ ホワイトノイズと音楽 ✔︎ ✔︎ ✔︎ データベース - 学習データ 08 ASVSpoof2019の論理アクセスのデータセットについて、表の条件でデータ拡張を行った学習データ①〜④を用意した

データベース - 検証データ 09 合成音声ソフトを使用して生成した合成音声と上記に、学習データと同じ条件で背景音を JTubeSpeechより手動でラベリングしたシミュレーションデータセット実発話のデータベースから任意に抜粋した実発話を混在させたもの
重畳した①~④ 実環境下のデータセット 100発話

評価尺度 EER：実発話棄却率と合成音声受入率が等価エラー率（EER）を採用等しい状態次元数 LFCC：20次元, CQCC：29次元 GMM混合数 64 サンプリング周波数
16kHz 背景音のSN比 20db 実験条件 10 学習条件

データ拡張（学習）なしホワイトノイズ音楽ホワイトノイズと音楽背景音（検証）なしホワイト
ノイズ音楽なしホワイトノイズ音楽なしホワイトノイズ音楽なしホワイトノイズ音楽 LFCC-GMM 4.3 32.9 45.2 3.9 30.2 44.3 3.0 29.6 44.1 2.6 28.1 42.7 CQCC-GMM 5.2 36.7 42.6 4.8 35.5 43.7 4.6 31.2 46.6 4.3 29.4 43.8 LFCC-LCNN 2.7 38.8 44.3 3.0 35.2 43.6 3.0 33.8 43.2 2.8 27.1 38.2 実験 ( 1 / 2 ) - シミュレーションによる検証データ 11

背景音による影響を強くうけた実験 ( 1 / 2 ) - シミュレーションによる検証データ 11
データ拡張（学習）なしホワイトノイズ音楽ホワイトノイズと音楽背景音（検証）なしホワイトノイズ音楽なしホワイトノイズ音楽なしホワイトノイズ音楽なしホワイトノイズ音楽 LFCC-GMM 4.3 32.9 45.2 3.9 30.2 44.3 3.0 29.6 44.1 2.6 28.1 42.7 CQCC-GMM 5.2 36.7 42.6 4.8 35.5 43.7 4.6 31.2 46.6 4.3 29.4 43.8 LFCC-LCNN 2.7 38.8 44.3 3.0 35.2 43.6 3.0 33.8 43.2 2.8 27.1 38.2

データ拡張（学習）なしホワイトノイズ音楽ホワイトノイズと音楽背景音（検証）なしホワイト
ノイズ音楽なしホワイトノイズ音楽なしホワイトノイズ音楽なしホワイトノイズ音楽 LFCC-GMM 4.3 32.9 45.2 3.9 30.2 44.3 3.0 29.6 44.1 2.6 28.1 42.7 CQCC-GMM 5.2 36.7 42.6 4.8 35.5 43.7 4.6 31.2 46.6 4.3 29.4 43.8 LFCC-LCNN 2.7 38.8 44.3 3.0 35.2 43.6 3.0 33.8 43.2 2.8 27.1 38.2 実験 ( 1 / 2 ) - シミュレーションによる検証データ 11 モデル別の比較：LCNNが比較的性能が良い

データ拡張（学習）なしホワイトノイズ音楽ホワイトノイズと音楽背景音除去（検証）なしあり
なしありなしありなしあり LFCC-GMM 39.2 20.3 38.7 19.8 36.1 18.2 32.8 17.6 CQCC-GMM 39.3 28.7 37.4 24.3 33.7 22.7 33.5 19.8 LFCC-LCNN 39.7 38.9 38.3 36.2 34.8 33.5 34.8 25.7 実験 ( 2 / 2 ) - 実環境下による検証データ 12

なしありなしありなしあり LFCC-GMM 39.2 20.3 38.7 19.8 36.1 18.2 32.8 17.6 CQCC-GMM 39.3 28.7 37.4 24.3 33.7 22.7 33.5 19.8 LFCC-LCNN 39.7 38.9 38.3 36.2 34.8 33.5 34.8 25.7 実験 ( 2 / 2 ) - 実環境下による検証データ 12 背景音を除去することでEERが下がる

なしありなしありなしあり LFCC-GMM 39.2 20.3 38.7 19.8 36.1 18.2 32.8 17.6 CQCC-GMM 39.3 28.7 37.4 24.3 33.7 22.7 33.5 19.8 LFCC-LCNN 39.7 38.9 38.3 36.2 34.8 33.5 34.8 25.7 LCNNと比較してGMMの性能が良い実験 ( 2 / 2 ) - 実環境下による検証データ 12

まとめ 13 まとめなりすまし検出のデータクレンジング技術への応用を検討 ASVSpoof2019にて公開されたシステムを用いて合成音と単一話者の分類を行った学習データのデータ拡張手段としてホワイトノイズ、音楽、ホワイトノイズと音楽を重畳背景音やデータの加工による影響を受けた今後の課題実環境下での使用のために、さらなる頑健性の検証最新のモデルを用いた検証

合成音検出を用いた話者照合のためのデータクレンジングの検討

合成音検出を用いた話者照合のためのデータクレンジングの検討

Kenzo Wada

Other Decks in Research

Featured

Transcript