Upgrade to Pro — share decks privately, control downloads, hide ads and more …

合成音検出を用いた話者照合のための データクレンジングの検討

合成音検出を用いた話者照合のための データクレンジングの検討

本研究では, なりすまし音声検出として提案されている合成音検出を実環境で収録された音声データのクレンジング技術に応用することについて検討する. 近年, 大規模な音声コーパスを構築する手段として, インターネット上の様々な音声データを自動収集する手段が広く用いられている. インターネット上の音声データは背景雑音や音楽など様々な音が重畳されており, 単純な音声区間検出などでは目的の音声コーパスを作成することは難しい. そのため, 収集目的に対して適切な動画だけを選択して音声コーパスを構築するための様々なデータクレンジング技術が適用されている. 話者照合のための音声コーパス構築に必要なデータクレンジング技術として, 単一話者による実発声であることの判定がある. しかし, 従来法では合成音声と単一話者において分類精度が不十分であった. そこで本研究では, なりすまし音声検出を合成音声と実発話の分類を行うデータクレンジング技術の一つとして応用することを検討した. 実験では, シミュレーションによる合成音声と実発話の音声データ及び, 実環境下で収集された音声データの二つを評価データとして用い合成音検出の評価を行った. 実験結果より, なりすまし音声検出のデータクレンジング技術としての性能と今後の課題について報告する.

Kenzo Wada

March 15, 2023
Tweet

Other Decks in Research

Transcript

  1. 合成音検出を用いた話者照合のための
    データクレンジングの検討
    和田 賢造, 塩田 さやか, 貴家 仁志
    東京都立大学
    2023年3⽉1⽇

    View Slide

  2. 研究背景 ( 1 / 2 ) - 話者照合
    02
    話者照合
    人間の音声を生体情報として用いる認証技術
    話者照合の現状
    深層学習を用いた手法が多く提案されている
    従来法と比較して、性能が向上した。
    性能が学習データ量に大きく依存している
    話者照合のための音声コーパスの現状
    大規模なデータは言語に依存している                              
    → データ量が限定される言語において、データ量を確保するためにデータクレンジング技術が重要

    View Slide

  3. なりすまし検出の
    データクレンジング技術への応用
    研究背景 ( 2 / 2 ) - なりすまし検出
    03
    なりすまし検出
    話者照合においてなりすまし音声を検出するもの
    なりすまし音声:
    近年、高い性能を得られるようになってきている
    合成音声などを用いて登録話者本人になりすましたもの
    話者照合の音声コーパス構築における課題


    合成音声と実発話の分類性能の低さ

    View Slide

  4. 推定結果
    正解ラベル 合成音声 単一話者
    合成音声 20 5
    単一話者 80 95
    関連研究 ( 1 / 2 ) - 話者照合用の音声コーパス構築法
    04
    JTubeSpeech
    YouTube の動画とその文字起こしデータを使用
    した日本語音声コーパス
    話者照合用の音声コーパス構築法
    集めた動画の中から、
     「単一話者の動画」
     「合成音声による発話の動画」へ分類
    JTubeSpeechにおける合成音と単一話者の分類結果
    ( 発話数 )
    データクレンジングにおける課題
    合成音声と単一話者の分類性能の低さ
    →本来話者照合に使用可能なデータを大きく削減

    View Slide

  5. 関連研究 ( 2 / 2 ) - なりすまし検出
    05
    ASVSpoof
    話者照合のためのなりすまし音声検出の手法
    について比較評価するコンペティション
    2015年から隔年で開催されている
    想定しているなりすまし音声
    Text-To-Speech(TTS)
    Voice Conversion(VC)
    ASVSpoofにて想定されている攻撃フロー
    想定しているなりすまし攻撃
    論理アクセス
    入力系統に直接合成音声等を割り込ませる
    高い分類性能ものも報告された

    View Slide

  6. 提案手法 ( 1 / 2 )
    06
    目的
    なりすまし検出システムを用いて
    実発話と合成音声の分類
      → データクレンジング技術への応用
    合成音検出システムの評価フロー
    推定結果
    正解ラベル 合成音声 単一話者
    合成音声 20 5
    単一話者 80 95
    JTubeSpeechにおける合成音と単一話者の分類結果

    View Slide

  7. 提案手法 ( 2 / 2 ) - システム
    07
    特徴量
    線形周波数ケプストラム係数 (LFCC)
    Constant Q Cepstral Coefficients (CQCC)
    合成音検出モデル
    混合ガウスモデル (GMM)
    パラメータ数多くなく、学習データが少
    なくても安定した性能を得れる
    Light CNN (LCNN)
    畳み込みニューラルネットワークに比べ
    て軽量化
    比較的学習データ量が少なく済む
    システム
    ASVSpoof 2019にて公開された
    LFCC-GMM
    CQCC-GMM
    LFCC-LCNN
    ベースラインシステムを使用
    LFCC-GMM CQCC-GMM LFCC-LCNN
    特徴量 LFCC CQCC LFCC
    モデル GMM GMM Light CNN

    View Slide

  8. 実験

    View Slide

  9. 元のデータセット ホワイトノイズ 音楽
    背景音なし ✔︎
    ホワイトノイズ ✔︎ ✔︎
    音楽 ✔︎ ✔︎
    ホワイトノイズと音楽 ✔︎ ✔︎ ✔︎
    データベース - 学習データ
    08
    ASVSpoof2019の論理アクセスのデータセットについて、
    表の条件でデータ拡張を行った学習データ①〜④を用意した

    View Slide

  10. データベース - 検証データ
    09
    合成音声ソフトを使用して生成した合成音声と
    上記に、学習データと同じ条件で背景音を
    JTubeSpeechより手動でラベリングした
    シミュレーションデータセット
    実発話のデータベースから任意に抜粋した
    実発話を混在させたもの
    重畳した①~④
    実環境下のデータセット
    100発話

    View Slide

  11. 評価尺度
    EER:実発話棄却率と合成音声受入率が
    等価エラー率(EER)を採用
    等しい状態
    次元数
    LFCC:20次元,
    CQCC:29次元
    GMM混合数 64
    サンプリング周波数 16kHz
    背景音のSN比 20db
    実験条件
    10
    学習条件

    View Slide

  12. データ拡張
    (学習)
    なし ホワイトノイズ 音楽 ホワイトノイズと音楽
    背景音
    (検証)
    なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽
    LFCC-GMM 4.3 32.9 45.2 3.9 30.2 44.3 3.0 29.6 44.1 2.6 28.1 42.7
    CQCC-GMM 5.2 36.7 42.6 4.8 35.5 43.7 4.6 31.2 46.6 4.3 29.4 43.8
    LFCC-LCNN 2.7 38.8 44.3 3.0 35.2 43.6 3.0 33.8 43.2 2.8 27.1 38.2
    実験 ( 1 / 2 ) - シミュレーションによる検証データ
    11

    View Slide

  13. データ拡張
    (学習)
    なし ホワイトノイズ 音楽 ホワイトノイズと音楽
    背景音
    (検証)
    なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽
    LFCC-GMM 4.3 32.9 45.2 3.9 30.2 44.3 3.0 29.6 44.1 2.6 28.1 42.7
    CQCC-GMM 5.2 36.7 42.6 4.8 35.5 43.7 4.6 31.2 46.6 4.3 29.4 43.8
    LFCC-LCNN 2.7 38.8 44.3 3.0 35.2 43.6 3.0 33.8 43.2 2.8 27.1 38.2
    実験 ( 1 / 2 ) - シミュレーションによる検証データ
    11

    View Slide

  14. 背景音による影響を強くうけた
    実験 ( 1 / 2 ) - シミュレーションによる検証データ
    11
    データ拡張
    (学習)
    なし ホワイトノイズ 音楽 ホワイトノイズと音楽
    背景音
    (検証)
    なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽
    LFCC-GMM 4.3 32.9 45.2 3.9 30.2 44.3 3.0 29.6 44.1 2.6 28.1 42.7
    CQCC-GMM 5.2 36.7 42.6 4.8 35.5 43.7 4.6 31.2 46.6 4.3 29.4 43.8
    LFCC-LCNN 2.7 38.8 44.3 3.0 35.2 43.6 3.0 33.8 43.2 2.8 27.1 38.2

    View Slide

  15. データ拡張
    (学習)
    なし ホワイトノイズ 音楽 ホワイトノイズと音楽
    背景音
    (検証)
    なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽 なし
    ホワイト
    ノイズ
    音楽
    LFCC-GMM 4.3 32.9 45.2 3.9 30.2 44.3 3.0 29.6 44.1 2.6 28.1 42.7
    CQCC-GMM 5.2 36.7 42.6 4.8 35.5 43.7 4.6 31.2 46.6 4.3 29.4 43.8
    LFCC-LCNN 2.7 38.8 44.3 3.0 35.2 43.6 3.0 33.8 43.2 2.8 27.1 38.2
    実験 ( 1 / 2 ) - シミュレーションによる検証データ
    11
    モデル別の比較:LCNNが比較的性能が良い

    View Slide

  16. データ拡張
    (学習)
    なし ホワイトノイズ 音楽 ホワイトノイズと音楽
    背景音除去
    (検証)
    なし あり なし あり なし あり なし あり
    LFCC-GMM 39.2 20.3 38.7 19.8 36.1 18.2 32.8 17.6
    CQCC-GMM 39.3 28.7 37.4 24.3 33.7 22.7 33.5 19.8
    LFCC-LCNN 39.7 38.9 38.3 36.2 34.8 33.5 34.8 25.7
    実験 ( 2 / 2 ) - 実環境下による検証データ
    12

    View Slide

  17. データ拡張
    (学習)
    なし ホワイトノイズ 音楽 ホワイトノイズと音楽
    背景音除去
    (検証)
    なし あり なし あり なし あり なし あり
    LFCC-GMM 39.2 20.3 38.7 19.8 36.1 18.2 32.8 17.6
    CQCC-GMM 39.3 28.7 37.4 24.3 33.7 22.7 33.5 19.8
    LFCC-LCNN 39.7 38.9 38.3 36.2 34.8 33.5 34.8 25.7
    実験 ( 2 / 2 ) - 実環境下による検証データ
    12
    背景音を除去することでEERが下がる

    View Slide

  18. データ拡張
    (学習)
    なし ホワイトノイズ 音楽 ホワイトノイズと音楽
    背景音除去
    (検証)
    なし あり なし あり なし あり なし あり
    LFCC-GMM 39.2 20.3 38.7 19.8 36.1 18.2 32.8 17.6
    CQCC-GMM 39.3 28.7 37.4 24.3 33.7 22.7 33.5 19.8
    LFCC-LCNN 39.7 38.9 38.3 36.2 34.8 33.5 34.8 25.7
    実験 ( 2 / 2 ) - 実環境下による検証データ
    12
    背景音を除去することでEERが下がる

    View Slide

  19. データ拡張
    (学習)
    なし ホワイトノイズ 音楽 ホワイトノイズと音楽
    背景音除去
    (検証)
    なし あり なし あり なし あり なし あり
    LFCC-GMM 39.2 20.3 38.7 19.8 36.1 18.2 32.8 17.6
    CQCC-GMM 39.3 28.7 37.4 24.3 33.7 22.7 33.5 19.8
    LFCC-LCNN 39.7 38.9 38.3 36.2 34.8 33.5 34.8 25.7
    LCNNと比較してGMMの性能が良い
    実験 ( 2 / 2 ) - 実環境下による検証データ
    12

    View Slide

  20. まとめ
    13
    まとめ
    なりすまし検出のデータクレンジング技術への応用を検討
    ASVSpoof2019にて公開されたシステムを用いて合成音と単一話者の分類を行った
    学習データのデータ拡張手段としてホワイトノイズ、音楽、ホワイトノイズと音楽を重畳
    背景音やデータの加工による影響を受けた
    今後の課題
    実環境下での使用のために、さらなる頑健性の検証
    最新のモデルを用いた検証

    View Slide