$30 off During Our Annual Pro Sale. View Details »

音声B紹介ポスター@音響学会ビギナーズセミナー

 音声B紹介ポスター@音響学会ビギナーズセミナー

Taiki Nakamura

March 08, 2022
Tweet

More Decks by Taiki Nakamura

Other Decks in Technology

Transcript

  1. 音声B 分野紹介
    東大院・情報理工 中村泰貴

    View Slide

  2. 音声B(音声合成・音声変換)
    ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 1
    音声合成とは
    音声を人工的に作り出す技術

    View Slide

  3. 音声合成に関する代表的な研究範囲
    ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 2
    どんな情報からどんな音声を生成するかで分野が細分化
    テキスト音声合成(Text-to-Speech: TTS)
    音声変換(Voice Conversion: VC)
    歌声合成(Singing Voice Synthesis)
    マルチモーダル音声合成
    こんにちは TTS
    VC
    合成モデル
    歌詞 +
    合成モデル
    こんにちは
    口唇情報に基づく音声合成(Lip-to-Speech)
    合成モデル
    唇の動き
    脳波信号に基づく音声合成(EEG-to-Speech)
    合成モデル

    View Slide

  4. 音声の持つ情報
    ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 3
    パラ言語情報
    話し手が意図的に付与するテキスト化できない情報(感情等)
    言語情報
    何を話しているかといったテキスト化できる情報
    非言語情報
    非意図的に付与されるテキスト化できない情報(声質等)
    音声変換では入力された音声のこれらの一部を変換する技術

    View Slide

  5. 音声変換の代表的な研究範囲
    ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 4
    声質変換(名探偵コナンの蝶ネクタイ型変成器)
    非言語情報(声質など)のみを変換
    感情変換
    パラ言語情報(感情など)のみを変換
    音韻変換
    言語情報(発言内容)のみを変換
    /i/ /u/

    View Slide

  6. 音声合成に関するサービス/製品
    ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 5
    テキスト音声合成 [1] 音声変換 [2]
    歌声合成 [3]
    [1] Coefont 社 homepage より, https://coefont.cloud/
    [2] AIで声質を“美少⼥”化⾳声変換サービス「七声ニーナ」、DeNAが試験提供, https://www.itmedia.co.jp/news/articles/2105/12/news123.html
    [3] NEUTRINO homepage より, https://n3utrino.work/

    View Slide

  7. 近年のテキスト音声合成技術
    ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 6
    こんにちは 言語特徴量
    抽出
    音声特徴量
    予測
    音声生成
    1995 〜 2016年:複数要素から構成される音声合成システム
    こんにちは 音声特徴量予測 + 音声生成
    2017年〜:アテンション機構による End-to-End 音声合成
    こんにちは
    2019年〜:音素継続長機構による End-to-End 音声合成
    音声特徴量予測 + 音声生成
    低音質
    個別に学習させる必要
    並列計算不可
    合成失敗の場合あり
    並列計算可能 -> 高速
    合成失敗の場合なし

    View Slide

  8. 近年の声質変換技術
    ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 7
    1対1音声変換(One-to-One VC)
    VC
    (任意)対1音声変換(Any-to-One VC)
    VC
    入出力いずれも学習データに含まれる話者 入力が学習データに含まれない話者
    入力された音声から ①話した内容 と ②韻律 を抽出 & 声質は取り除く
    *声質を取り除きつつ①と②を抽出する VC を学習するのは困難
    限られたデータ
    事前に大規模データで自己教師あり学習した特徴量を応用し * を実現

    View Slide

  9. 近年の声質変換技術
    ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 8
    自己教師あり学習
    特徴抽出
    大量の音声データ
    VC
    特徴抽出
    大人数の話者が含まれる大規模データを用いて波形から
    話した内容と韻律を内包する情報を抽出するよう学習
    音声を用いた 様々な技術へ応用 することが可能
    Any-to-One VC
    自己教師あり学習で得られる特徴量を導入することで高品質化

    View Slide

  10. まとめ
    ⽇本⾳響学会2022年春季研究発表会 ビギナーズセミナー 9
    ■ 本スライドの内容
    音声合成 & 音声変換とは
    音声合成 & 音声変換の代表的な研究範囲
    音声合成 & 音声変換のサービス/製品
    近年の音声合成 & 音声変換
    ■ おまけ(実際に手を動かしてみたい人向けのツールやデータ)
    日本語テキスト音声合成向けデータセット:JSUT (10 hours, 1 speaker, studio recording)
    日本語音声変換向けデータセット:JVS(24 hours, 100 speakers, studio recording)
    日本語歌声合成データセット:東北きりたんコーパス(50 songs, 1 singer)
    End-to-End 音声合成(変換)ツール:ESPnet, https://github.com/espnet/espnet
    統計的パラメトリック音声合成ツール: nnmnkwii, https://github.com/r9y9/nnmnkwii

    View Slide