Upgrade to Pro — share decks privately, control downloads, hide ads and more …

任意話者間声質変換の研究開発

gree_tech
September 18, 2020

 任意話者間声質変換の研究開発

GREE Tech Conference 2020 で発表された資料です。
https://techcon.gree.jp/2020/session/Session-3

gree_tech

September 18, 2020
Tweet

More Decks by gree_tech

Other Decks in Technology

Transcript

  1. 自己紹介 - 経歴 - -2014/03 大学院で音声の研究 - 2014/04-2017/12 電機メーカーで信号処理・音声認識関連の研究開発 -

    Distant ASR - 2018/01- GREE データエンジニアリンググループ - 業務内容 - データエンジニアリング - 声質変換に関する研究開発 - 転声こえうらない - その他 - リモートワーク導入後は 1日の99%を リクライニングベッドの上で過ごす
  2. 背景 / ボイスチェンジャー - 声を別の人間の声に変換する技術 - 個人性が何で決まるかは難しい問題 - 高さと音色を個別に操作 -

    クラシカルな様式 - そうでないものもたくさんある 特に最近のEnd2Endとか - シンプルな方式ではルールベースで変換 - こえうらない - 複雑な変換をデータから学習 - 統計的声質変換 - 90年代あたりから存在
  3. 動機 / データ不足な状況下での統計的声質変換 - データを集める……どんなデータ? - 典型例: パラレルコーパス50文ほど - パラレルコーパス:

    同じ文章を2人が読み上げた音声データセット - 日本でよく知られている例として ◦ ◦ ◦ ◦ ◦。◦がある - 典型例2: ノンパラレルコーパス数百文 - 少ないデータでも学習できるようにしたい - なりたい声はひとそれぞれ - いつでも十分な音声が集められるわけではない - なるべく少ないデータで動くようにしたい - One-shot 声質変換 - 1発話のみから学習
  4. 動作イメージ - 入力1 変換したい音声 - 入力2 変換先の話者の音声 (参照音声) - 出力

    変換された音声 変換システム こんにちは おはよう こんにちは 同じ話者 同じコンテンツ 入力2 入力1 出力
  5. 今回やりたいこと k o N n i ch i w a

    o h a y o- 同じ音素があればそこを参考にする
  6. 今回やりたいこと k o N n i ch i w a

    o h a y o- なくてもなるべく近い音素を探して参考にする
  7. 今回やりたいこと k o N n i ch i w a

    o h a y o- こういうことができるモデルを作る k o N n i ch i w a o h a y o-
  8. 注意機構 k o N n i ch i w a

    o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention)
  9. 注意機構 k o N n i ch i w a

    o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention) k o N n i ch i w a o h a y o- Query Key, Value QueryとKeyが近い座標の Valueをとってくる ≒Key-Value Store
  10. 注意機構 k o N n i ch i w a

    o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention) k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- Query Key, Value QueryとKeyが近い座標の Valueをとってくる ≒Key-Value Store Query Key
  11. 注意機構 k o N n i ch i w a

    o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention) k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- Query Key, Value QueryとKeyが近い座標の Valueをとってくる ≒Key-Value Store
  12. 注意機構 k o N n i ch i w a

    o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention) k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- Query Key, Value QueryとKeyが近い座標の Valueをとってくる ≒Key-Value Store
  13. 注意機構 k o N n i ch i w a

    o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention) k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- Query Key, Value QueryとKeyが近い座標の Valueをとってくる ≒Key-Value Store
  14. 情報の混ぜ合わせ - 入力からQueryの他にコンテンツ情報を取り出す - 話者情報と混ぜ合わせて出力する - Encoder-Decoderフレームワークで実装 k o N

    n i ch i w a o h a y o- Content Query Key, Value Encoder Encoder Attention Decoder こんにちは このモデルを大量のデータで訓練して この操作を学習させる
  15. 学習時の入出力関係 - 1発話から学習する→1発話から学習できるようなモデルを学習する - メタラーニング的発想 - データのある話者ペアで学習しておいてデータのない組み合わせでも変換できるように - 学習データ -

    入力1 変換元音声 - 入力2 参照音声 - 変換後の正解データ - これをいろいろな話者の組み合わせで学習させる - 期待される学習結果 - 未知の参照音声でも変換できる 変換システム 入力音声 参照音声 出力音声 正解音声 入力, 参照, 出力音声の組
  16. 評価 / まとめ / 今後の展望 - 評価 - 客観評価ではっきり優勢 -

    提案手法のほうが正解に近い出力 - 主観評価でも音質の改善に効果ありという結果 - まとめ - 注意機構を使って話者情報を伝達 - パラレルコーパスで色々な話者の組み合わせの変換を学習 - 近い音素から情報をとってくる注意機構がラベル無しで学習できた - 今後の展望 - E2E方式への適用 - デコーダーの学習基準をかえて音質を上げたい
  17. 投稿した国際学会 - INTERSPEECH 2020 - 名前の通り音声系の国際学会 - 音声系ではICASSPと並びトップ会議とされる - 無事採択

    - “Attention-Based Speaker Embeddings for One-Shot Voice Conversion” Tatsuma Ishihara and Daisuke Saito, INTERSPEECH2020 to appear - オンライン開催になったので移動の手間が省けた
  18. 謝辞 / 投稿までに利用できたリソース - p2.xlarge 2台 - 業務時間の8割*半年くらい - その他資源

    - PyTorch - JVS Corpus - パラレルコーパスが 100人分 - クラウドソーシング (主観評価) - 技術顧問 (東京大学 齋藤先生) - 月1のミーティングでの議論 - 論文指導 - 偶発的な議論数回 - VR Lab 白井 - 明治大学 森勢先生