Slide 1

Slide 1 text

任意話者間声質変換の 研究開発 開発本部 データテクノロジーグループ 石原達馬

Slide 2

Slide 2 text

自己紹介 - 経歴 - -2014/03 大学院で音声の研究 - 2014/04-2017/12 電機メーカーで信号処理・音声認識関連の研究開発 - Distant ASR - 2018/01- GREE データエンジニアリンググループ - 業務内容 - データエンジニアリング - 声質変換に関する研究開発 - 転声こえうらない - その他 - リモートワーク導入後は 1日の99%を リクライニングベッドの上で過ごす

Slide 3

Slide 3 text

国際学会に投稿した 声質変換の研究の話

Slide 4

Slide 4 text

背景 / アバター化社会 - アバター社会の到来 - 自分の見た目を自由に定義できる時代 - 自分の声も選べるようになるべき

Slide 5

Slide 5 text

背景 / ボイスチェンジャー - 声を別の人間の声に変換する技術 - 個人性が何で決まるかは難しい問題 - 高さと音色を個別に操作 - クラシカルな様式 - そうでないものもたくさんある 特に最近のEnd2Endとか - シンプルな方式ではルールベースで変換 - こえうらない - 複雑な変換をデータから学習 - 統計的声質変換 - 90年代あたりから存在

Slide 6

Slide 6 text

動機 / データ不足な状況下での統計的声質変換 - データを集める……どんなデータ? - 典型例: パラレルコーパス50文ほど - パラレルコーパス: 同じ文章を2人が読み上げた音声データセット - 日本でよく知られている例として ○ ○ ○ ○ ○。○がある - 典型例2: ノンパラレルコーパス数百文 - 少ないデータでも学習できるようにしたい - なりたい声はひとそれぞれ - いつでも十分な音声が集められるわけではない - なるべく少ないデータで動くようにしたい - One-shot 声質変換 - 1発話のみから学習

Slide 7

Slide 7 text

動作イメージ - 入力1 変換したい音声 - 入力2 変換先の話者の音声 (参照音声) - 出力 変換された音声 変換システム こんにちは おはよう こんにちは 同じ話者 同じコンテンツ 入力2 入力1 出力

Slide 8

Slide 8 text

今回やりたいこと 話者の情報が含まれている データはこれだけ ここからなんとか話者情報を取 り出したい こんにちは おはよう

Slide 9

Slide 9 text

今回やりたいこと k o N n i ch i w a o h a y o- 同じ音素があればそこを参考にする

Slide 10

Slide 10 text

今回やりたいこと k o N n i ch i w a o h a y o- なくてもなるべく近い音素を探して参考にする

Slide 11

Slide 11 text

今回やりたいこと k o N n i ch i w a o h a y o- こういうことができるモデルを作る k o N n i ch i w a o h a y o-

Slide 12

Slide 12 text

注意機構 k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention)

Slide 13

Slide 13 text

注意機構 k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention) k o N n i ch i w a o h a y o- Query Key, Value QueryとKeyが近い座標の Valueをとってくる ≒Key-Value Store

Slide 14

Slide 14 text

注意機構 k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention) k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- Query Key, Value QueryとKeyが近い座標の Valueをとってくる ≒Key-Value Store Query Key

Slide 15

Slide 15 text

注意機構 k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention) k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- Query Key, Value QueryとKeyが近い座標の Valueをとってくる ≒Key-Value Store

Slide 16

Slide 16 text

注意機構 k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention) k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- Query Key, Value QueryとKeyが近い座標の Valueをとってくる ≒Key-Value Store

Slide 17

Slide 17 text

注意機構 k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- - コンテンツに依存して情報を選択的に伝達したい - 注意機構 (Attention) k o N n i ch i w a o h a y o- k o N n i ch i w a o h a y o- Query Key, Value QueryとKeyが近い座標の Valueをとってくる ≒Key-Value Store

Slide 18

Slide 18 text

情報の混ぜ合わせ - 入力からQueryの他にコンテンツ情報を取り出す - 話者情報と混ぜ合わせて出力する - Encoder-Decoderフレームワークで実装 k o N n i ch i w a o h a y o- Content Query Key, Value Encoder Encoder Attention Decoder こんにちは

Slide 19

Slide 19 text

情報の混ぜ合わせ - 入力からQueryの他にコンテンツ情報を取り出す - 話者情報と混ぜ合わせて出力する - Encoder-Decoderフレームワークで実装 k o N n i ch i w a o h a y o- Content Query Key, Value Encoder Encoder Attention Decoder こんにちは このモデルを大量のデータで訓練して この操作を学習させる

Slide 20

Slide 20 text

学習時の入出力関係 - 1発話から学習する→1発話から学習できるようなモデルを学習する - メタラーニング的発想 - データのある話者ペアで学習しておいてデータのない組み合わせでも変換できるように - 学習データ - 入力1 変換元音声 - 入力2 参照音声 - 変換後の正解データ - これをいろいろな話者の組み合わせで学習させる - 期待される学習結果 - 未知の参照音声でも変換できる 変換システム 入力音声 参照音声 出力音声 正解音声 入力, 参照, 出力音声の組

Slide 21

Slide 21 text

学習結果 - 明示的に音素の情報を与えなくても 近い音素に注意を向けるネットワークが自動的に学習された - 誤差関数を最適化するにはそのほうが有利だったから

Slide 22

Slide 22 text

デコーダーの構成 / マルチ解像度処理 - 効率よく音声情報を扱うための構成 - UNet型の設計 - 解像度ごとにスキップ接続を入れる

Slide 23

Slide 23 text

評価 / まとめ / 今後の展望 - 評価 - 客観評価ではっきり優勢 - 提案手法のほうが正解に近い出力 - 主観評価でも音質の改善に効果ありという結果 - まとめ - 注意機構を使って話者情報を伝達 - パラレルコーパスで色々な話者の組み合わせの変換を学習 - 近い音素から情報をとってくる注意機構がラベル無しで学習できた - 今後の展望 - E2E方式への適用 - デコーダーの学習基準をかえて音質を上げたい

Slide 24

Slide 24 text

投稿した国際学会 - INTERSPEECH 2020 - 名前の通り音声系の国際学会 - 音声系ではICASSPと並びトップ会議とされる - 無事採択 - “Attention-Based Speaker Embeddings for One-Shot Voice Conversion” Tatsuma Ishihara and Daisuke Saito, INTERSPEECH2020 to appear - オンライン開催になったので移動の手間が省けた

Slide 25

Slide 25 text

謝辞 / 投稿までに利用できたリソース - p2.xlarge 2台 - 業務時間の8割*半年くらい - その他資源 - PyTorch - JVS Corpus - パラレルコーパスが 100人分 - クラウドソーシング (主観評価) - 技術顧問 (東京大学 齋藤先生) - 月1のミーティングでの議論 - 論文指導 - 偶発的な議論数回 - VR Lab 白井 - 明治大学 森勢先生