Interspeech2023 参加報告

国際会議 Interspeech2023 参加報告第258回自然言語処理・第149回音声言語情報処理合同研究発表会三井健太郎（rinna）松浦孝平（NTT 人間研）

1 発表者紹介 ◼ 名前: 三井健太郎 ◼ 所属: rinna株式会社 ◆
Research ◼ 主な研究分野: ◆ 音声合成 ◆ 音声対話 ◆ マルチモーダル生成 ◼ 名前: 松浦孝平 ◼ 所属: 日本電信電話株式会社（NTT） ◆ 人間情報研究所 ◼ 主な研究分野: ◆ 音声認識 ◆ 音声要約

2 Interspeech の概要 ◼ Interspeech とは ◆ ISCA (International Speech
Communication Association) によって主催される “音声言語処理の科学と技術に関する世界最大かつ最も包括的な会議” ◆ 参考: https://interspeech2023.org/ ◼ Interspeech2023 について ◆ 会場: アイルランド・ダブリン市（現地開催のみ） ◆ 期間: 2023年８月20日（日）- ８月24日（木） ◆ 採択率: 49.7%（1,097/2,207） ◆ 論文集: https://www.isca-speech.org/archive/interspeech_2023/index.html › 98 technical sessions and 9 special sessions

3 Interspeech の隆盛 ◼ Interspeech への投稿数は増加傾向（図１） ◆ 特にこの４，５年の投稿数が大幅に増加（1500件 → 2200件）
◆ Acceptance Rate は緩やかに減少（60% → 50%） 2500 2000 1500 1000 500 0 100 80 60 40 20 0 # papers % # submitted # accepted % acceptance 図１: 投稿数と accept された論文の数の推移（Opening Ceremony の資料を再現）

4 発表内容のトレンド ◼ Interspeech2023 の発表タイトル 1,150 件の word cloud は図２の通り
◆ 目立つ研究分野 › (Automatic) Speech Recognition › Emotion Recognition › Speech Enhancement ◆ 目立つ手法 › Self-Supervised (speech representation) › End-to-End (※ASR以外も多い) ◆ その他目立つキーワード › Low Resource › Cross Lingual › Audio-Visual 図２: Interspeech2023 における発表タイトルの word cloud

◆ 目立つ研究分野 › (Automatic) Speech Recognition › Emotion Recognition › Speech Enhancement ◆ 目立つ手法 › Self-Supervised (speech representation) › End-to-End (※ASR以外も多い) ◆ その他目立つキーワード › Low Resource › Cross Lingual › Audio-Visual 図２: Interspeech2023 における発表タイトルの word cloud

◆ 目立つ研究分野 › (Automatic) Speech Recognition › Emotion Recognition › Speech Enhancement ◆ 目立つ手法 › Self-Supervised (speech representation) › End-to-End (※ASR以外も多い) ◆ その他目立つキーワード › Low Resource › Cross Lingual › Audio-Visual ➢ 皆さまもトレンドを解釈してみてください図２: Interspeech2023 における発表タイトルの word cloud

7 ここまでのまとめ ◼ Interspeech2023 がアイルランド・ダブリン市で開催された ◼ Interspeech は年々盛り上がりを見せている ◆ 特にここ４，５年の投稿数が大幅に増加（1500件
→ 2200件） ◼ 会議の傾向 ◆ 音声認識，感情認識，音声強調に関する研究が支配的 › あくまでこれが多いというだけで，これら以外の分野ももちろん活発 ◆ Self-supervised learning を用いた研究が多い ➢ 残りの時間は，発表者２名がそれぞれ気になった発表を紹介します

9 Copyright 2023 rinna Co., Ltd. INTERSPEECH2023に参加してみて ◼ 会議の概要 ◆
4年ぶりの完全現地開催（’20：完全オンライン、’21, ’22：ハイブリッド） ◆ 口頭発表は7会場、ポスター発表は1つのホールで実施 › ＋ポスター発表が1会場にまとまっており、思わぬ発見があって良かった › － Speech SynthesisとSpeech Codingが同時間帯など、聞きたい口頭発表が聞けないことも ◆ 自身はポスター発表（2時間） › 前後の休憩がゆとりをもって設けられており、活発な議論ができた印象 ◼ 音声合成寄りのトレンド ◆ 純粋な音質向上から、多言語・多話者、few/zero-shot、表現力向上といった応用へ ◆ 手法としては拡散モデルや自己教師あり学習の導入が多数 ◆ パラメータ削減、高速化などの実用的な方向性も見られた

10 Copyright 2023 rinna Co., Ltd. 本日紹介するトピック ◼ 拡散モデル ×
表現豊かな音声合成 ◼ Parameter-Efficient Fine-Tuning × few-shot音声合成

12 Copyright 2023 rinna Co., Ltd. Diverse and Expressive Speech
Prosody Prediction with Denoising Diffusion Probabilistic Model (1/7: 概要) ◼ 著者 ◆ Xiang Li, Songxiang Liu, Max W. Y. Lam, Zhiyong Wu, Chao Weng, Helen Meng (清華大学他) ◼ 背景 ◆ 韻律パラメータ (継続長・ピッチ・音量) は音声の表現力に影響大 ◆ 二乗誤差最小化に基づく韻律パラメータの学習は表現豊かな音声合成に十分か？ ◼ 本研究の概要 ◆ 拡散モデルを用いて韻律パラメータをモデル化し、より実際の音声に近い分布を獲得 ◆ 合成音声の自然性・表現力の豊かさを改善

Prosody Prediction with Denoising Diffusion Probabilistic Model (2/7: 背景①) ◼ 本研究で扱う音声合成モデル: FastSpeech 2 [Ren+, ICLR2021] ◆ 音素列からメルスペクトログラムを予測する非自己回帰モデル › Encoder/DecoderはTransformer Encoderに近い構造 › メルスペクトログラムから音声波形への変換は HiFi-GAN [Kong+, NeurIPS2020] を利用 ◆ テキスト・音声の1対多関係をモデル化する工夫 › 2層の畳み込み層を持つVariance Adaptorにより韻律パラメータ (継続長・ピッチ・音量) を予測 › 本研究では各音素について平均をとった値を利用 (=FastPitch [Łańcucki, ICASSP2021] に近い) ◆ 学習基準 › ℒ = ෝ 𝒚 − 𝒚 2 + log(෡ 𝒅) − log(𝒅) 2 + ෝ 𝒑 − 𝒑 2 + ො 𝒆 − 𝒆 2 Variance Adaptor 3 1 2 i a h 𝒚 𝒅 𝒆 𝒑

Prosody Prediction with Denoising Diffusion Probabilistic Model (3/7: 背景②) ◼ Denoising Diffusion Probabilistic Model (DDPM) [Ho+, NeurIPS2020] ◆ データ𝐱0 の分布𝑝(𝐱0 )を学習する生成モデルの一種 ◆ データにノイズを付加する過程 (forward process) は以下のように表現可能 › 𝐱𝑡 𝐱0 , 𝝐 = ത 𝛼𝑡 𝐱0 + 1 − ത 𝛼𝑡 𝝐 (𝝐~𝒩 𝟎, 𝐈 , ത 𝛼𝑡 は事前に定められた定数から計算可能) ◆ ノイズから元のデータを復元する過程 (reverse process) を学習 › DDPMでは、データに付加されたノイズ𝝐を予測するようなネットワーク𝝐𝜃 (𝐱𝑡 , 𝑐, 𝑡)を学習 ℒ = 𝝐 − 𝝐𝜃 (𝐱𝑡 , 𝑐, 𝑡) 2 (𝑐は条件付け特徴量) › 推論時は、𝑡 = 𝑇, … , 1についてreverse processを辿ることでデータの生成が可能 𝐱𝑡−1 = 1 𝛼𝑡 𝐱𝑡 − 𝛽𝑡 1−ഥ 𝛼𝑡 𝝐𝜃 (𝐱𝑡 , 𝑐, 𝑡)) + 𝜎𝑡 𝐳 (𝐳~𝒩(𝟎, 𝐈))

Prosody Prediction with Denoising Diffusion Probabilistic Model (4/7: 手法) ◼ DDPMを用いた韻律パラメータ予測 ◆ 先述のネットワーク (Denoiser) 𝝐𝜃 (𝐱𝑡 , 𝑐, 𝑡) により継続長・ピッチ・音量をモデル化 ◆ 条件付け特徴量として学習済みFastSpeech 2のEncoder出力を利用

Prosody Prediction with Denoising Diffusion Probabilistic Model (5/7: 実験条件) ◼ データセット ◆ 内製の単一話者中国語データセット (28時間) を利用 ◆ 音素継続長の抽出には事前学習された音声認識器を利用 ◆ ピッチの抽出にはCrepe [Kim+, ICASSP2018]を利用 ◼ モデル ◆ Denoiserは10層のnon-causal WaveNet、𝑇 = 500に設定 ◼ 学習 ◆ TTS, 韻律予測器ともにRTX 2080Ti x 1枚で90万ステップ (後者は約31時間で完了)

Prosody Prediction with Denoising Diffusion Probabilistic Model (6/7: 結果) ◼ 韻律は改善した？自然性への影響は？ ◆ 特にピッチ・継続長のモデル化を改善、自然性も大きく向上 ◼ 表現力は豊かになった？ ◆ 平均から離れた値の予測確率が増したことにより実現 (点線の矩形部分で顕著)

Prosody Prediction with Denoising Diffusion Probabilistic Model (7/7: 関連研究) ◼ Comparing Normalizing Flows and Diffusion Models for Prosody and Acoustic Modelling in Text-to-Speech (Amazon他) ◆ 音響モデル (Mel Spectrogram Decoderに相当)、韻律モデル (Variance Adaptorに相当) についてL1/L2損失、Normalizing Flow、Diffusion Modelを比較 ◆ こちらでも特に韻律モデルでDiffusion Modelの有効性が示されている

20 Copyright 2023 rinna Co., Ltd. Adapter-Based Extension of Multi-Speaker
Text-To-Speech Model for New Speakers (1/7: 概要) ◼ 著者 ◆ Cheng-Ping Hsieh, Subhankar Ghosh, Boris Ginsburg (NVIDIA) ◼ 背景 ◆ 少ないデータで新しい話者の音声合成を実現したい (=few-shot音声合成) ◆ 従来のfull fine-tuningでは (1) 学習済みの話者を忘れる、(2) データがある程度必要 ◼ 本研究の概要 ◆ 省パラメータなモジュール (Adapter) を学習済み複数話者音声合成モデルに追加 ◆ (1) 学習済みの話者を忘れずに (2) 少ないデータで新しい話者への適応が可能

Text-To-Speech Model for New Speakers (2/7: 手法①) ◼ 本研究で扱う音声合成モデル: FastPitch [Łańcucki, ICASSP2021] ◆ Encoder, DecoderはFeed-Forward Transformer (FFT) blockが積み重なった構造 › 近年のParameter-Efficient Fine-Tuning (PEFT) 手法が適用可能

Text-To-Speech Model for New Speakers (3/7: 手法②) ◼ 4種類のAdapterを比較 1. Vanilla Adapter [Houlsby+, ICML2019] ◆ 各層の最後に追加 ◆ FFT Block以外にも適用可能 2. Low-Rank Adaptation (LoRA) [Hu+, ICLR2021] ◆ Attentionのquery, key行列に追加 3. Prefix Tuning [Li&Liang, ACL2021] ◆ Attentionのquery, key自体に結合 4. BitFit [Zaken+, ACL2022] ◆ 全モジュールのBias項のみ学習

Text-To-Speech Model for New Speakers (4/7: 実験条件) ◼ データセット ◆ LibriTTS [Zen+, INTERSPEECH2019] (英語の書き起こし+音声) ◆ train-clean-360から100話者 (42.5時間) を利用して複数話者TTS学習 ◆ test-cleanから男女5話者、各15分を利用して話者適応 ◼ 学習 ◆ 複数話者音声合成モデルはV100 x 8枚で500エポック ◆ 話者適応はA5000 x 1枚で1500ステップ (10~15分程度で完了)

Text-To-Speech Model for New Speakers (5/7: 結果①) ◼ どのAdapterがよい？ ◆ Vanilla adapterが高性能 ◆ パラメータ数7%でFull fine-tuningと同等 Speaker Embedding Cosine Similarity: 話者類似性 Conditional Frechet Speech Distance: 音質 Pitch/Duration MSE: ピッチ/継続長の正確性

Text-To-Speech Model for New Speakers (6/7: 結果②) ◼ どの程度データ量が必要？ ◆ 5分で (主観的には) 十分 ◼ Out-of-Domainデータにも適応できる？ ◆ VCTK, HiFi-TTSといった他データセットでもfull fine-tuningと同等の品質 Mean Opinion Score: 自然性 (Speaker) Similarity Mean Opinion Score: 話者類似性

Text-To-Speech Model for New Speakers (7/7: 関連研究) ◼ UnitSpeech: Speaker-adaptive Speech Synthesis with Untranscribed Data (ソウル大学) ◆ 自己教師あり学習 (SSL) × few-shot音声合成の研究 ◆ テキストの代わりに離散SSL特徴量を用いることで書き起こしのない音声のみから話者適応を実現

27 Copyright 2023 rinna Co., Ltd. まとめ ◼ 以下の発表を紹介 1.
Diverse and Expressive Speech Prosody Prediction with Denoising Diffusion Probabilistic Model › 拡散モデルの活用により、実データに近い韻律パラメータを獲得 › 合成音声の自然性や表現力の向上に寄与 2. Adapter-Based Extension of Multi-Speaker Text-To-Speech Model for New Speakers › 音声合成の話者適応タスクにおいて、4種類のPEFT手法を比較 › Vanilla Adaptorが特に有効であり、7%のパラメータでfull fine-tuningとほぼ同等の性能

29 Copyright 2023 NTT CORPORATION はじめに ◼ ここからは音声言語理解分野（SLU）について紹介 ◆ SLU:音声の内容を理解する技術
◆ 意図認識, 固有表現抽出, 音声翻訳など ◼ IS2023 における SLU 分野のトレンド ◆ SLU に関する６セッション（66件）の発表タイトルをword cloud 化すると右図B-1 ◆ 研究分野のトレンド › Speech Translation, Multi-lingual, Audio-Visual, Low resource/zero shot, ... ◆ 手法のトレンド › Pre-training, Knowledge distillation, ... 図B-1: SLUに関する発表タイトルの word cloud

30 Copyright 2023 NTT CORPORATION 今日紹介する発表 ◼ 音声言語理解系のセッションから以下の２つの発表を紹介 1. How
ChatGPT is Robust for Spoken Language Understanding? 2. Investigating Pre-trained Audio Encoders in the Low-Resource Condition

31 Copyright 2023 NTT CORPORATION ◼ タイトル ◆ How ChatGPT
is Robust for Spoken Language Understanding? ◼ 著者 ◆ Guangpeng Li, Lu Chen, Kai Yu（上海交通大学） ◼ 概要 ◆ ChatGPT は、音声言語理解（SLU）タスクをどの程度解けるか？ ◼ 選んだ理由 ◆ 流行りの ChatGPT を使用している › ChatGPT 公開: 2022/11/20 vs. Interspeech 投稿締切: 2023/03/08 ◆ ちなみに，title/abstract 内で ChatGPT/LLM の使用を明示しているのは８件 › SLU（２），評価の補助（２），実用的なツール（２）, TTS（１）, ASR（１） How ChatGPT is Robust for Spoken Language Understanding? (1/8: 概要)

32 Copyright 2023 NTT CORPORATION ◼ 大規模言語モデル（LLM）の台頭 ◆ 大規模言語モデル: ChatGPT,
PaLM, OPT-175B, ... ◆ 様々なタスクにおいて zero shot にも関わらず専用モデルと同等以上の精度 ? 話し言葉（音声認識誤りを含む）に対しても LLM は頑健に動作するだろうか？ ◆ 普通 LLM は大量の written text で学習される › と主張しているが，実際は不明（ChatGPT の学習データは非公開） ➢ 音声認識誤りを含む様々な SLU タスクを ChatGPT に解かせて精度を測定 How ChatGPT is Robust for Spoken Language Understanding? (2/8: 背景)

33 Copyright 2023 NTT CORPORATION ◼ 使用するモデル ◆ ChatGPT（3.5） ›
テキストとプロンプト（後述）を与え，返答を整形して評価 ◼ 評価するデータセット 1. ASR-GLUE [Feng+ 2021] › GLUE の入力文をネイティブ話者が読み上げたもの › 音声に３通りの強度の雑音が付加されている（Low, Medium, High） 2. Spoken SQuAD [Lee+ Interspeech2018] › 本資料では省略 How ChatGPT is Robust for Spoken Language Understanding? (3/8: 実験条件①)

34 Copyright 2023 NTT CORPORATION ◼ 今回は ASR-GLUE のうち４タスク（５データセット）に限り評価 ◼
ChatGPT に与えるプロンプトの例（Sentiment Classification の場合） ◆ “I need you help me to predict the sentiment of a given sentence from movie reviews, the sentiment only contains two class: positive and negative. The sentence is ‘Sentence’, what’s this sentence’s sentiment (positive or negative)?” ◆ この指示を読み，ChatGPT は zero shot でタスクを解く How ChatGPT is Robust for Spoken Language Understanding? (4/8: 実験条件②) Sentiment Classification (SST-2) 入力文の positive/negative の２値分類（入力は１文） Semantic Similarity Classification (QQP) ２つの質問文が等価か否かを２値分類（入力は２文） QA Natural Language Inference (QNLI) passage を元に質問に回答可能かを２値分類（〃） QA Natural Language Inference (SciTail) 仮説が前提を矛盾しているか否かを２値分類（〃） Recognizing Textual Entailment (RTE) ２つの文が互いに矛盾するか否かの２値分類（〃）

35 Copyright 2023 NTT CORPORATION ◼ 表B-1 の通り ChatGPT は少量の音声認識誤りには頑健
◆ 一方，High 程度認識誤りがあると大きく回答精度に影響が出る › 認識誤りが N ポイント増えるとタスクの精度は N/2 ポイント低下 (= chance rate 分下がる) ★ Low, Medium, High の順に雑音が少ない（再掲） How ChatGPT is Robust for Spoken Language Understanding? (5/8: 実験結果①) 表B-1: 各タスクの精度表B-2: 各タスクの単語誤り率（%） Sentiment Classification (SST-2) Semantic Similarity Classification (QQP) QA Natural Language Inference (QNLI) QA Natural Language Inference (SciTail) Recognizing Textual Entailment (RTE)

36 Copyright 2023 NTT CORPORATION ◼ 次の２例のように ChatGPT は認識誤りがあることに気づくことができる ◆
自信の知識を基により正確に回答する例（表B-3 ID1） ◆ 認識誤りのため回答を避ける例（同 ID2） How ChatGPT is Robust for Spoken Language Understanding? (6/8: 実験結果②) ID Original ASR transcription QA Response of ChatGPT 1 In 1888, the editor of Electrical World magazine, Thomas Commerford Martin . . . in eighteen eighty eight the editor of electrical world magazine thomas comer for the margin . . . Question: Who was Thomas Commerford Martin? Answer: editor of electrical world magazine I’m sorry, but there seems to be some errors in the text you provided. The name of the editor of Electrical World magazine is actually Thomas Commerford Martin, not Thomas Comer. 2 . . . Tesla’s father, in a moment of despair, promised to send him to the best engineering school if he recovered from the illness… . . . kesslers father in a moment of despair promise to send him to the best engineering school if he recovered from the illness … Question: What did Tesla’s father promise him while he were bedridden? Answer: the best engineering school I’m sorry, but the text you provided contains information that is not related to Nikola Tesla. It seems to be about someone named Kessler who contracted cholera in 1873. Can you please provide the correct text for the reading comprehension task? 表B-3: ChatGPT の返答例（Spoken SQuAD より）

37 Copyright 2023 NTT CORPORATION ◼ ChatGPT は数値の認識誤りに強く，固有名詞や単語単位の置換誤りに弱い ◆ その他の傾向はデータセット間で一貫しない
How ChatGPT is Robust for Spoken Language Understanding? (7/8: 実験結果③) 図B-2: 各認識誤りの回答への影響（Noise: Medium）表B-4: 認識誤りの分類

38 Copyright 2023 NTT CORPORATION ◼ 実験内容 ◆ ChatGPT を用いて
Spoken SQuAD と ASR GLUE を解かせた ◆ 入力文は音声認識誤りを含む ◼ 得られた知見 ◆ ChatGPT は少量の音声認識誤りには頑健 › ただし認識誤りが多いとしっかり精度が下がる ◆ ChatGPT は認識誤りがあることに気づくことができる ◆ ChatGPT は数値の認識誤りに強く固有名詞や単語単位の置換誤りに弱い ◼ 所感 ◆ 自由記述の返答を人手で確認しているが，それで良いのか？（判断基準は？） How ChatGPT is Robust for Spoken Language Understanding? (8/8: まとめ)

39 Copyright 2023 NTT CORPORATION ◼ GPT4 に音声認識誤りを訂正させるとどうなるか図 B-3 の手順で実験
◆ 修正の例として training set から30発話書き起こしと認識結果のペアを与える ◆ ある程度認識誤りを含むように gaussian noise を SNR = 8dB で付加 How ChatGPT is Robust for Spoken Language Understanding? (-/8: おまけ①) GPT-4 Training 内の30発話 ID: A01M0097 (eval 内の１セッション) ASR ID: A01M0097 CER: 9.2% 書き起こし書き起こし prompt 修正された書き起こし図B-3: GPT4 による音声認識誤りの修正ノイズノイズ

40 Copyright 2023 NTT CORPORATION ◼ GPT4 は音声認識誤りを直す能力を持つが制御が難しい ◆ 指示を無視して勝手に整形することがある（表
B-5 の赤字箇所） › 結果として文字誤り率は増加（9.2% → 15.9%, 特に deletion error が増加） ➢ 従来の機械的な誤り率で改善率を測ることはできない How ChatGPT is Robust for Spoken Language Understanding? (-/8: おまけ②) Ref. 左側が第一声右側が第三声のものですがえ横軸に韻母の始点から韻母の終点までのえー長さ韻母の持続時間を表わしていますえー縦軸の方はん韻母の始点を基準とした場合 Hyp. 左側が第一声右側が第三声の方＊ですがえ横軸に韻母の始点から韻母の終点までのえー長さ韻母の持続時間を表わしていますえー縦軸の方は＊真後の視点を基準とした場合 Restored by GPT4 左側が第一声右側が第三声の方＊ですがえ横軸に韻母の始点から韻母の終点までの＊＊長さ韻母の持続時間を表＊していますえ＊縦軸の方は＊声母の始点を基準とした場合表B-5: GPT4 の修正例（A01M0097 より）

41 Copyright 2023 NTT CORPORATION ◼ タイトル ◆ Investigating Pre-trained
Audio Encoders in the Low-Resource Condition ◼ 著者 ◆ Hao Yang, Jinming Zhao, Gholamreza Haffari, Ehsan Shareghi（モナッシュ大学） ◼ 概要 ◆ 様々な SLU タスクでの自己教師ありモデル（SSL）と Whisper Encoder の精度比較 ◼ 選んだ理由 ◆ 流行りの Whisper を使用している ◆ 弱教師あり（Whisper）と教師なし（SSL）の比較に関する１つの知見 Investigating Pre-trained Audio Encoders in the Low- Resource Condition (1/8: 概要)

42 Copyright 2023 NTT CORPORATION ◼ Whisper について ◆ Whisper
is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web. ◆ 中身は Transformer-based Encoder-decoder モデル › 色々なサイズ: Tiny (39M) ～ Large (1.5B) ? Whisper の Encoder は強力な音声表現を獲得しているのでは？ ◆ 68万時間の音声を弱教師あり学習で知っている › Web 上の音声は正確なラベルばかりではないので「弱教師あり」 ➢ 他の SSL モデル（Encoder-only）と様々な SLU タスクでの精度を比較して調査 Investigating Pre-trained Audio Encoders in the Low- Resource Condition (2/8: 背景)

43 Copyright 2023 NTT CORPORATION ◼ Whisper（Encoder のみ）, Wav2vec2.0, WavLM
を採用（表 B-6） ◆ ただし，本資料では Whisper-Medium と WavLM の結果のみ紹介 ◆ WavLM は weighted-sum, Whisper は last layer の潜在表現を使用 › Whisper は encoder の最終層の潜在表現だけを decoder へ渡すため Investigating Pre-trained Audio Encoders in the Low- Resource Condition (3/8: 実験条件①) モデルパラメータ数学習データ量（hours） Whisper-base (encoder only) 21M 680k Whisper-small (〃) 88M 680k Whisper-medium (〃) 307M 680k Wav2vec2.0 317M 94k WavLM 317M 94k 表 B-6: 実験で使用したモデルの一覧．本資料では Whisper-Medium と WavLM の結果のみ紹介

44 Copyright 2023 NTT CORPORATION ◼ SUPERB, SUPERB-SG より７タスクを調査（表 B-7）
◆ 元の学習セットから 1%, 5%, 10% をランダムに選択して low-resource 化 ◆ 学習時，軽量な prediction head 以外は freeze Investigating Pre-trained Audio Encoders in the Low- Resource Condition (4/8: 実験条件②) 表 B-7: 実験するタスクの一覧タスクタイプ学習サンプル数（1%/5%/10%） Speaker Diarization (SD) Speaker 0.14k/0.70k/1.39k Speaker Identification (SID) Speaker 1.38k/6.92k/13.8k Slot Filling (SF) Semantics 1.05k/5.24k/10.5k Intent Classification (IC) Semantics 0.23k/1.16k/2.32k Keyword Spotting (KS) Content 0.51k/2.56k/5.11k Automatic Speech Recognition (ASR) Content 0.28k/1.43k/2.86k Speech Translation (ST) Semantics 2.88k/14.4k/28.8k

45 Copyright 2023 NTT CORPORATION ◼ Whisper Encoder は特に SD
と IC が得意（表 B-8） ◆ SD が得意なのは音声区間の検出が得意なため › 学習時 timestamp も推定（i.e., multi-task） ◆ IC が得意な理由は不明だが，良い潜在表現を獲得（図 B-4） Investigating Pre-trained Audio Encoders in the Low- Resource Condition (5/8: 実験結果①) 表 B-8: 実験結果（SD, SF, IC, KS）．太字はパフォーマンスが良い方学習データ量モデル SD (DER ↓) SF (F1 ↑) IC (Acc ↑) KS (Acc ↑) 1% WavLM 6.38 75.56 26.02 93.57 Whisper-Medium 5.23 77.76 73.76 96.72 5% WavLM 5.16 86.50 91.30 95.91 Whisper-Medium 4.59 87.60 98.23 97.95 10% WavLM 4.76 88.84 94.38 96.82 Whisper-Medium 4.38 89.80 98.78 97.96 図 B-4: IC における潜在表現 (t-SNE + ラベルによる色分け) Whisper-Medium WavLM

46 Copyright 2023 NTT CORPORATION ◼ Whisper Encoder は SID,
ASR, ST が不得意（表 B-9） ◆ SID が不得意なのは ASR 基準で事前学習され話者情報が消えてしまうため ◆ そのわりに，ASR も ST も得意ではない › Masked Prediction が重要である可能性 Investigating Pre-trained Audio Encoders in the Low- Resource Condition (6/8: 実験結果②) 表 B-9: 実験結果（SID, ASR, ST）．太字はパフォーマンスが良い方学習データ量モデル SID (Acc ↑) ASR (WER ↓) ST (BLEU ↑) 1% WavLM 12.69 17.84 0.69 Whisper-Medium 3.97 17.56 0.98 5% WavLM 55.52 7.90 4.19 Whisper-Medium 17.94 9.75 4.22 10% WavLM 79.51 5.99 6.99 Whisper-Medium 30.05 7.74 6.48

47 Copyright 2023 NTT CORPORATION ◼ Whisper の weighted-sum を使用すると
SID を除き精度が劣化（表 B-10） ◆ Low-resource だと weighted-sum の学習が難しいのでは ◆ Whisper は 10-15 層目で話者情報を消している（図 B-5） Investigating Pre-trained Audio Encoders in the Low- Resource Condition (7/8: 実験結果③) 表 B-10: Weighted-sum と最終層の比較学習データ量潜在表現 SID (Acc ↑) ASR (WER ↓) IC (Acc ↑) 1% Weighted-sum 12.48 24.56 34.19 Last 3.97 17.56 73.74 5% Weighted-sum 45.22 11.12 89.48 Last 17.94 9.75 98.23 10% Weighted-sum 65.51 8.52 95.28 Last 30.05 7.74 98.78 図 B-5: Whisper x SID の weight

48 Copyright 2023 NTT CORPORATION ◼ 実験内容 ◆ Whisper Encoder
と SSL モデルを SLU タスク（SUPERB）を用いて比較 ◼ 得られた知見 ◆ Whisper Encoder は diarization （≒ 発話区間検出）に強い ◆ ASR や ST など，本来得意なタスクは Encoder のみでは不得意 ◼ 所感 ◆ Low-resource でない場合も調べてほしい › が，low-resource に限定しているのはリソース不足と inconclusive な結果の両方と予想 Investigating Pre-trained Audio Encoders in the Low- Resource Condition (8/8: まとめ)

49 Copyright 2023 NTT CORPORATION まとめ ◼ 今回は以下の発表を紹介 1. How
ChatGPT is Robust for Spoken Language Understanding? › ChatGPT は少量の音声認識誤りには頑健 › ただし認識誤りが多い場合、順当に精度が下がる › ChatGPT は認識誤りがあることに気づくことができる 2. Investigating Pre-trained Audio Encoders in the Low-Resource Condition › Whisper Encoder は diarization （≒ 発話区間検出）に強い › ASR や ST など，本来得意なタスクは Encoder のみでは不得意

50 Copyright 2023 NTT CORPORATION さいごに ◼ LLM, Whisper の登場に関する私見
1. 小型なタスク特化モデルを目指すのがよさそう › タスク特化にすれば LLM ほどのパラメータ数は不要＆棲み分け可 » 特に外部知識が不要なタスクの場合 » 必要な場合も retrieval で対応 › ちゃんとモデルを設計すれば Whisper 程大規模な学習データは不要（？） » Whisper はただの Transformer Encoder-Decoder » Conformer, 状態空間モデル, … 2. （1. のために）LLM や Whisper の知識をいかに蒸留するか › BERT など pre-trained モデル活用の延長 › しかし、BERTよりもはるかに多様な機能と知識を持っている » LLMから「翻訳能力だけ」省パラメータに押し込めることはできないか » データ生成よりもスマートに

52 Copyright 2023 rinna Co., Ltd. EXPRESSO: A Benchmark and
Analysis of Discrete Expressive Speech Resynthesis (1/10: 概要) ◼ 著者 ◆ Tu Anh Nguyen, Wei-Ning Hsu, Antony D’Avirro, Bowen Shi, … (Meta AI) ◼ 背景 ◆ 自己教師あり学習 (self-supervised learning: SSL) は幅広い音声関連タスクで有効 ◆ SSLから得られる離散音声表現は音声合成やマルチモーダル言語モデルで有効 ◆ 離散音声表現にどのような情報（音素、話者、スタイルなど）が含まれているか不明 ◼ 本研究の概要 ◆ 自発的な/表現力豊かな音声生成への応用に向けてデータセットを公開 ◆ 各種の離散音声表現にどのような情報が含まれているか調査

Analysis of Discrete Expressive Speech Resynthesis (2/10: 背景①) ◼ Hidden-Unit BERT (HuBERT) [Hsu+, TASLP2021] ◆ 音声特徴量のクラスタリング結果を擬似ラベルとしたSSL ◆ 特にTransformerの後段部で発話内容に近い表現を獲得 ◼ 𝑘-meansクラスタリング ◆ HuBERT特徴量に適用することで、音声の離散表現を獲得可能 › 子細な情報を捨てる代わりに低ビットレートを実現 › 言語モデルにおけるトークンと同様に扱うことが可能 ◼ Speech Resynthesis [Polyak+, INTERSPEECH2021] ◆ 上記の音声離散表現 + ピッチ離散表現 + 話者ベクトルから HiFi-GANを用いて音声を再合成 ◆ 本研究ではピッチ離散表現を用いず、話者はlookup table方式 35 107 450 450 6 6 𝑘-means HuBERT Discrete HiFi-GAN

Analysis of Discrete Expressive Speech Resynthesis (3/10: 背景②) ◼ EnCodec [Défossez+, TMLR2023] ◆ Residual Vector Quantizationに基づく音声符号化 › 前段のコードブックで重要な情報を、後段のコードブックには子細な情報を獲得 › 元の波形の再構成に特化し、発話内容を獲得するような学習はなされていない

Analysis of Discrete Expressive Speech Resynthesis (4/10: 手法) ◼ Expressoデータセットの公開 ◆ 読み上げ音声 › 8スタイルの音声を原稿に沿って朗読し収録 › 各1~2時間、計11.5時間 › default, narrationスタイルについては長文も含む ◆ 対話音声 › 26のスタイルに紐づくようテーマを与え、即興で対話した2人の音声を収録 (例: 自動車事故について運転手間で口論しているなど) › 各0.5~2時間、計34.4時間 › なし ◆ 歌声 (おまけ？) › 93分収録したが権利の関係で4分のみ公開

Analysis of Discrete Expressive Speech Resynthesis (5/10: 実験条件) ◼ データセットと学習条件 ◆ HuBERT + 𝑘-means + HiFi-GAN › HuBERT: LibriSpeech (英語960時間) or Mix1 (多言語22万時間) で学習 › 𝑘-means: LibriSpeech (500) or Mix1 (2000) or Expresso (2000) で学習* » *カッコ内はクラスタ数を表す › HiFi-GAN: LJSpeech (英語24時間) + VCTK (英語44時間) (+ Expresso)で学習 » Expressoを用いる場合、スタイル条件付けあり/なしの2パターンで学習 ◆ EnCodec › LibriLight (英語6万時間)、Spotify (英語6万時間) など混合し、1 or 8コードブックで学習 ◼ 評価基準 ◆ 音声の離散表現抽出→再合成を行い、(1) 単語誤り率 (Word Error Rate: WER)、 (2) スタイル識別率、(3) フレーム単位のF0誤差 (F0 Frame Error: FFE) を計算

Analysis of Discrete Expressive Speech Resynthesis (6/10: 結果①) ◼ HuBERTとEnCodecのWERの差は？ ◆ EnCodec 8コードブック >> HuBERT > Encodec 1コードブック

Analysis of Discrete Expressive Speech Resynthesis (7/10: 結果②) ◼ HuBERTの音声離散表現は話者依存か？ ◆ 話者を変えて再合成してもWERの劣化は小さい = 話者依存性は小さい

Analysis of Discrete Expressive Speech Resynthesis (8/10: 結果③) ◼ HuBERTの離散音声表現はスタイル依存か？ ◆ ボコーダをスタイルで条件付けずに再合成してもスタイル識別率はランダム (3.8%) よりはるかに高い = スタイル情報を含んでいる

Analysis of Discrete Expressive Speech Resynthesis (9/10: 結果④) ◼ HuBERT, EnCodecの音声離散表現はピッチの情報を含むか？ ◆ EnCodecは1コードブックでも精度よくピッチを再現可能 ◆ HuBERTはどの条件でもピッチの再現が困難

Analysis of Discrete Expressive Speech Resynthesis (10/10: まとめ・関連研究) ◼ まとめ ◆ HuBERT › 主に発話内容を含み、スタイル情報も多少含む › 話者情報やピッチに関する情報はほぼ含まない ◆ EnCodec › 発話内容やピッチ、話者、スタイルなどの情報がentangleされた形で含まれている

Interspeech2023 参加報告

Interspeech2023 参加報告

More Decks by Kentaro Mitsui

Other Decks in Research

Featured

Transcript