Slide 1

Slide 1 text

クロスモーダル表現学習の研究動向: 音声関連を中心として 日本電信電話株式会社 NTT人間情報研究所 増村亮

Slide 2

Slide 2 text

1 Copyright NTT CORPORATION 自己紹介  増村 亮 (Ryo Masumura)  経歴 • 2011/4: 日本電信電話株式会社入社 • 2016/9: 東北大学大学院 工学研究科 博士後期課程 修了 • 現在: NTT人間情報研究所 特別研究員  主な研究分野: マルチメディア処理×人工知能 (機械学習) • 音声音響処理全般 (2009~) • 自然言語処理全般 (2011~) • 画像映像処理全般 (2019~) この「広さ」を深めることで はじめて実現可能な 研究開発を目指す • 音声認識(言語モデル、音響モデル、End2End音声認識)、属性推定、感情推定、 話者推定・ダイアライゼーション、音声区間検出、ターン交代点検出、言語・方言識別、音声合成、etc. • 2011/3:東北大学大学院 工学研究科 博士前期課程 修了 • クロスタスク・クロスモーダルな統合モデリング (2017~)

Slide 3

Slide 3 text

2 Copyright NTT CORPORATION 我々が取り組んでいる研究テーマ  クロスタスク・クロスモーダルでの知識統合によるマルチモーダル基盤モデルの実現  NTTにて「MediaGnosis」という名前で研究開発 (https://www.rd.ntt/mediagnosis/)

Slide 4

Slide 4 text

3 Copyright NTT CORPORATION 推論時に目指していること (本日の主眼ではない)  「複合的かつ複雑な推論」を省リソースかつ高精度・高速にオールインワン提供

Slide 5

Slide 5 text

4 Copyright NTT CORPORATION  様々なタイプのデータを活用した上で、モーダル間やタスク間で共有可能な 知識を効率的に保持できるような統合的なモデリング・学習の実現 学習時に目指していること (この一部が本日の主眼) 自己教師あり学習 マルチタスク学習 クロスモーダル表現学習 テキスト理解部 音声音響情報 共通処理部 画像映像情報 共通処理部 感情理解部 属性理解部 Happy, Sad, neutral Male, Female Elder, Adult, Child “It is sunny today” クロスモーダル 理解部 自然言語情報 共通処理部 … とはどんなもの??(本日の主題) (主に同一入力に対して)複数タスクを 同時に学習することで、相乗効果を得た り、タスク間の知識転移を行う ラベルなしデータを活用して、 様々なタスクに有益な表現空間を獲得 テキスト:BERT, etc.、音声: HuBERT, etc., 画像: Masked MAE, etc.

Slide 6

Slide 6 text

5 Copyright NTT CORPORATION 本日の内容  「クロスモーダル表現学習」を話題に取り上げ、 「音声」に関連する研究に特に焦点を当てて、その研究動向を概説 1. 自己紹介とはじめに 2. クロスモーダル表現学習(音声関連を中心) 3. 言語へのクロスモーダルアライメント(音声関連を中心) 4. おわりに

Slide 7

Slide 7 text

6 Copyright NTT CORPORATION 「クロスモーダル表現学習」一言でいうと?  モーダル間で共有可能な表現空間(共有可能な知識)を仮定した学習  これによって何がしたい? = 知識獲得の効率化 • ① 表現空間に埋め込む知識を複数モーダルから同時に獲得 • ➁ あるモーダルに関するリッチな知識を、他のモーダルを扱う際に知識転移  もっと具体的にいうと何に使う? = エンコーダの事前学習 • 事前学習後、特定タスクに対して予測ヘッドをつけて、ファインチューニングすることが一般的  良い「クロスモーダル表現学習」とは? = 最終タスクの性能にいかに寄与するか • 特に、最終タスクに関する教師ありデータが少ない場合に性能を引き上げられることが大事 • ※ 本発表では、性能面の有用性などについては時間が限られるため触れないです… • ※ あくまで一般論で、一部の手法は表現学習自体が最終タスクに直結

Slide 8

Slide 8 text

7 Copyright NTT CORPORATION クロスモーダル表現学習とモデリング  デュアルエンコーダ方式  共有エンコーダ方式  用途に応じて2種類のモデリングに大別 入力音声 入力画像 音声モーダル用 エンコーダ 画像モーダル用 エンコーダ ベクトル or ベクトル系列 ベクトル or ベクトル系列 • 出力側の表現空間が「共有可能」であることを仮定 • 入力側の表現空間やエンコーダの中間層の表現空間が 「共有可能」であることを仮定 共有エンコーダ 音声と画像の共有エンコーダ 入力音声 入力画像 ベクトル or ベクトル系列 • 最終用途が単モーダル入力の場合をサポート • 単モーダル入力とマルチモーダル入力の両者をサポート • モーダルごとに、異なるモデルパラメータを持つ方式 • モーダル間で同一のモデルパラメータを使う方式

Slide 9

Slide 9 text

8 Copyright NTT CORPORATION クロスモーダル表現学習の学習戦略  空間一致ベース: モーダル間で表現空間が似るようにする  対照学習ベース: モーダル間で対応しているか 対応してないかを見分けられるようにする  マスク予測ベース: モーダルの一部を隠し、対応するモー ダルを元に、隠した部分を予測できるようにする • デュアルエンコーダ型で、片方の表現空間は 固定されている場合に利用可能な学習戦略 • デュアルエンコーダ型でも共有エンコーダ型 でも利用可能な学習戦略 • 共有エンコーダ型で利用可能な学習戦略であり、個々の モーダルの範囲のマスク予測も同じフレームワークで実施可能 音声 画像 音声モーダル用 エンコーダ 画像モーダル用 エンコーダ 対応 音声 画像 音声モーダル用 エンコーダ 画像モーダル用 エンコーダ 対応 対応しない音声 音声モーダル用 エンコーダ  代表的な学習戦略は3種類に大別 共有エンコーダ モーダル間で表現空間が似るようにする 対応していると見分けられる 対応してないと見分けられる 一部を隠した音声 画像 対応 隠した部分を予測できるようにする • 基本は離散化されたターゲットを予測する(ほうがうまくいく)

Slide 10

Slide 10 text

9 Copyright NTT CORPORATION クロスモーダル表現学習の分類 ① 教師ありクロスモーダル表現学習 モーダル間で対応関係が取れたペアデータ(人手アノテーション必要)を用いて学習 ➁ 自己教師ありクロスモーダル表現学習 • モーダル間で対応関係が取れたペアデータ(人手アノテーションなし)を用いて学習 ③ 黙示的なクロスモーダル表現学習 • モーダル間で対応関係が取れたペアデータを使わずに、 各モーダルのラベルなしデータのみから学習 ④ 複合的なクロスモーダル表現学習 • 様々なクロスモーダル表現学習やシングルモーダル表現学習を複合的に組み合わせた学習  用いるデータを観点として、4種類のクロスモーダル表現学習が検討されている

Slide 11

Slide 11 text

10 Copyright NTT CORPORATION ①教師ありクロスモーダル表現学習  モーダル間で対応関係が取れたペアデータ(人手アノテーション必要)を用いて学習 ※ Computer Vision の分野では、Web クロール等により得られる画像とキャプションテキストの ペアデータの利用は、「教師あり学習」ではなく「自己教師あり学習」として述べられることが多い  音声関連の研究でよく使われるデータ • 音声とテキストの書き起こしデータ  主な手法 • 音と説明文テキストのペアデータ • SPLAT [Y.-A. Chung+ NAACL2021] • SpeechBERT [Y.-S. Chuang+ INTERSPEECH2020] • Speech-language pre-training [Y. Qian+ ICASSP2021] • CLAP [B. Elizalde+ ICASSP2023]

Slide 12

Slide 12 text

11 Copyright NTT CORPORATION Speech-language pre-training [Y. Qian+ ICASSP2021]  「共有エンコーダ型」×「マスク予測ベース」の「教師ありクロスモーダル表現学習」  用いるデータ: 音声と書き起こしのペアデータ (ATIS)  音声とテキストを同時に用い、テキストの一部をマスクして、 その部分をテキストと音声のコンテキストから予測 テキストのマスクした 部分に対して、 音声とテキストを 用いて予測 Y. Qian et al., “Speech-language pre-training for end-to-end spoken language understanding,” In Proc. ICASSP, pp. 7458–7462, 2021.

Slide 13

Slide 13 text

12 Copyright NTT CORPORATION  「デュアルエンコーダ型」×「対照学習ベース」の「教師ありクロスモーダル表現学習」 CLAP [B. Elizalde+ ICASSP2023]  音と説明文が一致する(ペアであった)場合に高い類似度、 一致しない(ペアのものではない)場合は低い類似度が出るように学習  用いるデータ: 音と説明文のペアデータ (FSD50K, Clotho V2, AudioCaps, MACS) 類似度マトリックス、 対角成分の要素が 大きくなるように学習 音声とテキストの それぞれでエンコーダを持つ B. Elizalde et al., “CLAP: Learning audio concepts from natural language supervision,” In Proc. ICASSP, 2023.

Slide 14

Slide 14 text

13 Copyright NTT CORPORATION ➁自己教師ありクロスモーダル表現学習  モーダル間で対応関係が取れたペアデータ(人手アノテーションなし)を用いて学習  音声関連の研究でよく使われるデータ • 音声と唇周辺動画のペアデータ ※ ビデオを撮ればアノテーションなしに得られる • 音声と顔動画のペアデータ ※ ビデオを撮ればアノテーションなしに得られる  主な手法 • Perfect Match [S.-W. Chung+ ICASSP2019] • LiRA [P. Ma+ INTERSPEECH2021] • LAVEn [A. Haliassos+ ICLR2023] • AV-HuBERT [B. Shi+ ICLR2022] • MixSpeech [X. Cheng+ ICCV2023] • u-HuBERT [B. S. Wei-Ning Hsu+ Neurips2022]

Slide 15

Slide 15 text

14 Copyright NTT CORPORATION LiRA [P. Ma+ INTERSPEECH2021] 音声エンコーダは事前に 学習しておき、Freezeしておく (音韻情報がリッチに乗っている) 映像エンコーダ が学習可能であり、 音声エンコーダ出力に近づ けるように学習  音声から得られるリッチな情報を持つベクトルを、 唇の動き映像から予測できるようにすることで、映像エンコーダを学習  「デュアルエンコーダ型」×「空間一致ベース」の「自己教師ありクロスモーダル表現学習」  用いるデータ: 音声と唇の動き映像のペアデータ (LRS3) P. Ma et al., “LiRA: Learning visual speech representations from audio through self-supervision,” In Proc. INTERSPEECH, pp. 3011–3015, 2021.

Slide 16

Slide 16 text

15 Copyright NTT CORPORATION AV-HuBERT [B. Shi+ ICLR2022] 音フレームと画像フレームを 特徴量方向に結合し、 マスクした部分は0で埋める マスク部分に対して、 マルチモーダル情報をもとに事前に割り当てた コードブックIDを予測するように学習 音声や映像の一部をマスク  「共有エンコーダ型」×「マスク予測ベース」の「自己教師ありクロスモーダル表現学習」  マスク予測の枠組みで、唇の動き映像から音声を、音声から唇の動き映像を、 予測できるような学習を、ベクトル量子化コードブックを活用して実施  用いるデータ: 音声と唇の動き映像のペアデータ (LRS3やVoxCeleb2) B. Shi et al., “Learning audio-visual speech representation by masked multimodal cluster prediction,” In Proc. ICLR, 2022.

Slide 17

Slide 17 text

16 Copyright NTT CORPORATION ③黙示的なクロスモーダル表現学習  モーダル間で対応関係が取れたペアデータを使わずに、各モーダルの ラベルなしデータのみから学習  音声関連の研究でよく使われるデータ • 音声のラベルなしデータ+テキストのラベルなしデータ  主な手法 (※ 手法全体が黙示的なクロスモーダル表現学習というわけではない) • SLAM [A. Bapna+ arxiv 2021] • Mu2SLAM [Y. Cheng+ ICML2023] • MAESTRO [Z. Chen+ INTERSPEECH2022] • SpeechT5 [J. Ao+ ICL2022]

Slide 18

Slide 18 text

17 Copyright NTT CORPORATION SLAM [A. Bapna+ arxiv 2021] における事前学習  「共有エンコーダ型」×「マスク予測ベース」の「黙示的なクロスモーダル表現学習」 テキストはBERT型の マスク予測により、 自己教師あり学習 音声はw2v-BERT型の マスク予測により、 自己教師あり学習  音声に対するマスク予測とテキストに対するマスク予測を、 1つの共有エンコーダに対してそれぞれ実施することで、黙示的に表現空間を獲得  用いるデータ: 音声データ (Libri-light)+テキストデータ (LibriLMとmC4-En) A. Bapna et al., “SLAM: A unified encoder for speech and language modeling via speech-text joint pretraining,” arXiv:2110, 2021.

Slide 19

Slide 19 text

18 Copyright NTT CORPORATION SpeechT5 [J. Ao+ ACL2022] における事前学習 テキストと音声でベクトル空間を 共有した量子化コードブック  「共有エンコーダ型」×「マスク予測ベース」の「黙示的なクロスモーダル表現学習」  クロスモーダルベクトル量子化により音声とテキストの共有量子化コードブックを 構成し、コードブックIDを活用したマスク予測をそれぞれのモーダルで実施  用いるデータ: 音声データ (LibriSpeechの音)+テキストデータ (LibriSpeechのテキスト) ※ ペアである情報はもちろん使わない J. Ao et al., “SpeechT5: Unified-modal encoder-decoder pre-training for spoken language processing,” In Proc. ACL, pp. 5723–5738, 2022.

Slide 20

Slide 20 text

19 Copyright NTT CORPORATION ④複合的なクロスモーダル表現学習  様々なクロスモーダル表現学習やシングルモーダル表現学習を複合的に組み合わせた学習  音声関連の研究(音声「も」使っている研究)でよく使われるデータ • 音声のラベルなしデータ+テキストのラベルなしデータ+映像のラベルなしデータ+ 画像のラベルなしデータ+音声と書き起こしのペアデータ+画像と説明文のペアデータ +音声と映像のペアデータ+…, etc.  主な手法 • VATT [H. Akbari+ Neurips2021] • ONE-PEACE [P. Wang+ arxiv 2023] • VALOR [S. Chen+ arxiv 2023] • Imagebind [R. Girdhar+ CVPR2023] • i-Code [Z. Yang+ AAAI2023] • VATLM [Q. Zhu+ IEEE TMM 2023] ※ クロスモーダル表現学習は音声分野以外で ももちろん検討されてきており、音声コミュニティより も機械学習コミュニティで発表が多くなされている

Slide 21

Slide 21 text

20 Copyright NTT CORPORATION VATT [H. Akbari+ Neurips2021] H. Akbari et al., “VATT: Transformers for multimodal self-supervised learning from raw video, audio and text,” In Proc. NeurIPS, 2021.  「共有エンコーダ型」×「対照学習ベース」の「複合的なクロスモーダル表現学習」  映像-音声の一致/不一致、映像-テキストの一致/不一致の両者を見分ける学習を実施  用いるデータ: 映像と音声のペアデータ (AudioSet)、 映像とテキストのペアデータ (HowTo100M) 共有エンコーダのヘッド部分の情報を 活用することで、異なるモーダル間 での一致/不一致を考慮 入力の時点で、 「どのモーダル情報を入れるか?」 は考慮しない

Slide 22

Slide 22 text

21 Copyright NTT CORPORATION VATLM [Q. Zhu+ IEEE TMM, 2023]  「共有エンコーダ型」×「マスク予測ベース」の「複合的なクロスモーダル表現学習」  AV-HuBERT、HuBERT、BERT等のマスク予測を組み合わせて学習  用いるデータ: 映像と音声のペアデータ (LRS3, VoxCeleb2)、音声と書き起こしのペア データ (TED-LIUM3)、音声データ (GigaSpeech)、テキストデータ (Cantab-TEDLIUM) 共有エンコーダの出力に対して、 統一的にマスク予測問題を設定 全てのモーダル入力があることを ベースとなるようにして、 使わないモーダルを0で埋める Q. Zhu et al., “VATLM: Visual-audio-text pre-training with unified masked prediction for speech representation learning,” IEEE TMM, 2023.

Slide 23

Slide 23 text

22 Copyright NTT CORPORATION 本日の内容  「クロスモーダル表現学習」を話題に取り上げ、 「音声」に関連する研究に特に焦点を当てて、その研究動向を概説 1. 自己紹介とはじめに 2. クロスモーダル表現学習(音声関連を中心) 3. 言語へのクロスモーダルアライメント(音声関連を中心) 4. おわりに

Slide 24

Slide 24 text

23 Copyright NTT CORPORATION 言語へのクロスモーダルアライメント  テキストにより獲得された表現空間(近年は「大規模言語モデル」の学習により獲得 される表現空間)に、異なるモーダルの情報をアライメントする取り組み  強みは? • テキストから得られる一般常識を最大限に活用した処理が可能  さきほどまでの「クロスモーダル表現学習」と何か違う? • 一般的なクロスモーダル表現学習: 表現空間は基本的に複数モーダルから協調的に獲得される • 言語へのクロスモーダルアライメント: 表現空間はテキストを元にした自己教師あり学習や教師あり学習によって獲得され、 事後的に異なるモーダルの特徴をその空間にマッピングする  今風に言うと要するに? • 「音声を扱う大規模言語モデル」をモデル化するためのキー技術 • ※ 本発表では、大規模言語モデルカットの話は時間がないためしないです

Slide 25

Slide 25 text

24 Copyright NTT CORPORATION クロスモーダルアライメントの方式  言語の表現空間にアライメントすることに関して、大きく2つの方式が検討されている  連続特徴空間でのクロスモーダルアライメント  離散化によるクロスモーダルアライメント • 大規模言語モデルの入力に近い層に対して、異なる モーダルの入力を連続特徴空間上で接続する枠組み • 異なるモーダルの入力を離散シンボルに変換すること により、大規模言語モデルに接続する枠組み 大規模言語モデルの入力層より上部 入力音声 音声モーダル用 エンコーダ アライメント モジュール 大規模言語モデル 入力音声 音声モーダル用 エンコーダ トークン化 モジュール 入力テキスト 大規模言語モデルの 入力層 入力テキスト • 一般的に、サブワードトークンと同じ表現空間 に対してアライメント • 一般的に、サブワードトークンを線形変換した 埋め込みベクトルの表現空間に対してアライメント

Slide 26

Slide 26 text

25 Copyright NTT CORPORATION 連続特徴空間でのクロスモーダルアライメント  音声エンコーダと大規模言語モデルの間に挟む 「アライメントモジュール」 の構成方法が複数検討されている  線形層によるアライメントモジュールを利用 • NExT-GPT [S.Wu+ arxiv 2023] • PandaGPT [Y. Su+ arxiv 2023] • Unified-IO 2 [Y. Su+ arxiv 2023]  Transformerブロックによるアライメントモジュールを利用 • Macaw-LLM [C. Lyu+ arxiv 2023] • SLM [M. Wang+ arxiv 2023]  Q-Former [J. Li+ arxiv 2023] によるアライメントモジュールを利用 • SALMONN [C. Tang+ arxiv 2023] • Video-LLaMA [H. Zhang+ EMNLP2023]

Slide 27

Slide 27 text

26 Copyright NTT CORPORATION SLM [M. Wang+ ASRU2023]  Transformerブロックによるアライメントモジュールを利用 この部分が アライメントモジュールで、 Transfomerブロックで構成  大規模言語モデルと音声エンコーダはフリーズし、少ないパラメータを持つアライメント モジュールを導入するだけで、音声入力が可能な大規模言語モデルを実現 音声エンコーダはフリーズして、 この時点で系列長を サブサンプリングする 大規模言語モデルも フリーズ M. Wang et al., “SLM: Bridge the thin gap between speech and text foundation models,” In Proc. ASRU, 2023.

Slide 28

Slide 28 text

27 Copyright NTT CORPORATION SALMONN [C. Tang+ arxiv 2023]  Q-Former [J. Li+ arxiv 2023] によるアライメントモジュールを利用  画像分野のBLIP2提案されたQ-Formerを用いることで、音声のように系列長が長くなってしまう 場合においても、コンパクトな系列長に抑えてアライメントすることが可能 音声系のエンコーダと 音楽系のエンコーダの両者を フリーズして利用 この部分が アライメントモジュール であり、Q-Formerは コンパクトな系列 でアライメント可能 大規模言語モデルの 入口はフリーズ C. Tang et al., “SALMONN: Towards generic hearing abilities for large language models,” arXiv:2310.13289, 2023.

Slide 29

Slide 29 text

28 Copyright NTT CORPORATION おまけ① モデル 扱うモーダルは? 大規模言語モデルは? 音声エンコーダは? Qwen-Audio [Y. Chu+, arxiv 2023] 言語、音 QwenLM Whisper SALMONN [C. Tang+ arxiv 2023] 言語、音 Vicuna Whisper + BEATs BLSP [C. Wang+ arxiv 2023] 言語、音 LLaMA-2 Whisper LTU [Y. Gong+ ICLR2024] 言語、音 LLaMA AST Macaw-LLM [C. Lyu+ arxiv 2023] 言語、音、映像、画像 LLaMA Whisper NExT-GPT [arixv 2023] 言語、音、映像、画像 Vicuna ImageBind LLaSM [Y. Shu+ arxiv 2023] 言語、音 Chinese-LLAMA-2 Whisper SpeechLLaMA [J. Wu+ arxiv 2023] 言語、音 LLaMA CTC compressor PandaGPT [Y. Su+ arxiv2023] 言語、音、映像、画像 Vucuna ImageBind ImageBind-LLM [J. Han+ arxiv 2023] 言語、音、映像、画像、点群 LLaMA ImageBind Video-LLaMA [H. Zhang+ EMNLP2023] 言語、音、映像 Vicuna/LLaMA ImageBind SLM [M. Wang+ arxiv 2023] 言語、音 mT0-MT XXL USM  クロスモーダルアライメント以外の目線での詳細情報

Slide 30

Slide 30 text

29 Copyright NTT CORPORATION 離散化によるクロスモーダルアライメント  トークン化にはベクトル量子化コードブックを用いたうえで、トークン化された音声 (音声トークン)を大規模言語モデルで扱うための方法が複数検討されている • SpeechGPT [D. Zhang+ EMNLP2023] • VoxtLM [S. Mait+ ASRU2023] ※ 参考:言語へのクロスモーダルアライメントではないが、離散された音声トークンを言語モデルとして扱う検討 (本日の主題ではないが、音声トークンを生成できるようなモデル化が内包され、音声合成の拡張として発展) • GSLM [K. Lakhotia+ TACL 2021] • AudioLM [Z. Borsos+ arxiv 2022] • VioLA [T. Wang+ arxiv 2023]  音声トークンのベクトル埋め込みを学習(言語モデル部分も学習)することでアライメント • AudioPaLM [P. K. Rubenstein+ arxiv2023] • TWIST [M. Hassid+ Neurips2023] • SPRIT-LM [T. A. Nguyen+ arxiv 2024]

Slide 31

Slide 31 text

30 Copyright NTT CORPORATION AudioPaLM [P. K. Rubenstein+ arxiv2023]  離散化によるクロスモーダルアライメントを用いた手法 この部分のみを学習することで、 音声トークンを扱える言語モデルとする (※ この転置行列出力側でも使う)  方法:複数の目的タスクのデータ(音声認識、音声合成、音声翻訳、etc.)を準備し、 音声信号は音声トークンに変換し、教師あり学習をすることでアライメント Universal Speech Model+ベクトル量子化 P. K. Rubenstein et al., “AudioPaLM: A large language model that can speak and listen,” arXiv:2306.12925, 2023.

Slide 32

Slide 32 text

31 Copyright NTT CORPORATION SpeechGPT [D. Zhang+ EMNLP2023]  離散化によるクロスモーダルアライメントを用いた手法  方法:音声のみのデータを大量に集め、音声トークン系列に変換し、音声トークン系列 に対する自己回帰予測基準 (言語モデルの一般的な学習基準)でアライメント HuBERT+ベクトル量子化 音声トークン系列が 途中まで与えられた際に、 それ以降の音声トークン系列を 予測できるようにする D. Zhang et al., “SpeechGPT: Empowering large language models with intrinsic cross-modal conversational abilities,” In Proc. EMNLP, 2023.

Slide 33

Slide 33 text

32 Copyright NTT CORPORATION モデル テキスト以外に扱うモーダルは? 大規模言語モデルは? 音声トークナイザは? 音声デトークナイザは? SpeechGPT [D. Zhang+ EMNLP2023] 言語、音 LLaMA HuBERT+ベクトル量子化 HiFi-GAN AudioPaLM [P. K. Rubenstein+ arxiv2023] 言語、音 PaLM USM+ベクトル量子化 SoundStream VoxtLM [S. Mait+ ASRU2023] 言語、音 OPT HuBERT+ベクトル量子化 HiFi-GAN TWIST [M. Hassid+ Neurips2023] 言語、音 OPT/LLaMA HuBERT+ベクトル量子化 HiFi-GAN SPRIT-LM [T. A. Nguyen+ arxiv 2024] 言語、音 LLaMA-2 HuBERT+ベクトル量子化 HiFi-GAN おまけ➁  クロスモーダルアライメント以外の目線での詳細情報

Slide 34

Slide 34 text

33 Copyright NTT CORPORATION 本日の内容  「クロスモーダル表現学習」を話題に取り上げ、 「音声」に関連する研究に特に焦点を当てて、その研究動向を概説 1. 自己紹介とはじめに 2. クロスモーダル表現学習(音声関連を中心) 3. 言語へのクロスモーダルアライメント(音声関連を中心) 4. おわりに

Slide 35

Slide 35 text

34 Copyright NTT CORPORATION おわりに  「クロスモーダル表現学習」と「言語へのクロスモーダルアライメント」 を体系化し、音声に関わる取り組みを少しずつピックアップして説明  今日触れられなかった部分 • クロスモーダル表現学習により、どれだけ最終タスクに対して嬉しいことがあるのか? • ここはセットアップ次第だが、モーダル内に閉じた知識獲得より、 モーダル間まで考慮した知識獲得のほうが一般的に有益  今後期待されること • よりタスク不変・モーダル不変のクロスモーダル表現学習 • 現時点では、多くの研究で、目標タスクを想定したうえでアイデアが想起され、 目標タスクでの評価で有用性を評価 • 今後は、言語のSuperGLUE、音声のSUPERBなど全般で有益でかつ、 音声+映像などのマルチモーダルタスクでも広く有益な表現学習が期待される