LLMと音声基盤モデルを用いた音声認識

by Spiral.AI

Embed

Start on current slide

Slide 1

Slide 1 text

LLMと音声基盤モデルを用いた音声認識 2024.09.6 第19回YANSシンポジウム小峠陸登, 安立健人, 石川宏輔, 佐々木雄一

Slide 2

Slide 2 text

2 INDEX 目次 01 研究背景 02 提案手法 03 評価実験

Slide 3

Slide 3 text

3 生成AI×コミュニケーションで世界を代表する企業へ SpiralAIは、個性の再現に強いAI技術を武器に、エンターテインメントなど日本が誇る様々な分野で ”コミュニケーション”に注力したプロダクト開発を進めています。生成AIを使いやすく、面白く、身近に。日本の独自性を活かして世界へ挑戦します。

Slide 4

Slide 4 text

4 背景 LLMを用いた従来の音声対話音声認識、LLMの組み合わせ。音声入力可能なマルチモーダルLLMによる音声対話音声情報をLLMに入力、応答。テキスト以外の音声情報 (トーン、抑揚、声色など)が失われるテキスト以外の音声情報も踏まえた応答人間に近いコミュニケーションが可能に音声を直接LLMに入力テキスト入力応答応答音声認識モデル LLM マルチモーダルLLM

Slide 5

Slide 5 text

5 課題既存のLLMベース音声認識モデル LLM+音声エンコーダー+プロジェクターを学習。【研究目的】学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発音声認識のためには大量のデータで、大量のパラメータの学習が必要学習コストが大きい提案手法 Whisper Nue ASR 学習コスト従来の音声認識モデルフルスクラッチEnd-to-Endで学習。 Nue ASR [2] 学習データ: 16,000時間学習パラメータ: 3,708M Whisper [1] 学習データ: 650,000時間+ 学習パラメータ (Large): 1,541M [1] https://github.com/openai/whisper [2] https://huggingface.co/rinna/nue-asr

Slide 6

Slide 6 text

6 実験設定提案手法 LLM + LoRA Projector Speech Encoder LLM tokenizer 「音声を書き起こしてください。」【アーキテクチャ】 • 事前学習済みLLMと音声エンコーダーを使用 • LLMにLoRAアダプターを追加 • LLMと音声エンコーダーはプロジェクターで接続【プロジェクター】 • ダウンサンプリング用の畳み込み層とMLPで構成【学習】 • LLMと音声エンコーダーのパラメータは固定 • プロジェクターとLoRAアダプターのみ学習事前学習済み基盤モデルを活用し学習パラメータを大幅に削減

Slide 7

Slide 7 text

7 実験設定評価実験学習パラメータ学習データ提案手法 19M (Projector: 15M + LoRA: 4M) 1,000時間 Whisper-v3-large [1] 1,541M 650,000時間以上 (多言語) Nue ASR [2] 3,708M 16,000時間 ReazonSpeech-v2 (espnet) [3] 119M 16,000時間学習パラメータ学習データ共に最小 [3] https://huggingface.co/reazon-research/reazonspeech-espnet-v2 [4] https://huggingface.co/rinna/youri-7b [5] https://huggingface.co/microsoft/wavlm-large [6] https://sites.google.com/site/shinnosuketakamichi/publication/jsut LLM 音声エンコーダー学習データ評価データ評価指標 Epoch数学習環境学習時間 youri-7b [4] WavLM (Large) [5] 独自データ約1,000時間 JUST [6] CER & WER 3 A100 (80GB) x8 GPU 約5時間

Slide 8

Slide 8 text

8 実験結果 CER WER 提案手法 0.080 0.079 Whisper-v3-large [1] 0.066 0.068 Nue ASR [2] 0.093 0.095 ReazonSpeech-v2 (espnet) [3] 0.065 0.068 最先端の日本語音声認識モデルと同程度のエラーレート [7] https://huggingface.co/rinna/llama-3-youko-8b [8] https://huggingface.co/rinna/japanese-hubert-large

Slide 9

Slide 9 text

9 まとめ学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発【学習】 • 事前学習済みLLMと音声エンコーダーのパラメータは固定 • プロジェクター (15M) とLoRAアダプター (4M) のみ学習 • 学習データは日本語音声データ1000時間のみ【評価実験】 • 最先端の日本語音声認識モデルと同程度のエラーレートを達成 • MLPプロジェクター、 LoRAアダプターの有効性を確認 • LLM、音声エンコーダーによって音声認識の精度は異なる【今後】今回の音声認識モデルをさらに発展させて、音声対話可能なマルチモーダルLLMを開発