Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMと音声基盤モデルを用いた音声認識
Search
Spiral.AI
PRO
September 17, 2024
Programming
0
1.7k
LLMと音声基盤モデルを用いた音声認識
本スライドは、YANS2024にて、SpiralAI所属のエンジニア小峠陸登が、LLMと音声基盤モデルを組み合わせた新しいマルチモーダルLLMについて発表した際の資料です。
Spiral.AI
PRO
September 17, 2024
Tweet
Share
More Decks by Spiral.AI
See All by Spiral.AI
キャラクターAI開発におけるLLMの活用
spiralai
PRO
1
1.6k
Spiral.AI採用Deck
spiralai
PRO
0
58k
Other Decks in Programming
See All in Programming
ALL CODE BASE ARE BELONG TO STUDY
uzulla
28
6.9k
CSC509 Lecture 08
javiergs
PRO
0
270
AkarengaLT vol.38
hashimoto_kei
1
130
CSC305 Lecture 12
javiergs
PRO
0
240
社会人になっても趣味開発を続けたい! / traPavilion
mazrean
1
120
One Enishi After Another
snoozer05
PRO
0
170
AI時代に必須!状況言語化スキル / ai-context-verbalization
minodriven
2
250
Reactive Thinking with Signals and the Resource API
manfredsteyer
PRO
0
120
エンジニアに事業やプロダクトを理解してもらうためにやってること
murabayashi
0
100
GitHub Copilotを使いこなせ!/mastering_github_copilot!
kotakageyama
1
170
data-viz-talk-cz-2025
lcolladotor
0
100
はじめてのDSPy - 言語モデルを『プロンプト』ではなく『プログラミング』するための仕組み
masahiro_nishimi
4
17k
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
Being A Developer After 40
akosma
91
590k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
190
56k
How to Ace a Technical Interview
jacobian
280
24k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.5k
The Cost Of JavaScript in 2023
addyosmani
55
9.1k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
940
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.7k
RailsConf 2023
tenderlove
30
1.3k
Six Lessons from altMBA
skipperchong
29
4k
Transcript
LLMと音声基盤モデルを用いた音声認識 2024.09.6 第19回YANSシンポジウム 小峠陸登, 安立健人, 石川宏輔, 佐々木雄一
2 INDEX 目次 01 研究背景 02 提案手法 03 評価実験
3 生成AI×コミュニケーションで 世界を代表する企業へ SpiralAIは、個性の再現に強いAI技術を武器に、エンターテインメントなど日本が誇る様々な分野で ”コミュニケーション”に注力したプロダクト開発を進めています。 生成AIを使いやすく、面白く、身近に。日本の独自性を活かして世界へ挑戦します。
4 背景 LLMを用いた従来の音声対話 音声認識、LLMの組み合わせ。 音声入力可能なマルチモーダルLLMによる音声対話 音声情報をLLMに入力、応答。 テキスト以外の音声情報 (トーン、抑揚、声色など)が失われる テキスト以外の音声情報も踏まえた応答 人間に近いコミュニケーションが可能に
音声を直接LLMに入力 テキスト入力 応答 応答 音声認識モデル LLM マルチモーダルLLM
5 課題 既存のLLMベース音声認識モデル LLM+音声エンコーダー+プロジェクターを学習。 【研究目的】 学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発 音声認識のためには大量のデータで、大量のパラメータの学習が必要 学習コストが大きい 提案手法 Whisper
Nue ASR 学習コスト 従来の音声認識モデル フルスクラッチEnd-to-Endで学習。 Nue ASR [2] 学習データ: 16,000時間 学習パラメータ: 3,708M Whisper [1] 学習データ: 650,000時間+ 学習パラメータ (Large): 1,541M [1] https://github.com/openai/whisper [2] https://huggingface.co/rinna/nue-asr
6 実験設定 提案手法 LLM + LoRA Projector Speech Encoder LLM
tokenizer 「音声を書き起こしてください。」 【アーキテクチャ】 • 事前学習済みLLMと音声エンコーダーを使用 • LLMにLoRAアダプターを追加 • LLMと音声エンコーダーはプロジェクターで接続 【 プロジェクター 】 • ダウンサンプリング用の畳み込み層とMLPで構成 【学習】 • LLMと音声エンコーダーのパラメータは固定 • プロジェクターとLoRAアダプターのみ学習 事前学習済み基盤モデルを活用し 学習パラメータを大幅に削減
7 実験設定 評価実験 学習パラメータ 学習データ 提案手法 19M (Projector: 15M +
LoRA: 4M) 1,000時間 Whisper-v3-large [1] 1,541M 650,000時間以上 (多言語) Nue ASR [2] 3,708M 16,000時間 ReazonSpeech-v2 (espnet) [3] 119M 16,000時間 学習パラメータ 学習データ共に最小 [3] https://huggingface.co/reazon-research/reazonspeech-espnet-v2 [4] https://huggingface.co/rinna/youri-7b [5] https://huggingface.co/microsoft/wavlm-large [6] https://sites.google.com/site/shinnosuketakamichi/publication/jsut LLM 音声エンコーダー 学習データ 評価データ 評価指標 Epoch数 学習環境 学習時間 youri-7b [4] WavLM (Large) [5] 独自データ 約1,000時間 JUST [6] CER & WER 3 A100 (80GB) x8 GPU 約5時間
8 実験結果 CER WER 提案手法 0.080 0.079 Whisper-v3-large [1] 0.066
0.068 Nue ASR [2] 0.093 0.095 ReazonSpeech-v2 (espnet) [3] 0.065 0.068 最先端の日本語音声認識モデルと 同程度のエラーレート [7] https://huggingface.co/rinna/llama-3-youko-8b [8] https://huggingface.co/rinna/japanese-hubert-large
9 まとめ 学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発 【学習】 • 事前学習済みLLMと音声エンコーダーのパラメータは固定 • プロジェクター (15M) とLoRAアダプター
(4M) のみ学習 • 学習データは日本語音声データ1000時間のみ 【評価実験】 • 最先端の日本語音声認識モデルと同程度のエラーレートを達成 • MLPプロジェクター、 LoRAアダプターの有効性を確認 • LLM、音声エンコーダーによって音声認識の精度は異なる 【今後】 今回の音声認識モデルをさらに発展させて、音声対話可能なマルチモーダルLLMを開発