Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMと音声基盤モデルを用いた音声認識
Search
Spiral.AI
PRO
September 17, 2024
Programming
0
940
LLMと音声基盤モデルを用いた音声認識
本スライドは、YANS2024にて、SpiralAI所属のエンジニア小峠陸登が、LLMと音声基盤モデルを組み合わせた新しいマルチモーダルLLMについて発表した際の資料です。
Spiral.AI
PRO
September 17, 2024
Tweet
Share
More Decks by Spiral.AI
See All by Spiral.AI
キャラクターAI開発におけるLLMの活用
spiralai
PRO
1
1.6k
Spiral.AI採用Deck
spiralai
PRO
0
45k
Other Decks in Programming
See All in Programming
Learning Kotlin with detekt
inouehi
1
150
TCAを用いたAmebaのリアーキテクチャ
dazy
0
210
Kotlinの開発でも AIをいい感じに使いたい / Making the Most of AI in Kotlin Development
kohii00
5
1.4k
負債になりにくいCSSをデザイナとつくるには?
fsubal
10
2.6k
複数のAWSアカウントから横断で 利用する Lambda Authorizer の作り方
tc3jp
0
120
sappoRo.R #12 初心者セッション
kosugitti
0
280
Unity Android XR入門
sakutama_11
0
180
Djangoにおける複数ユーザー種別認証の設計アプローチ@DjangoCongress JP 2025
delhi09
PRO
4
490
CloudNativePGを布教したい
nnaka2992
0
120
メンテが命: PHPフレームワークのコンテナ化とアップグレード戦略
shunta27
0
310
kintone開発を効率化するためにチームで試した施策とその結果を大放出!
oguemon
0
170
Domain-Driven Design (Tutorial)
hschwentner
13
22k
Featured
See All Featured
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.3k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.2k
Building an army of robots
kneath
303
45k
Making the Leap to Tech Lead
cromwellryan
133
9.1k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
650
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Faster Mobile Websites
deanohume
306
31k
Designing on Purpose - Digital PM Summit 2013
jponch
117
7.1k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3k
Optimizing for Happiness
mojombo
376
70k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
10
1.3k
Transcript
LLMと音声基盤モデルを用いた音声認識 2024.09.6 第19回YANSシンポジウム 小峠陸登, 安立健人, 石川宏輔, 佐々木雄一
2 INDEX 目次 01 研究背景 02 提案手法 03 評価実験
3 生成AI×コミュニケーションで 世界を代表する企業へ SpiralAIは、個性の再現に強いAI技術を武器に、エンターテインメントなど日本が誇る様々な分野で ”コミュニケーション”に注力したプロダクト開発を進めています。 生成AIを使いやすく、面白く、身近に。日本の独自性を活かして世界へ挑戦します。
4 背景 LLMを用いた従来の音声対話 音声認識、LLMの組み合わせ。 音声入力可能なマルチモーダルLLMによる音声対話 音声情報をLLMに入力、応答。 テキスト以外の音声情報 (トーン、抑揚、声色など)が失われる テキスト以外の音声情報も踏まえた応答 人間に近いコミュニケーションが可能に
音声を直接LLMに入力 テキスト入力 応答 応答 音声認識モデル LLM マルチモーダルLLM
5 課題 既存のLLMベース音声認識モデル LLM+音声エンコーダー+プロジェクターを学習。 【研究目的】 学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発 音声認識のためには大量のデータで、大量のパラメータの学習が必要 学習コストが大きい 提案手法 Whisper
Nue ASR 学習コスト 従来の音声認識モデル フルスクラッチEnd-to-Endで学習。 Nue ASR [2] 学習データ: 16,000時間 学習パラメータ: 3,708M Whisper [1] 学習データ: 650,000時間+ 学習パラメータ (Large): 1,541M [1] https://github.com/openai/whisper [2] https://huggingface.co/rinna/nue-asr
6 実験設定 提案手法 LLM + LoRA Projector Speech Encoder LLM
tokenizer 「音声を書き起こしてください。」 【アーキテクチャ】 • 事前学習済みLLMと音声エンコーダーを使用 • LLMにLoRAアダプターを追加 • LLMと音声エンコーダーはプロジェクターで接続 【 プロジェクター 】 • ダウンサンプリング用の畳み込み層とMLPで構成 【学習】 • LLMと音声エンコーダーのパラメータは固定 • プロジェクターとLoRAアダプターのみ学習 事前学習済み基盤モデルを活用し 学習パラメータを大幅に削減
7 実験設定 評価実験 学習パラメータ 学習データ 提案手法 19M (Projector: 15M +
LoRA: 4M) 1,000時間 Whisper-v3-large [1] 1,541M 650,000時間以上 (多言語) Nue ASR [2] 3,708M 16,000時間 ReazonSpeech-v2 (espnet) [3] 119M 16,000時間 学習パラメータ 学習データ共に最小 [3] https://huggingface.co/reazon-research/reazonspeech-espnet-v2 [4] https://huggingface.co/rinna/youri-7b [5] https://huggingface.co/microsoft/wavlm-large [6] https://sites.google.com/site/shinnosuketakamichi/publication/jsut LLM 音声エンコーダー 学習データ 評価データ 評価指標 Epoch数 学習環境 学習時間 youri-7b [4] WavLM (Large) [5] 独自データ 約1,000時間 JUST [6] CER & WER 3 A100 (80GB) x8 GPU 約5時間
8 実験結果 CER WER 提案手法 0.080 0.079 Whisper-v3-large [1] 0.066
0.068 Nue ASR [2] 0.093 0.095 ReazonSpeech-v2 (espnet) [3] 0.065 0.068 最先端の日本語音声認識モデルと 同程度のエラーレート [7] https://huggingface.co/rinna/llama-3-youko-8b [8] https://huggingface.co/rinna/japanese-hubert-large
9 まとめ 学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発 【学習】 • 事前学習済みLLMと音声エンコーダーのパラメータは固定 • プロジェクター (15M) とLoRAアダプター
(4M) のみ学習 • 学習データは日本語音声データ1000時間のみ 【評価実験】 • 最先端の日本語音声認識モデルと同程度のエラーレートを達成 • MLPプロジェクター、 LoRAアダプターの有効性を確認 • LLM、音声エンコーダーによって音声認識の精度は異なる 【今後】 今回の音声認識モデルをさらに発展させて、音声対話可能なマルチモーダルLLMを開発