Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMと音声基盤モデルを用いた音声認識
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Spiral.AI
PRO
September 17, 2024
Programming
0
1.9k
LLMと音声基盤モデルを用いた音声認識
本スライドは、YANS2024にて、SpiralAI所属のエンジニア小峠陸登が、LLMと音声基盤モデルを組み合わせた新しいマルチモーダルLLMについて発表した際の資料です。
Spiral.AI
PRO
September 17, 2024
Tweet
Share
More Decks by Spiral.AI
See All by Spiral.AI
キャラクターAI開発におけるLLMの活用
spiralai
PRO
1
1.7k
Spiral.AI採用Deck
spiralai
PRO
0
68k
Other Decks in Programming
See All in Programming
ファインチューニングせずメインコンペを解く方法
pokutuna
0
170
「接続」—パフォーマンスチューニングの最後の一手 〜点と点を結ぶ、その一瞬のために〜
kentaroutakeda
3
1.9k
Migration to Signals, Signal Forms, Resource API, and NgRx Signal Store @Angular Days 03/2026 Munich
manfredsteyer
PRO
0
150
AI 開発合宿を通して得た学び
niftycorp
PRO
0
170
コードレビューをしない選択 #でぃーぷらすトウキョウ
kajitack
3
1.1k
それはエンジニアリングの糧である:AI開発のためにAIのOSSを開発する現場より / It serves as fuel for engineering: insights from the field of developing open-source AI for AI development.
nrslib
1
530
20260315 AWSなんもわからん🥲
chiilog
2
170
Laravel Nightwatchの裏側 - Laravel公式Observabilityツールを支える設計と実装
avosalmon
1
230
new(1.26) ← これすき / kamakura.go #8
utgwkk
0
2.7k
AI活用のコスパを最大化する方法
ochtum
0
320
ロボットのための工場に灯りは要らない
watany
12
3.2k
What Spring Developers Should Know About Jakarta EE
ivargrimstad
0
630
Featured
See All Featured
What does AI have to do with Human Rights?
axbom
PRO
1
2.1k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
150
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.9k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.8k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
840
The Cult of Friendly URLs
andyhume
79
6.8k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
170
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.8k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
91
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
220
What's in a price? How to price your products and services
michaelherold
247
13k
Transcript
LLMと音声基盤モデルを用いた音声認識 2024.09.6 第19回YANSシンポジウム 小峠陸登, 安立健人, 石川宏輔, 佐々木雄一
2 INDEX 目次 01 研究背景 02 提案手法 03 評価実験
3 生成AI×コミュニケーションで 世界を代表する企業へ SpiralAIは、個性の再現に強いAI技術を武器に、エンターテインメントなど日本が誇る様々な分野で ”コミュニケーション”に注力したプロダクト開発を進めています。 生成AIを使いやすく、面白く、身近に。日本の独自性を活かして世界へ挑戦します。
4 背景 LLMを用いた従来の音声対話 音声認識、LLMの組み合わせ。 音声入力可能なマルチモーダルLLMによる音声対話 音声情報をLLMに入力、応答。 テキスト以外の音声情報 (トーン、抑揚、声色など)が失われる テキスト以外の音声情報も踏まえた応答 人間に近いコミュニケーションが可能に
音声を直接LLMに入力 テキスト入力 応答 応答 音声認識モデル LLM マルチモーダルLLM
5 課題 既存のLLMベース音声認識モデル LLM+音声エンコーダー+プロジェクターを学習。 【研究目的】 学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発 音声認識のためには大量のデータで、大量のパラメータの学習が必要 学習コストが大きい 提案手法 Whisper
Nue ASR 学習コスト 従来の音声認識モデル フルスクラッチEnd-to-Endで学習。 Nue ASR [2] 学習データ: 16,000時間 学習パラメータ: 3,708M Whisper [1] 学習データ: 650,000時間+ 学習パラメータ (Large): 1,541M [1] https://github.com/openai/whisper [2] https://huggingface.co/rinna/nue-asr
6 実験設定 提案手法 LLM + LoRA Projector Speech Encoder LLM
tokenizer 「音声を書き起こしてください。」 【アーキテクチャ】 • 事前学習済みLLMと音声エンコーダーを使用 • LLMにLoRAアダプターを追加 • LLMと音声エンコーダーはプロジェクターで接続 【 プロジェクター 】 • ダウンサンプリング用の畳み込み層とMLPで構成 【学習】 • LLMと音声エンコーダーのパラメータは固定 • プロジェクターとLoRAアダプターのみ学習 事前学習済み基盤モデルを活用し 学習パラメータを大幅に削減
7 実験設定 評価実験 学習パラメータ 学習データ 提案手法 19M (Projector: 15M +
LoRA: 4M) 1,000時間 Whisper-v3-large [1] 1,541M 650,000時間以上 (多言語) Nue ASR [2] 3,708M 16,000時間 ReazonSpeech-v2 (espnet) [3] 119M 16,000時間 学習パラメータ 学習データ共に最小 [3] https://huggingface.co/reazon-research/reazonspeech-espnet-v2 [4] https://huggingface.co/rinna/youri-7b [5] https://huggingface.co/microsoft/wavlm-large [6] https://sites.google.com/site/shinnosuketakamichi/publication/jsut LLM 音声エンコーダー 学習データ 評価データ 評価指標 Epoch数 学習環境 学習時間 youri-7b [4] WavLM (Large) [5] 独自データ 約1,000時間 JUST [6] CER & WER 3 A100 (80GB) x8 GPU 約5時間
8 実験結果 CER WER 提案手法 0.080 0.079 Whisper-v3-large [1] 0.066
0.068 Nue ASR [2] 0.093 0.095 ReazonSpeech-v2 (espnet) [3] 0.065 0.068 最先端の日本語音声認識モデルと 同程度のエラーレート [7] https://huggingface.co/rinna/llama-3-youko-8b [8] https://huggingface.co/rinna/japanese-hubert-large
9 まとめ 学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発 【学習】 • 事前学習済みLLMと音声エンコーダーのパラメータは固定 • プロジェクター (15M) とLoRAアダプター
(4M) のみ学習 • 学習データは日本語音声データ1000時間のみ 【評価実験】 • 最先端の日本語音声認識モデルと同程度のエラーレートを達成 • MLPプロジェクター、 LoRAアダプターの有効性を確認 • LLM、音声エンコーダーによって音声認識の精度は異なる 【今後】 今回の音声認識モデルをさらに発展させて、音声対話可能なマルチモーダルLLMを開発