Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMと音声基盤モデルを用いた音声認識
Search
Spiral.AI
PRO
September 17, 2024
Programming
0
1.6k
LLMと音声基盤モデルを用いた音声認識
本スライドは、YANS2024にて、SpiralAI所属のエンジニア小峠陸登が、LLMと音声基盤モデルを組み合わせた新しいマルチモーダルLLMについて発表した際の資料です。
Spiral.AI
PRO
September 17, 2024
Tweet
Share
More Decks by Spiral.AI
See All by Spiral.AI
キャラクターAI開発におけるLLMの活用
spiralai
PRO
1
1.6k
Spiral.AI採用Deck
spiralai
PRO
0
55k
Other Decks in Programming
See All in Programming
AWS発のAIエディタKiroを使ってみた
iriikeita
1
190
Putting The Genie in the Bottle - A Crash Course on running LLMs on Android
iurysza
0
140
Deep Dive into Kotlin Flow
jmatsu
1
370
HTMLの品質ってなんだっけ? “HTMLクライテリア”の設計と実践
unachang113
4
2.9k
Ruby×iOSアプリ開発 ~共に歩んだエコシステムの物語~
temoki
0
350
Cache Me If You Can
ryunen344
2
4k
API Platform 4.2: Redefining API Development
soyuka
0
220
Android端末で実現するオンデバイスLLM 2025
masayukisuda
1
170
Azure SRE Agentで運用は楽になるのか?
kkamegawa
0
2.5k
testingを眺める
matumoto
1
140
デザイナーが Androidエンジニアに 挑戦してみた
874wokiite
0
550
Design Foundational Data Engineering Observability
sucitw
3
210
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.6k
Git: the NoSQL Database
bkeepers
PRO
431
66k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.8k
The Straight Up "How To Draw Better" Workshop
denniskardys
236
140k
Rebuilding a faster, lazier Slack
samanthasiow
83
9.2k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
Building Applications with DynamoDB
mza
96
6.6k
Music & Morning Musume
bryan
46
6.8k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
930
Code Review Best Practice
trishagee
71
19k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Transcript
LLMと音声基盤モデルを用いた音声認識 2024.09.6 第19回YANSシンポジウム 小峠陸登, 安立健人, 石川宏輔, 佐々木雄一
2 INDEX 目次 01 研究背景 02 提案手法 03 評価実験
3 生成AI×コミュニケーションで 世界を代表する企業へ SpiralAIは、個性の再現に強いAI技術を武器に、エンターテインメントなど日本が誇る様々な分野で ”コミュニケーション”に注力したプロダクト開発を進めています。 生成AIを使いやすく、面白く、身近に。日本の独自性を活かして世界へ挑戦します。
4 背景 LLMを用いた従来の音声対話 音声認識、LLMの組み合わせ。 音声入力可能なマルチモーダルLLMによる音声対話 音声情報をLLMに入力、応答。 テキスト以外の音声情報 (トーン、抑揚、声色など)が失われる テキスト以外の音声情報も踏まえた応答 人間に近いコミュニケーションが可能に
音声を直接LLMに入力 テキスト入力 応答 応答 音声認識モデル LLM マルチモーダルLLM
5 課題 既存のLLMベース音声認識モデル LLM+音声エンコーダー+プロジェクターを学習。 【研究目的】 学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発 音声認識のためには大量のデータで、大量のパラメータの学習が必要 学習コストが大きい 提案手法 Whisper
Nue ASR 学習コスト 従来の音声認識モデル フルスクラッチEnd-to-Endで学習。 Nue ASR [2] 学習データ: 16,000時間 学習パラメータ: 3,708M Whisper [1] 学習データ: 650,000時間+ 学習パラメータ (Large): 1,541M [1] https://github.com/openai/whisper [2] https://huggingface.co/rinna/nue-asr
6 実験設定 提案手法 LLM + LoRA Projector Speech Encoder LLM
tokenizer 「音声を書き起こしてください。」 【アーキテクチャ】 • 事前学習済みLLMと音声エンコーダーを使用 • LLMにLoRAアダプターを追加 • LLMと音声エンコーダーはプロジェクターで接続 【 プロジェクター 】 • ダウンサンプリング用の畳み込み層とMLPで構成 【学習】 • LLMと音声エンコーダーのパラメータは固定 • プロジェクターとLoRAアダプターのみ学習 事前学習済み基盤モデルを活用し 学習パラメータを大幅に削減
7 実験設定 評価実験 学習パラメータ 学習データ 提案手法 19M (Projector: 15M +
LoRA: 4M) 1,000時間 Whisper-v3-large [1] 1,541M 650,000時間以上 (多言語) Nue ASR [2] 3,708M 16,000時間 ReazonSpeech-v2 (espnet) [3] 119M 16,000時間 学習パラメータ 学習データ共に最小 [3] https://huggingface.co/reazon-research/reazonspeech-espnet-v2 [4] https://huggingface.co/rinna/youri-7b [5] https://huggingface.co/microsoft/wavlm-large [6] https://sites.google.com/site/shinnosuketakamichi/publication/jsut LLM 音声エンコーダー 学習データ 評価データ 評価指標 Epoch数 学習環境 学習時間 youri-7b [4] WavLM (Large) [5] 独自データ 約1,000時間 JUST [6] CER & WER 3 A100 (80GB) x8 GPU 約5時間
8 実験結果 CER WER 提案手法 0.080 0.079 Whisper-v3-large [1] 0.066
0.068 Nue ASR [2] 0.093 0.095 ReazonSpeech-v2 (espnet) [3] 0.065 0.068 最先端の日本語音声認識モデルと 同程度のエラーレート [7] https://huggingface.co/rinna/llama-3-youko-8b [8] https://huggingface.co/rinna/japanese-hubert-large
9 まとめ 学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発 【学習】 • 事前学習済みLLMと音声エンコーダーのパラメータは固定 • プロジェクター (15M) とLoRAアダプター
(4M) のみ学習 • 学習データは日本語音声データ1000時間のみ 【評価実験】 • 最先端の日本語音声認識モデルと同程度のエラーレートを達成 • MLPプロジェクター、 LoRAアダプターの有効性を確認 • LLM、音声エンコーダーによって音声認識の精度は異なる 【今後】 今回の音声認識モデルをさらに発展させて、音声対話可能なマルチモーダルLLMを開発