Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMと音声基盤モデルを用いた音声認識
Search
Spiral.AI
PRO
September 17, 2024
Programming
0
100
LLMと音声基盤モデルを用いた音声認識
本スライドは、YANS2024にて、SpiralAI所属のエンジニア小峠陸登が、LLMと音声基盤モデルを組み合わせた新しいマルチモーダルLLMについて発表した際の資料です。
Spiral.AI
PRO
September 17, 2024
Tweet
Share
More Decks by Spiral.AI
See All by Spiral.AI
キャラクターAI開発におけるLLMの活用
spiralai
PRO
1
1.5k
Spiral.AI採用Deck
spiralai
PRO
0
33k
Other Decks in Programming
See All in Programming
Findy - エンジニア向け会社紹介 / Findy Letter for Engineers
findyinc
4
92k
#TROCCOUG dbt Cloud+TROCCO
troccoug
0
130
宿泊予約サイトにおける検索と料金計算の両立
skaji
1
180
Our Websites Need a Lifestyle Change, Not a Diet
ryantownsend
0
150
個人開発のおいしさと続け方
3l4l5
0
100
AWS Lambda Web Adapterを活用する新しいサーバーレスの実装パターン
tmokmss
6
4.5k
Lessons by WebAssembly app in production on CDN Edge Computing Service
tetsuharuohzeki
0
220
A Journey of Contribution and Collaboration in Open Source
ivargrimstad
0
440
What you can do with Ruby on WebAssembly
kateinoigakukun
0
190
Iteratorでページネーションを実現する
sonatard
2
640
GraphQLの魅力を引き出すAndroidクライアント実装
morux2
3
1.4k
Patched fetch did not work
quramy
6
460
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
325
38k
Infographics Made Easy
chrislema
239
18k
Building a Modern Day E-commerce SEO Strategy
aleyda
36
6.8k
From Idea to $5000 a Month in 5 Months
shpigford
380
46k
StorybookのUI Testing Handbookを読んだ
zakiyama
26
5.1k
Code Reviewing Like a Champion
maltzj
517
39k
Why Our Code Smells
bkeepers
PRO
334
57k
How STYLIGHT went responsive
nonsquared
93
5.1k
Thoughts on Productivity
jonyablonski
66
4.2k
Designing for humans not robots
tammielis
248
25k
4 Signs Your Business is Dying
shpigford
180
21k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
248
20k
Transcript
LLMと音声基盤モデルを用いた音声認識 2024.09.6 第19回YANSシンポジウム 小峠陸登, 安立健人, 石川宏輔, 佐々木雄一
2 INDEX 目次 01 研究背景 02 提案手法 03 評価実験
3 生成AI×コミュニケーションで 世界を代表する企業へ SpiralAIは、個性の再現に強いAI技術を武器に、エンターテインメントなど日本が誇る様々な分野で ”コミュニケーション”に注力したプロダクト開発を進めています。 生成AIを使いやすく、面白く、身近に。日本の独自性を活かして世界へ挑戦します。
4 背景 LLMを用いた従来の音声対話 音声認識、LLMの組み合わせ。 音声入力可能なマルチモーダルLLMによる音声対話 音声情報をLLMに入力、応答。 テキスト以外の音声情報 (トーン、抑揚、声色など)が失われる テキスト以外の音声情報も踏まえた応答 人間に近いコミュニケーションが可能に
音声を直接LLMに入力 テキスト入力 応答 応答 音声認識モデル LLM マルチモーダルLLM
5 課題 既存のLLMベース音声認識モデル LLM+音声エンコーダー+プロジェクターを学習。 【研究目的】 学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発 音声認識のためには大量のデータで、大量のパラメータの学習が必要 学習コストが大きい 提案手法 Whisper
Nue ASR 学習コスト 従来の音声認識モデル フルスクラッチEnd-to-Endで学習。 Nue ASR [2] 学習データ: 16,000時間 学習パラメータ: 3,708M Whisper [1] 学習データ: 650,000時間+ 学習パラメータ (Large): 1,541M [1] https://github.com/openai/whisper [2] https://huggingface.co/rinna/nue-asr
6 実験設定 提案手法 LLM + LoRA Projector Speech Encoder LLM
tokenizer 「音声を書き起こしてください。」 【アーキテクチャ】 • 事前学習済みLLMと音声エンコーダーを使用 • LLMにLoRAアダプターを追加 • LLMと音声エンコーダーはプロジェクターで接続 【 プロジェクター 】 • ダウンサンプリング用の畳み込み層とMLPで構成 【学習】 • LLMと音声エンコーダーのパラメータは固定 • プロジェクターとLoRAアダプターのみ学習 事前学習済み基盤モデルを活用し 学習パラメータを大幅に削減
7 実験設定 評価実験 学習パラメータ 学習データ 提案手法 19M (Projector: 15M +
LoRA: 4M) 1,000時間 Whisper-v3-large [1] 1,541M 650,000時間以上 (多言語) Nue ASR [2] 3,708M 16,000時間 ReazonSpeech-v2 (espnet) [3] 119M 16,000時間 学習パラメータ 学習データ共に最小 [3] https://huggingface.co/reazon-research/reazonspeech-espnet-v2 [4] https://huggingface.co/rinna/youri-7b [5] https://huggingface.co/microsoft/wavlm-large [6] https://sites.google.com/site/shinnosuketakamichi/publication/jsut LLM 音声エンコーダー 学習データ 評価データ 評価指標 Epoch数 学習環境 学習時間 youri-7b [4] WavLM (Large) [5] 独自データ 約1,000時間 JUST [6] CER & WER 3 A100 (80GB) x8 GPU 約5時間
8 実験結果 CER WER 提案手法 0.080 0.079 Whisper-v3-large [1] 0.066
0.068 Nue ASR [2] 0.093 0.095 ReazonSpeech-v2 (espnet) [3] 0.065 0.068 最先端の日本語音声認識モデルと 同程度のエラーレート [7] https://huggingface.co/rinna/llama-3-youko-8b [8] https://huggingface.co/rinna/japanese-hubert-large
9 まとめ 学習コストを削減して、日本語音声認識可能なマルチモーダルLLMを開発 【学習】 • 事前学習済みLLMと音声エンコーダーのパラメータは固定 • プロジェクター (15M) とLoRAアダプター
(4M) のみ学習 • 学習データは日本語音声データ1000時間のみ 【評価実験】 • 最先端の日本語音声認識モデルと同程度のエラーレートを達成 • MLPプロジェクター、 LoRAアダプターの有効性を確認 • LLM、音声エンコーダーによって音声認識の精度は異なる 【今後】 今回の音声認識モデルをさらに発展させて、音声対話可能なマルチモーダルLLMを開発