Slide 7
Slide 7 text
7
実験設定
評価実験
学習パラメータ 学習データ
提案手法 19M
(Projector: 15M + LoRA: 4M)
1,000時間
Whisper-v3-large [1] 1,541M 650,000時間以上 (多言語)
Nue ASR [2] 3,708M 16,000時間
ReazonSpeech-v2 (espnet) [3] 119M 16,000時間
学習パラメータ
学習データ共に最小
[3] https://huggingface.co/reazon-research/reazonspeech-espnet-v2
[4] https://huggingface.co/rinna/youri-7b
[5] https://huggingface.co/microsoft/wavlm-large
[6] https://sites.google.com/site/shinnosuketakamichi/publication/jsut
LLM 音声エンコーダー 学習データ 評価データ 評価指標 Epoch数 学習環境 学習時間
youri-7b [4] WavLM (Large) [5] 独自データ 約1,000時間 JUST [6] CER & WER 3 A100 (80GB) x8 GPU 約5時間