音声言語モデル手法に関する発表の紹介

NLP2026 参加報告会⾳声⾔語モデル⼿法に関する発表の紹介 2026/04/21 Kazuki Inamura

2 NLPの研究で修⼠課程を修了後、 CyberAgent->PKSHA Technology->MNTSQにて NLP/MLを活かしたAI SaaSプロダクトを開発。 2024年にIVRy⼊社。通話に関するデータの分析や情報⽣成を中⼼に貢献、現在はIVRy Data Hubとい
う新製品の AI Agent 開発を主導。最近のブーム: Hermes Agent による作業⾃動化 Kazuki Inamura AI engineer / Technical Product Manager X @kzinmr ⾃⼰紹介

3 今⽇紹介する研究 - FT-LLM 2026：「合成データを使⽤した⽇本語⾳声LLMの開発」@ 第2回「⼤規模⾔語モデルのファインチューニング技術と評価」⾃由型タスク堤歩⽃, ⼤城
治城 (都⽴⼤) => JaSpeechLLM-8B モデルとして公開 - C1-1: 「Llama-Mimi: 意味‧⾳響トークンを交互配置した⾳声⾔語モデル」杉浦⼀瑳 (京⼤/NII), 栗⽥修平, ⼩⽥悠介 (NII), 東中⻯⼀郎 (名⼤/NII) => Llama-Mimi-1.3B モデルとして公開

4 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめアジェンダ

補足： RVQ（Residual Vector Quantization）：徐々に小さくなる近似の組み合わせで表現　EnCodec / SoundStream / Mimi の音声トークナイザで広く使われる基礎テクニック
残差は減っていく https://drscotthawley.github.io/bl og/posts/2023-06-12-RVQ.html

補足：Moshi (w/ mimi) by RQ-Transformer => Llama-mimi ２次元の依存関係（意味 →意味、意味→音響…_t ）
依存関係を１次元化タスク: realtime & full-duplex (multistream) 会話タスク: 単一 speech continuation

18 We are Hiring!

音声言語モデル手法に関する発表の紹介

音声言語モデル手法に関する発表の紹介

Kazuki Inamura

More Decks by Kazuki Inamura

Other Decks in Technology

Featured

Transcript

NLP2026 参加報告会⾳声⾔語モデル⼿法に関する発表の紹介 2026/04/21 Kazuki Inamura

2 NLPの研究で修⼠課程を修了後、 CyberAgent->PKSHA Technology->MNTSQにて NLP/MLを活かしたAI SaaSプロダクトを開発。 2024年にIVRy⼊社。通話に関するデータの分析や情報⽣成を中⼼に貢献、現在はIVRy Data Hubとい

3 今⽇紹介する研究 - FT-LLM 2026：「合成データを使⽤した⽇本語⾳声LLMの開発」@ 第2回「⼤規模⾔語モデルのファインチューニング技術と評価」⾃由型タスク堤歩⽃, ⼤城

4 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.

6 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.

10 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.

補足： RVQ（Residual Vector Quantization）：徐々に小さくなる近似の組み合わせで表現　EnCodec / SoundStream / Mimi の音声トークナイザで広く使われる基礎テクニック

補足：Moshi (w/ mimi) by RQ-Transformer => Llama-mimi ２次元の依存関係（意味 →意味、意味→音響…_t ）

16 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.

18 We are Hiring!