Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声言語モデル手法に関する発表の紹介
Search
Kazuki Inamura
April 27, 2026
Technology
180
0
Share
音声言語モデル手法に関する発表の紹介
NLP2026参加報告会での発表
Kazuki Inamura
April 27, 2026
More Decks by Kazuki Inamura
See All by Kazuki Inamura
Harness Engineering and Al Agent
kzinmr
0
400
"Vertical AI製品の品質管理" / 【MNTSQxUbie】Vertical AI Startup Meetup
kzinmr
0
2.2k
Other Decks in Technology
See All in Technology
20260515 OpenIDファウンデーション・ジャパンご紹介
oidfj
0
130
Databricks 月刊サービスアップデートまとめ 2026年04月号
tyosi1212
0
130
10サービス以上のメール到達率改善を地道に継続的に進めている話 / Continue to improve email delivery rates across multiple services
yamaguchitk333
6
1.9k
Terragrunt x Snowflake + dbt で作るマルチテナントなデータ基盤構築プラットフォーム
gak_t12
0
210
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.4k
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
15
100k
クラウドネイティブ DB はいかにして制約を 克服したか? 〜進化歴史から紐解く、スケーラブルアーキテクチャ設計指針〜
hacomono
PRO
6
1k
2026年春のAgentCoreアプデ 細かいやつ全部まとめ
minorun365
4
240
freeeで運用しているAIQAについて
qatonchan
1
630
ワールドカフェ再び、そしてゴール・ルール・ロール・ツール / World Café Revisited, and the Goals-Rules-Roles-Tools
ks91
PRO
0
180
可視化から活用へ — Mesh化・Segmentation・アライメントの研究動向
gpuunite_official
0
220
CARTA HOLDINGS エンジニア向け 採用ピッチ資料 / CARTA-GUIDE-for-Engineers
carta_engineering
0
47k
Featured
See All Featured
Music & Morning Musume
bryan
47
7.2k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
We Have a Design System, Now What?
morganepeng
55
8.1k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
HDC tutorial
michielstock
2
660
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
360
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
690
How to train your dragon (web standard)
notwaldorf
97
6.6k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
510
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
23k
Transcript
NLP2026 参加報告会 ⾳声⾔語モデル⼿法に関する発表の紹介 2026/04/21 Kazuki Inamura
2 NLPの研究で修⼠課程を修了後、 CyberAgent->PKSHA Technology->MNTSQにて NLP/MLを活かしたAI SaaSプロダクトを開発。 2024年にIVRy⼊社。通話に関するデータの分析や 情報⽣成を中⼼に貢献、現在はIVRy Data Hubとい
う新製品の AI Agent 開発を主導。 最近のブーム: Hermes Agent による作業⾃動化 Kazuki Inamura AI engineer / Technical Product Manager X @kzinmr ⾃⼰紹介
3 今⽇紹介する研究 - FT-LLM 2026:「合成データを使⽤した⽇本語⾳声LLMの開発」@ 第2回「⼤ 規模⾔語モデルのファインチューニング技術と評価」⾃由型タスク 堤 歩⽃, ⼤城
治城 (都⽴⼤) => JaSpeechLLM-8B モデルとして公開 - C1-1: 「Llama-Mimi: 意味‧⾳響トークンを交互配置した ⾳声⾔語モデル」 杉浦 ⼀瑳 (京⼤/NII), 栗⽥ 修平, ⼩⽥ 悠介 (NII), 東中 ⻯⼀郎 (名⼤/NII) => Llama-Mimi-1.3B モデルとして公開
4 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
6 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
None
None
10 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
None
None
補足: RVQ(Residual Vector Quantization):徐々に小さくなる近似の組み合わせで表現 EnCodec / SoundStream / Mimi の音声トークナイザで広く使われる基礎テクニック
残差は減っていく https://drscotthawley.github.io/bl og/posts/2023-06-12-RVQ.html
補足:Moshi (w/ mimi) by RQ-Transformer => Llama-mimi 2次元の依存関係(意味 →意味、意味→音響…_t )
依存関係を1次元化 タスク: realtime & full-duplex (multistream) 会話 タスク: 単一 speech continuation
16 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
18 We are Hiring!