Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声言語モデル手法に関する発表の紹介
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Kazuki Inamura
April 27, 2026
Technology
100
0
Share
音声言語モデル手法に関する発表の紹介
NLP2026参加報告会での発表
Kazuki Inamura
April 27, 2026
More Decks by Kazuki Inamura
See All by Kazuki Inamura
"Vertical AI製品の品質管理" / 【MNTSQxUbie】Vertical AI Startup Meetup
kzinmr
0
2.2k
Other Decks in Technology
See All in Technology
AWS認定資格は本当に意味があるのか?
nrinetcom
PRO
2
280
AgentCore×VPCでの設計パターンn選と勘所
har1101
3
280
Azure Static Web Apps の自動ビルドがタイムアウトしやすくなった状況に対応した件/global-azure2026
thara0402
0
410
AWS Agent Registry の基礎・概要を理解する/aws-agent-registry-intro
ren8k
3
380
AgentCore Managed Harness を使ってみよう
yakumo
2
110
ネットワーク運用を楽にするAWS DevOps Agent活用法!! / 20260421 Masaki Okuda
shift_evolve
PRO
2
210
生成AIが変える SaaS の競争原理と弁護士ドットコムのプロダクト戦略
bengo4com
1
1k
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
74k
ARIA Notifyについて
ryokatsuse
1
120
OpenClaw - Nerdearla 2026
pablokbs
0
100
Hacobu Tech Deck
hacobu
PRO
0
110
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.4k
Featured
See All Featured
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Code Review Best Practice
trishagee
74
20k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
130
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
340
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
150
Java REST API Framework Comparison - PWX 2021
mraible
34
9.3k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.9k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
My Coaching Mixtape
mlcsv
0
100
A better future with KSS
kneath
240
18k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
320
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Transcript
NLP2026 参加報告会 ⾳声⾔語モデル⼿法に関する発表の紹介 2026/04/21 Kazuki Inamura
2 NLPの研究で修⼠課程を修了後、 CyberAgent->PKSHA Technology->MNTSQにて NLP/MLを活かしたAI SaaSプロダクトを開発。 2024年にIVRy⼊社。通話に関するデータの分析や 情報⽣成を中⼼に貢献、現在はIVRy Data Hubとい
う新製品の AI Agent 開発を主導。 最近のブーム: Hermes Agent による作業⾃動化 Kazuki Inamura AI engineer / Technical Product Manager X @kzinmr ⾃⼰紹介
3 今⽇紹介する研究 - FT-LLM 2026:「合成データを使⽤した⽇本語⾳声LLMの開発」@ 第2回「⼤ 規模⾔語モデルのファインチューニング技術と評価」⾃由型タスク 堤 歩⽃, ⼤城
治城 (都⽴⼤) => JaSpeechLLM-8B モデルとして公開 - C1-1: 「Llama-Mimi: 意味‧⾳響トークンを交互配置した ⾳声⾔語モデル」 杉浦 ⼀瑳 (京⼤/NII), 栗⽥ 修平, ⼩⽥ 悠介 (NII), 東中 ⻯⼀郎 (名⼤/NII) => Llama-Mimi-1.3B モデルとして公開
4 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
6 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
None
None
10 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
None
None
補足: RVQ(Residual Vector Quantization):徐々に小さくなる近似の組み合わせで表現 EnCodec / SoundStream / Mimi の音声トークナイザで広く使われる基礎テクニック
残差は減っていく https://drscotthawley.github.io/bl og/posts/2023-06-12-RVQ.html
補足:Moshi (w/ mimi) by RQ-Transformer => Llama-mimi 2次元の依存関係(意味 →意味、意味→音響…_t )
依存関係を1次元化 タスク: realtime & full-duplex (multistream) 会話 タスク: 単一 speech continuation
16 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
18 We are Hiring!