Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RAGで制御可能なFull-duplex音声対話システム
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Convergence Lab.
November 26, 2025
0
90
RAGで制御可能なFull-duplex音声対話システム
AI関連プロトコル勉強会 No.1 LT資料
Convergence Lab.
November 26, 2025
Tweet
Share
More Decks by Convergence Lab.
See All by Convergence Lab.
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
270
工学系の関数解析輪読会 - 第1章 線型空間
mssmkmr
0
140
NeurIPS2018読み会@PFN Dialog-to-Action: Conversational Question Answering Over a Large-Scale Knowledge Base
mssmkmr
0
2.1k
考える技術・書く技術まとめ
mssmkmr
0
740
Global-Locally Self-Attentive Dialogue State Tracker
mssmkmr
1
260
RNNとLSTM
mssmkmr
0
290
Featured
See All Featured
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
280
GraphQLとの向き合い方2022年版
quramy
50
14k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
750
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
120
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
Agile that works and the tools we love
rasmusluckow
331
21k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
130
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
110
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2k
Transcript
RAG で制御可能な Full-duplex 音声対話システム 木村 優志 Convergence Lab.株式会社 2025-11-26
0.1 自己紹介 木村 優志 Convergence Lab.株式会社代表取締役社長 音声言語処理や画像・自然言語処理の機械学習系 エンジニア 豊橋技術科学大学大学院博士後期課程単位取得後 退学。博士(工学)
。ATR-Trec,富士通などを経て 現職。 スタートアップや大手ベンダの機械学習導入支援 を行っている。 1 / 8
CONTENTS 目次 1 Full-duplex 音声対話システ ム 2 RAG で制御可能な Full-
duplex 音声対話システム
1.1 Half-duplex/Full-duplex • Half-duplex(半二重): ‣ 片方が話しているとき、もう片方は話せない。 ‣ 今の Chat GPT
などの音声モード。トランシーバのような対話 • Full-duplex(全二重): ‣ 片方が話しているときでも、もう片方が会話にわりこめる。 ‣ 相槌や割り込み発話など。電話のような対話 1 Full-duplex 音声対話システム 2 / 8
1.2 Kyutai Moshi/J-Moshi 2024 年 7 月に Kyutai が Full-duplex
音声対話可能な LLM Moshi を発表。その後、名古 屋大学の博士課程学生が、日本語対話可能な J-Moshi を発表した。 Moshi は AI と人間の非常に自然な会話を実現している。 1 Full-duplex 音声対話システム 3 / 8
1.3 Moshi の構造 図 1: Moshi の構造 1 Full-duplex 音声対話システム
4 / 8
CONTENTS 目次 1 Full-duplex 音声対話システ ム 2 RAG で制御可能な Full-
duplex 音声対話システム
2.1 Moshi の弱点 • 会話内容を制御しようと思うと、インストラクションチューニングで学習し直す必 要がある。 ‣ Prompt を受け入れる口がない 2
RAG で制御可能な Full-duplex 音声対話システム 5 / 8
2.2 RAG で制御可能な Full-duplex 音声対話システム • LLM とニューラル状態遷移マシンを組み合わせて対話を制御 ‣ Receive
Instruction 状態のときに、Prompt を受け入れる • 関連研究によると、必要な音声データを削減できる ‣ それでも 1000 時間は必要。 ‣ (Moshi は 700 万時間) • 弱点として、Moshi の方式よりはリアルタイム性が落ちる 特許出願中:特願 2025-186695 2 RAG で制御可能な Full-duplex 音声対話システム 6 / 8
2.3 RAG で制御可能な Full-duplex 音声対話システムの構造 図 2: RAG で制御可能な Full-duplex
音声対話システムの構造 2 RAG で制御可能な Full-duplex 音声対話システム 7 / 8
2.4 最後に THANKS FOR ALL 2 RAG で制御可能な Full-duplex 音声対話システム
8 / 8