Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RAGで制御可能なFull-duplex音声対話システム
Search
Convergence Lab.
November 26, 2025
0
69
RAGで制御可能なFull-duplex音声対話システム
AI関連プロトコル勉強会 No.1 LT資料
Convergence Lab.
November 26, 2025
Tweet
Share
More Decks by Convergence Lab.
See All by Convergence Lab.
工学系の関数解析輪読会 - 第1章 線型空間
mssmkmr
0
130
NeurIPS2018読み会@PFN Dialog-to-Action: Conversational Question Answering Over a Large-Scale Knowledge Base
mssmkmr
0
2.1k
考える技術・書く技術まとめ
mssmkmr
0
710
Global-Locally Self-Attentive Dialogue State Tracker
mssmkmr
1
250
RNNとLSTM
mssmkmr
0
280
Featured
See All Featured
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
27
What the history of the web can teach us about the future of AI
inesmontani
PRO
0
370
Building Applications with DynamoDB
mza
96
6.8k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
0
260
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
28
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
150
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
30
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
Technical Leadership for Architectural Decision Making
baasie
0
180
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
1k
Transcript
RAG で制御可能な Full-duplex 音声対話システム 木村 優志 Convergence Lab.株式会社 2025-11-26
0.1 自己紹介 木村 優志 Convergence Lab.株式会社代表取締役社長 音声言語処理や画像・自然言語処理の機械学習系 エンジニア 豊橋技術科学大学大学院博士後期課程単位取得後 退学。博士(工学)
。ATR-Trec,富士通などを経て 現職。 スタートアップや大手ベンダの機械学習導入支援 を行っている。 1 / 8
CONTENTS 目次 1 Full-duplex 音声対話システ ム 2 RAG で制御可能な Full-
duplex 音声対話システム
1.1 Half-duplex/Full-duplex • Half-duplex(半二重): ‣ 片方が話しているとき、もう片方は話せない。 ‣ 今の Chat GPT
などの音声モード。トランシーバのような対話 • Full-duplex(全二重): ‣ 片方が話しているときでも、もう片方が会話にわりこめる。 ‣ 相槌や割り込み発話など。電話のような対話 1 Full-duplex 音声対話システム 2 / 8
1.2 Kyutai Moshi/J-Moshi 2024 年 7 月に Kyutai が Full-duplex
音声対話可能な LLM Moshi を発表。その後、名古 屋大学の博士課程学生が、日本語対話可能な J-Moshi を発表した。 Moshi は AI と人間の非常に自然な会話を実現している。 1 Full-duplex 音声対話システム 3 / 8
1.3 Moshi の構造 図 1: Moshi の構造 1 Full-duplex 音声対話システム
4 / 8
CONTENTS 目次 1 Full-duplex 音声対話システ ム 2 RAG で制御可能な Full-
duplex 音声対話システム
2.1 Moshi の弱点 • 会話内容を制御しようと思うと、インストラクションチューニングで学習し直す必 要がある。 ‣ Prompt を受け入れる口がない 2
RAG で制御可能な Full-duplex 音声対話システム 5 / 8
2.2 RAG で制御可能な Full-duplex 音声対話システム • LLM とニューラル状態遷移マシンを組み合わせて対話を制御 ‣ Receive
Instruction 状態のときに、Prompt を受け入れる • 関連研究によると、必要な音声データを削減できる ‣ それでも 1000 時間は必要。 ‣ (Moshi は 700 万時間) • 弱点として、Moshi の方式よりはリアルタイム性が落ちる 特許出願中:特願 2025-186695 2 RAG で制御可能な Full-duplex 音声対話システム 6 / 8
2.3 RAG で制御可能な Full-duplex 音声対話システムの構造 図 2: RAG で制御可能な Full-duplex
音声対話システムの構造 2 RAG で制御可能な Full-duplex 音声対話システム 7 / 8
2.4 最後に THANKS FOR ALL 2 RAG で制御可能な Full-duplex 音声対話システム
8 / 8