Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RAGで制御可能なFull-duplex音声対話システム
Search
Convergence Lab.
November 26, 2025
0
63
RAGで制御可能なFull-duplex音声対話システム
AI関連プロトコル勉強会 No.1 LT資料
Convergence Lab.
November 26, 2025
Tweet
Share
More Decks by Convergence Lab.
See All by Convergence Lab.
工学系の関数解析輪読会 - 第1章 線型空間
mssmkmr
0
120
NeurIPS2018読み会@PFN Dialog-to-Action: Conversational Question Answering Over a Large-Scale Knowledge Base
mssmkmr
0
2.1k
考える技術・書く技術まとめ
mssmkmr
0
700
Global-Locally Self-Attentive Dialogue State Tracker
mssmkmr
1
250
RNNとLSTM
mssmkmr
0
280
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
970
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
Mobile First: as difficult as doing things right
swwweet
225
10k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
1k
Building Adaptive Systems
keathley
44
2.9k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
4 Signs Your Business is Dying
shpigford
186
22k
Building Flexible Design Systems
yeseniaperezcruz
329
39k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.2k
Fireside Chat
paigeccino
41
3.7k
Transcript
RAG で制御可能な Full-duplex 音声対話システム 木村 優志 Convergence Lab.株式会社 2025-11-26
0.1 自己紹介 木村 優志 Convergence Lab.株式会社代表取締役社長 音声言語処理や画像・自然言語処理の機械学習系 エンジニア 豊橋技術科学大学大学院博士後期課程単位取得後 退学。博士(工学)
。ATR-Trec,富士通などを経て 現職。 スタートアップや大手ベンダの機械学習導入支援 を行っている。 1 / 8
CONTENTS 目次 1 Full-duplex 音声対話システ ム 2 RAG で制御可能な Full-
duplex 音声対話システム
1.1 Half-duplex/Full-duplex • Half-duplex(半二重): ‣ 片方が話しているとき、もう片方は話せない。 ‣ 今の Chat GPT
などの音声モード。トランシーバのような対話 • Full-duplex(全二重): ‣ 片方が話しているときでも、もう片方が会話にわりこめる。 ‣ 相槌や割り込み発話など。電話のような対話 1 Full-duplex 音声対話システム 2 / 8
1.2 Kyutai Moshi/J-Moshi 2024 年 7 月に Kyutai が Full-duplex
音声対話可能な LLM Moshi を発表。その後、名古 屋大学の博士課程学生が、日本語対話可能な J-Moshi を発表した。 Moshi は AI と人間の非常に自然な会話を実現している。 1 Full-duplex 音声対話システム 3 / 8
1.3 Moshi の構造 図 1: Moshi の構造 1 Full-duplex 音声対話システム
4 / 8
CONTENTS 目次 1 Full-duplex 音声対話システ ム 2 RAG で制御可能な Full-
duplex 音声対話システム
2.1 Moshi の弱点 • 会話内容を制御しようと思うと、インストラクションチューニングで学習し直す必 要がある。 ‣ Prompt を受け入れる口がない 2
RAG で制御可能な Full-duplex 音声対話システム 5 / 8
2.2 RAG で制御可能な Full-duplex 音声対話システム • LLM とニューラル状態遷移マシンを組み合わせて対話を制御 ‣ Receive
Instruction 状態のときに、Prompt を受け入れる • 関連研究によると、必要な音声データを削減できる ‣ それでも 1000 時間は必要。 ‣ (Moshi は 700 万時間) • 弱点として、Moshi の方式よりはリアルタイム性が落ちる 特許出願中:特願 2025-186695 2 RAG で制御可能な Full-duplex 音声対話システム 6 / 8
2.3 RAG で制御可能な Full-duplex 音声対話システムの構造 図 2: RAG で制御可能な Full-duplex
音声対話システムの構造 2 RAG で制御可能な Full-duplex 音声対話システム 7 / 8
2.4 最後に THANKS FOR ALL 2 RAG で制御可能な Full-duplex 音声対話システム
8 / 8