Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RAGで制御可能なFull-duplex音声対話システム
Search
Convergence Lab.
November 26, 2025
0
82
RAGで制御可能なFull-duplex音声対話システム
AI関連プロトコル勉強会 No.1 LT資料
Convergence Lab.
November 26, 2025
Tweet
Share
More Decks by Convergence Lab.
See All by Convergence Lab.
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
160
工学系の関数解析輪読会 - 第1章 線型空間
mssmkmr
0
130
NeurIPS2018読み会@PFN Dialog-to-Action: Conversational Question Answering Over a Large-Scale Knowledge Base
mssmkmr
0
2.1k
考える技術・書く技術まとめ
mssmkmr
0
730
Global-Locally Self-Attentive Dialogue State Tracker
mssmkmr
1
250
RNNとLSTM
mssmkmr
0
290
Featured
See All Featured
Darren the Foodie - Storyboard
khoart
PRO
2
2.2k
Mobile First: as difficult as doing things right
swwweet
225
10k
Everyday Curiosity
cassininazir
0
120
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
99
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.3k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
140
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.1k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.4k
Designing for Timeless Needs
cassininazir
0
120
Art, The Web, and Tiny UX
lynnandtonic
304
21k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
Transcript
RAG で制御可能な Full-duplex 音声対話システム 木村 優志 Convergence Lab.株式会社 2025-11-26
0.1 自己紹介 木村 優志 Convergence Lab.株式会社代表取締役社長 音声言語処理や画像・自然言語処理の機械学習系 エンジニア 豊橋技術科学大学大学院博士後期課程単位取得後 退学。博士(工学)
。ATR-Trec,富士通などを経て 現職。 スタートアップや大手ベンダの機械学習導入支援 を行っている。 1 / 8
CONTENTS 目次 1 Full-duplex 音声対話システ ム 2 RAG で制御可能な Full-
duplex 音声対話システム
1.1 Half-duplex/Full-duplex • Half-duplex(半二重): ‣ 片方が話しているとき、もう片方は話せない。 ‣ 今の Chat GPT
などの音声モード。トランシーバのような対話 • Full-duplex(全二重): ‣ 片方が話しているときでも、もう片方が会話にわりこめる。 ‣ 相槌や割り込み発話など。電話のような対話 1 Full-duplex 音声対話システム 2 / 8
1.2 Kyutai Moshi/J-Moshi 2024 年 7 月に Kyutai が Full-duplex
音声対話可能な LLM Moshi を発表。その後、名古 屋大学の博士課程学生が、日本語対話可能な J-Moshi を発表した。 Moshi は AI と人間の非常に自然な会話を実現している。 1 Full-duplex 音声対話システム 3 / 8
1.3 Moshi の構造 図 1: Moshi の構造 1 Full-duplex 音声対話システム
4 / 8
CONTENTS 目次 1 Full-duplex 音声対話システ ム 2 RAG で制御可能な Full-
duplex 音声対話システム
2.1 Moshi の弱点 • 会話内容を制御しようと思うと、インストラクションチューニングで学習し直す必 要がある。 ‣ Prompt を受け入れる口がない 2
RAG で制御可能な Full-duplex 音声対話システム 5 / 8
2.2 RAG で制御可能な Full-duplex 音声対話システム • LLM とニューラル状態遷移マシンを組み合わせて対話を制御 ‣ Receive
Instruction 状態のときに、Prompt を受け入れる • 関連研究によると、必要な音声データを削減できる ‣ それでも 1000 時間は必要。 ‣ (Moshi は 700 万時間) • 弱点として、Moshi の方式よりはリアルタイム性が落ちる 特許出願中:特願 2025-186695 2 RAG で制御可能な Full-duplex 音声対話システム 6 / 8
2.3 RAG で制御可能な Full-duplex 音声対話システムの構造 図 2: RAG で制御可能な Full-duplex
音声対話システムの構造 2 RAG で制御可能な Full-duplex 音声対話システム 7 / 8
2.4 最後に THANKS FOR ALL 2 RAG で制御可能な Full-duplex 音声対話システム
8 / 8