Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RAGで制御可能なFull-duplex音声対話システム
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Convergence Lab.
November 26, 2025
0
99
RAGで制御可能なFull-duplex音声対話システム
AI関連プロトコル勉強会 No.1 LT資料
Convergence Lab.
November 26, 2025
Tweet
Share
More Decks by Convergence Lab.
See All by Convergence Lab.
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
400
工学系の関数解析輪読会 - 第1章 線型空間
mssmkmr
0
140
NeurIPS2018読み会@PFN Dialog-to-Action: Conversational Question Answering Over a Large-Scale Knowledge Base
mssmkmr
0
2.1k
考える技術・書く技術まとめ
mssmkmr
0
780
Global-Locally Self-Attentive Dialogue State Tracker
mssmkmr
1
270
RNNとLSTM
mssmkmr
0
300
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
77
5.3k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.2k
Darren the Foodie - Storyboard
khoart
PRO
3
3k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
160
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.3k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.5k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
980
From π to Pie charts
rasagy
0
160
Mind Mapping
helmedeiros
PRO
1
130
Ethics towards AI in product and experience design
skipperchong
2
240
Git: the NoSQL Database
bkeepers
PRO
432
67k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.8k
Transcript
RAG で制御可能な Full-duplex 音声対話システム 木村 優志 Convergence Lab.株式会社 2025-11-26
0.1 自己紹介 木村 優志 Convergence Lab.株式会社代表取締役社長 音声言語処理や画像・自然言語処理の機械学習系 エンジニア 豊橋技術科学大学大学院博士後期課程単位取得後 退学。博士(工学)
。ATR-Trec,富士通などを経て 現職。 スタートアップや大手ベンダの機械学習導入支援 を行っている。 1 / 8
CONTENTS 目次 1 Full-duplex 音声対話システ ム 2 RAG で制御可能な Full-
duplex 音声対話システム
1.1 Half-duplex/Full-duplex • Half-duplex(半二重): ‣ 片方が話しているとき、もう片方は話せない。 ‣ 今の Chat GPT
などの音声モード。トランシーバのような対話 • Full-duplex(全二重): ‣ 片方が話しているときでも、もう片方が会話にわりこめる。 ‣ 相槌や割り込み発話など。電話のような対話 1 Full-duplex 音声対話システム 2 / 8
1.2 Kyutai Moshi/J-Moshi 2024 年 7 月に Kyutai が Full-duplex
音声対話可能な LLM Moshi を発表。その後、名古 屋大学の博士課程学生が、日本語対話可能な J-Moshi を発表した。 Moshi は AI と人間の非常に自然な会話を実現している。 1 Full-duplex 音声対話システム 3 / 8
1.3 Moshi の構造 図 1: Moshi の構造 1 Full-duplex 音声対話システム
4 / 8
CONTENTS 目次 1 Full-duplex 音声対話システ ム 2 RAG で制御可能な Full-
duplex 音声対話システム
2.1 Moshi の弱点 • 会話内容を制御しようと思うと、インストラクションチューニングで学習し直す必 要がある。 ‣ Prompt を受け入れる口がない 2
RAG で制御可能な Full-duplex 音声対話システム 5 / 8
2.2 RAG で制御可能な Full-duplex 音声対話システム • LLM とニューラル状態遷移マシンを組み合わせて対話を制御 ‣ Receive
Instruction 状態のときに、Prompt を受け入れる • 関連研究によると、必要な音声データを削減できる ‣ それでも 1000 時間は必要。 ‣ (Moshi は 700 万時間) • 弱点として、Moshi の方式よりはリアルタイム性が落ちる 特許出願中:特願 2025-186695 2 RAG で制御可能な Full-duplex 音声対話システム 6 / 8
2.3 RAG で制御可能な Full-duplex 音声対話システムの構造 図 2: RAG で制御可能な Full-duplex
音声対話システムの構造 2 RAG で制御可能な Full-duplex 音声対話システム 7 / 8
2.4 最後に THANKS FOR ALL 2 RAG で制御可能な Full-duplex 音声対話システム
8 / 8