RAGで制御可能なFull-duplex音声対話システム

RAG で制御可能な Full-duplex 音声対話システム木村優志 Convergence Lab.株式会社 2025-11-26

0.1 自己紹介木村優志 Convergence Lab.株式会社代表取締役社長音声言語処理や画像・自然言語処理の機械学習系エンジニア豊橋技術科学大学大学院博士後期課程単位取得後退学。博士（工学）
。ATR-Trec,富士通などを経て現職。スタートアップや大手ベンダの機械学習導入支援を行っている。 1 / 8

CONTENTS 目次 1 Full-duplex 音声対話システム 2 RAG で制御可能な Full-
duplex 音声対話システム

1.1 Half-duplex/Full-duplex • Half-duplex(半二重): ‣ 片方が話しているとき、もう片方は話せない。 ‣ 今の Chat GPT
などの音声モード。トランシーバのような対話 • Full-duplex(全二重): ‣ 片方が話しているときでも、もう片方が会話にわりこめる。 ‣ 相槌や割り込み発話など。電話のような対話 1 Full-duplex 音声対話システム 2 / 8

1.2 Kyutai Moshi/J-Moshi 2024 年 7 月に Kyutai が Full-duplex
音声対話可能な LLM Moshi を発表。その後、名古屋大学の博士課程学生が、日本語対話可能な J-Moshi を発表した。 Moshi は AI と人間の非常に自然な会話を実現している。 1 Full-duplex 音声対話システム 3 / 8

1.3 Moshi の構造図 1: Moshi の構造 1 Full-duplex 音声対話システム
4 / 8

CONTENTS 目次 1 Full-duplex 音声対話システム 2 RAG で制御可能な Full-
duplex 音声対話システム

2.1 Moshi の弱点 • 会話内容を制御しようと思うと、インストラクションチューニングで学習し直す必要がある。 ‣ Prompt を受け入れる口がない 2
RAG で制御可能な Full-duplex 音声対話システム 5 / 8

2.2 RAG で制御可能な Full-duplex 音声対話システム • LLM とニューラル状態遷移マシンを組み合わせて対話を制御 ‣ Receive
Instruction 状態のときに、Prompt を受け入れる • 関連研究によると、必要な音声データを削減できる ‣ それでも 1000 時間は必要。 ‣ (Moshi は 700 万時間) • 弱点として、Moshi の方式よりはリアルタイム性が落ちる特許出願中：特願 2025-186695 2 RAG で制御可能な Full-duplex 音声対話システム 6 / 8

2.3 RAG で制御可能な Full-duplex 音声対話システムの構造図 2: RAG で制御可能な Full-duplex
音声対話システムの構造 2 RAG で制御可能な Full-duplex 音声対話システム 7 / 8

2.4 最後に THANKS FOR ALL 2 RAG で制御可能な Full-duplex 音声対話システム
8 / 8

RAGで制御可能なFull-duplex音声対話システム

RAGで制御可能なFull-duplex音声対話システム

Convergence Lab.

More Decks by Convergence Lab.

Featured

Transcript

RAG で制御可能な Full-duplex 音声対話システム木村優志 Convergence Lab.株式会社 2025-11-26

0.1 自己紹介木村優志 Convergence Lab.株式会社代表取締役社長音声言語処理や画像・自然言語処理の機械学習系エンジニア豊橋技術科学大学大学院博士後期課程単位取得後退学。博士（工学）

CONTENTS 目次 1 Full-duplex 音声対話システム 2 RAG で制御可能な Full-

1.1 Half-duplex/Full-duplex • Half-duplex(半二重): ‣ 片方が話しているとき、もう片方は話せない。 ‣ 今の Chat GPT

1.2 Kyutai Moshi/J-Moshi 2024 年 7 月に Kyutai が Full-duplex

1.3 Moshi の構造図 1: Moshi の構造 1 Full-duplex 音声対話システム

CONTENTS 目次 1 Full-duplex 音声対話システム 2 RAG で制御可能な Full-

2.1 Moshi の弱点 • 会話内容を制御しようと思うと、インストラクションチューニングで学習し直す必要がある。 ‣ Prompt を受け入れる口がない 2

2.2 RAG で制御可能な Full-duplex 音声対話システム • LLM とニューラル状態遷移マシンを組み合わせて対話を制御 ‣ Receive

2.3 RAG で制御可能な Full-duplex 音声対話システムの構造図 2: RAG で制御可能な Full-duplex

2.4 最後に THANKS FOR ALL 2 RAG で制御可能な Full-duplex 音声対話システム