Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

RAGで制御可能なFull-duplex音声対話システム

Avatar for Convergence Lab. Convergence Lab.
November 26, 2025
63

 RAGで制御可能なFull-duplex音声対話システム

AI関連プロトコル勉強会 No.1 LT資料

Avatar for Convergence Lab.

Convergence Lab.

November 26, 2025
Tweet

Transcript

  1. 1.1 Half-duplex/Full-duplex • Half-duplex(半二重): ‣ 片方が話しているとき、もう片方は話せない。 ‣ 今の Chat GPT

    などの音声モード。トランシーバのような対話 • Full-duplex(全二重): ‣ 片方が話しているときでも、もう片方が会話にわりこめる。 ‣ 相槌や割り込み発話など。電話のような対話 1 Full-duplex 音声対話システム 2 / 8
  2. 1.2 Kyutai Moshi/J-Moshi 2024 年 7 月に Kyutai が Full-duplex

    音声対話可能な LLM Moshi を発表。その後、名古 屋大学の博士課程学生が、日本語対話可能な J-Moshi を発表した。 Moshi は AI と人間の非常に自然な会話を実現している。 1 Full-duplex 音声対話システム 3 / 8
  3. 2.2 RAG で制御可能な Full-duplex 音声対話システム • LLM とニューラル状態遷移マシンを組み合わせて対話を制御 ‣ Receive

    Instruction 状態のときに、Prompt を受け入れる • 関連研究によると、必要な音声データを削減できる ‣ それでも 1000 時間は必要。 ‣ (Moshi は 700 万時間) • 弱点として、Moshi の方式よりはリアルタイム性が落ちる 特許出願中:特願 2025-186695 2 RAG で制御可能な Full-duplex 音声対話システム 6 / 8
  4. 2.3 RAG で制御可能な Full-duplex 音声対話システムの構造 図 2: RAG で制御可能な Full-duplex

    音声対話システムの構造 2 RAG で制御可能な Full-duplex 音声対話システム 7 / 8