Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20251027_findyさん_音声エージェントLT
Search
Almondoイベント担当
October 26, 2025
Technology
2
660
20251027_findyさん_音声エージェントLT
2025.10.27 Mon 12:00~ 開催の『AIエージェント進化の鍵 音声・動画 によって拓かれた未来を知る』
イベント登壇資料②
Almondoイベント担当
October 26, 2025
Tweet
Share
More Decks by Almondoイベント担当
See All by Almondoイベント担当
20251027_マルチエージェントとは
almondo_event
1
650
LLMの可能性を拡張する! 物体検出 × AIエージェントによる 図面認識・解釈
almondo_event
0
320
「Code Interpreter、実は熱い」「Voice Agentも今アツい」
almondo_event
0
170
Agentic Workflowの実践知 登壇資料
almondo_event
0
100
InnovativeAI取り組み事例.pdf
almondo_event
0
220
Almondo 取り組み事例
almondo_event
0
240
レビューAgentの現在地
almondo_event
0
500
AIエージェントデザインパターンの選び方
almondo_event
0
260
A2AとMCPで作るエージェント
almondo_event
0
260
Other Decks in Technology
See All in Technology
Evolution of Claude Code & How to use features
oikon48
1
520
JAWS DAYS 2026 楽しく学ぼう!ストレージ 入門
yoshiki0705
2
110
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
72k
型を書かないRuby開発への挑戦
riseshia
0
200
EMからVPoEを経てCTOへ:マネジメントキャリアパスにおける葛藤と成長
kakehashi
PRO
9
1.3k
Kiro のクレジットを使い切る!
otanikohei2023
0
120
JAWS DAYS 2026 CDP道場 事前説明会 / JAWS DAYS 2026 CDP Dojo briefing document
naospon
0
200
Bill One 開発エンジニア 紹介資料
sansan33
PRO
5
18k
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
4
22k
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
1.7k
管理者向けGitHub Enterpriseの運用Tips紹介: 人にもAIにも優しいプラットフォームづくり
yuriemori
0
170
製造業ドメインにおける LLMプロダクト構築: 複雑な文脈へのアプローチ
caddi_eng
1
520
Featured
See All Featured
Google's AI Overviews - The New Search
badams
0
930
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
Claude Code のすすめ
schroneko
67
220k
So, you think you're a good person
axbom
PRO
2
1.9k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
900
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
210
Making the Leap to Tech Lead
cromwellryan
135
9.8k
Designing for Performance
lara
611
70k
Utilizing Notion as your number one productivity tool
mfonobong
4
250
Transcript
音声エージェントのアーキテクチャ 2025/10/27
confidential ©Almondo Co.Ltd,. 2 目次 00
confidential 話そうと考えていること 1. 目次 2. Voice Agentアツい 3. Voice Agentのこれまで
4. 何が課題感だったのか? 5. Voice AgentのMulti Agent アーキテクチャ 6. 補足 7. まとめ
株式会社Almondo 松本 悠秀 / Yuho Matsumoto 経歴 @YuhoMatsumoto 株式会社松尾研究所 MLエンジニア・
PM(2年) データサイエンス/基盤モデル開発/Agent(2023年)/基礎研究など様々なプロジェクトに参画 東京大学松尾研究室 講師・講義設計( 2年) 国内最大のデータサイエンス講座であるGCIの講師・講義設計 42 Tokyo 2nd Circle 2023_07当時、最速で42 Tokyo Common Coreを突破 バックエンド > インフラ > フロントエンド 株式会社Almondo COO(2年) MLエンジニア・ソフトウェアエンジニア・PMとして参画 現在は幅広いチーム(SW/ML開発・人事・営業)の管掌や参画 4 自己紹介
confidential ©Almondo Co.Ltd,. 5 Voice Agentアツい 02
confidential Voice Agentの今 6 2025/08/28にてgpt-realtimeが登場. これまで以上に流暢で、リアルタイムに応答可能なモデルがリリースされた docs: https://openai.com/index/introducing-gpt-realtime/
confidential 実は前回登壇も、Voice Agentについて話しました 7 2025/05/09にてボイスエージェント入門ということで、登壇をしていました この5ヶ月での結論の違いなどもお届けできればと思っています 前回の結論: ビジネスユースでは Chainが優勢
confidential ©Almondo Co.Ltd,. 8 Voice Agentのこれまで 03
confidential テキストの場合の基本的な処理 9 一番シンプルな実装例
confidential 一番基本のVoice AgentはChain 10 STT/LLM/TTSと3つのモデルが連続して処理を行い一連の応答を行う。思考はLLMに依る
confidential STSモデルが出てから、新たな方式ができるように 11 単一のモデルが聞く/考える/話すという一連の応答を行う。思考は本モデルに依る docs: https://openai.com/index/introducing-gpt-realtime/
confidential Chainが優勢か?(2025-05時点) 12 ビジネスユースするのであれば、Chainが優勢だよねという話に. ただし、限界も感じた 方式 深い思考 費用 速度 柔軟性
実装の複雑さ 正確性 Realtime API 単体 △ 単発応答中心。長 期的な推論は弱 い △ realtime API そのものが高コス ト ◎ 速い △ 機能が増え るほど難しくな る ◦ シンプル ×~△ 日常会話などでは 良いが、数字の理 解や思考など困る 点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せら れるので深い思 考は可能 ◎ realtime APIと 比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュー ルを入れ替え 可能 △ モジュー ル統合の設 計必要 ◯ 思考という点では 良い. 文字起こしさ えできれば精度も 担保
confidential ©Almondo Co.Ltd,. 13 何が課題感だったのか? 04
confidential 何が課題感だったのか? 14 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... 方式 深い思考 費用
速度 柔軟性 実装の複雑さ 正確性 Realtime API 単体 △ 単発応答中心。長 期的な推論は弱 い △ realtime API そのものが高コス ト ◎ 速い △ 機能が増え るほど難しくな る ◦ シンプル ×~△ 日常会話などでは 良いが、数字の理 解や思考など困る 点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せら れるので深い思 考は可能 ◎ realtime APIと 比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュー ルを入れ替え 可能 △ モジュー ル統合の設 計必要 ◯ 思考という点では 良い. 文字起こしさ えできれば精度も 担保
confidential 何が課題感だったのか? 15 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつける と遅い - Reasoning Modelなどで、深く思 考が可能 - テキストでのミスは少ない
confidential 何が課題感だったのか? 16 役割分担だ!
confidential ©Almondo Co.Ltd,. 17 Voice Agentの Multi Agent アーキテクチャ 05
confidential OpenAIから新しいVoice Agentアーキテクチャが考案 18 OpenAIから、新しくVoice Agentのアーキテクチャとして、Chat-Supervisor/Sequential Handsoff が考案される。特にChat-Supervisor型に期待 https://github.com/openai/openai-realtime-agents
confidential 何が課題感だったのか? 19 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつける と遅い - Reasoning Modelなどで、深く思 考が可能 - テキストでのミスは少ない
confidential 何が課題感だったのか? 20 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API(gpt-realtime) - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしは最低限できる - Tool実行を待てるようになった LLM - そもそも発話できない - 話せるようなパーツをつける と遅い - Reasoning Modelなどで、深く思 考が可能 - テキストでのミスは少ない
confidential おさらい: テキストベースMulti Agentアーキテクチャ 21 よく引き合いに出されるMulti Agentアーキテクチャの一覧 https://langchain-ai.github.io/langgraph/concepts/multi_agent/
confidential Chat-Supervisor Agentのアーキテクチャ 22 Chat-Supervisor型のMulti Agent アーキテクチャ. Supervisor Agentが裏側にいるという、テキストの Agentだとあまりない構成.
Supervisor Agent側をより複雑にすることも可能
confidential 比較図(再び) 23 多くの面でChat-Supervisor型に軍配が上がる! 方式 深い思考 費用 速度 柔軟性
実装の複雑さ 正確性 Realtime API 単体 △ 単発応答中心。長期 的な推論は弱い △ realtime APIその ものが高コスト ◎ 速い △ 機能が増えるほ ど難しくなる ◦ シンプル ×~△ 日常会話などでは良 いが、数字の理解や 思考など困る点が多 い Chain (STT→LLM→ TTS) ◎ LLMに任せられ るので深い思考は 可能 ◎ realtime APIと比 較して安価 × STT→LLM→TT Sで遅延大 ◎ 各モジュールを 入れ替え可能 △ モジュール 統合の設計必 要 ◯ 思考という点では良 い. 文字起こしさえで きれば精度も担保 (Realtime) Chat-Supervi sor 型 ◎ Supervisorが長期的 推論や検索分岐を 制御可能 ◯ 複雑な思考のみ LLMに任せることで コストメリットあり ◯ 深く考える際の みやや遅い ◎ Supervisorへの 機能追加 △ Supervisor 設計の工数必 要 ◯ Chainと同じような正 確性
confidential ©Almondo Co.Ltd,. 24 補足 06
confidential Sequential Handoffs型はまだ実用には至らないか 25 Realtime Agentがそれぞれのニーズに合わせて会話中に入れ替わりたち変わり担当. 一つ一つのRealtime Agentに持たせる責務を狭くしてRealtie Agentの範囲で対応するという構想
体験の再現性を担保することが難しい懸念あり
confidential ©Almondo Co.Ltd,. 26 まとめ 07
confidential まとめ 27 まず ➢ Realtime Agentアツい Voice Agentの動向 ➢
gpt-realtimeの改善により、ビジネスユースもかなり視野に入るように (ただし高い ) ➢ 現在は、Chat-Supervisor型のMulti-Agentアーキテクチャが優勢 その他・考え方 ➢ モデルの強みに応じて対応を変えるための、 Multi-Agentという考え方 (≠役割設計) Voice Agentサクッと触れるQR(GitHub) Twitter(X)
confidential イベント宣伝 28 知り合いを繋ぐ会として 『エンジニア未来談義 』やってます! 今までクローズドでやっていたので公表するのは初めてですが、 興味ある方ぜひXにてお声がけください!!
※個人で開催しているので、遅くなったらごめんなさい...
confidential 29 Almondoでは、ご一緒できるメンバーも募集してます! ご興味ある方はぜひ! ご清聴ありがとうございました! イベントもやってます!