Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20251027_findyさん_音声エージェントLT
Search
Almondoイベント担当
October 26, 2025
Technology
0
67
20251027_findyさん_音声エージェントLT
2025.10.27 Mon 12:00~ 開催の『AIエージェント進化の鍵 音声・動画 によって拓かれた未来を知る』
イベント登壇資料②
Almondoイベント担当
October 26, 2025
Tweet
Share
More Decks by Almondoイベント担当
See All by Almondoイベント担当
20251027_マルチエージェントとは
almondo_event
0
120
LLMの可能性を拡張する! 物体検出 × AIエージェントによる 図面認識・解釈
almondo_event
0
120
「Code Interpreter、実は熱い」「Voice Agentも今アツい」
almondo_event
0
120
Agentic Workflowの実践知 登壇資料
almondo_event
0
56
InnovativeAI取り組み事例.pdf
almondo_event
0
150
Almondo 取り組み事例
almondo_event
0
170
レビューAgentの現在地
almondo_event
0
360
AIエージェントデザインパターンの選び方
almondo_event
0
200
A2AとMCPで作るエージェント
almondo_event
0
210
Other Decks in Technology
See All in Technology
Observability — Extending Into Incident Response
nari_ex
1
100
コンパウンド組織のCRE #cre_meetup
layerx
PRO
1
250
生成AI時代のPythonセキュリティとガバナンス
abenben
0
120
現場の壁を乗り越えて、 「計装注入」が拓く オブザーバビリティ / Beyond the Field Barriers: Instrumentation Injection and the Future of Observability
aoto
PRO
1
210
AI駆動で進める依存ライブラリ更新 ─ Vue プロジェクトの品質向上と開発スピード改善の実践録
sayn0
1
240
JSConf JPのwebsiteをGatsbyからNext.jsに移行した話 - Next.jsの多言語静的サイトと課題
leko
2
180
だいたい分かった気になる 『SREの知識地図』 / introduction-to-sre-knowledge-map-book
katsuhisa91
PRO
3
1.3k
OCIjp_Oracle AI World_Recap
shinpy
1
170
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.2k
Observability for the system understanding and curious by developers
maruloop
1
480
難しいセキュリティ用語をわかりやすくしてみた
yuta3110
0
380
混合雲環境整合異質工作流程工具運行關鍵業務 Job 的經驗分享
yaosiang
0
170
Featured
See All Featured
Six Lessons from altMBA
skipperchong
29
4k
Building Adaptive Systems
keathley
44
2.8k
How to train your dragon (web standard)
notwaldorf
97
6.3k
jQuery: Nuts, Bolts and Bling
dougneiner
65
7.9k
Thoughts on Productivity
jonyablonski
70
4.9k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Visualization
eitanlees
149
16k
Fireside Chat
paigeccino
41
3.7k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.2k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Transcript
音声エージェントのアーキテクチャ 2025/10/27
confidential ©Almondo Co.Ltd,. 2 目次 00
confidential 話そうと考えていること 1. 目次 2. Voice Agentアツい 3. Voice Agentのこれまで
4. 何が課題感だったのか? 5. Voice AgentのMulti Agent アーキテクチャ 6. 補足 7. まとめ
株式会社Almondo 松本 悠秀 / Yuho Matsumoto 経歴 @YuhoMatsumoto 株式会社松尾研究所 MLエンジニア・
PM(2年) データサイエンス/基盤モデル開発/Agent(2023年)/基礎研究など様々なプロジェクトに参画 東京大学松尾研究室 講師・講義設計( 2年) 国内最大のデータサイエンス講座であるGCIの講師・講義設計 42 Tokyo 2nd Circle 2023_07当時、最速で42 Tokyo Common Coreを突破 バックエンド > インフラ > フロントエンド 株式会社Almondo COO(2年) MLエンジニア・ソフトウェアエンジニア・PMとして参画 現在は幅広いチーム(SW/ML開発・人事・営業)の管掌や参画 4 自己紹介
confidential ©Almondo Co.Ltd,. 5 Voice Agentアツい 02
confidential Voice Agentの今 6 2025/08/28にてgpt-realtimeが登場. これまで以上に流暢で、リアルタイムに応答可能なモデルがリリースされた docs: https://openai.com/index/introducing-gpt-realtime/
confidential 実は前回登壇も、Voice Agentについて話しました 7 2025/05/09にてボイスエージェント入門ということで、登壇をしていました この5ヶ月での結論の違いなどもお届けできればと思っています 前回の結論: ビジネスユースでは Chainが優勢
confidential ©Almondo Co.Ltd,. 8 Voice Agentのこれまで 03
confidential テキストの場合の基本的な処理 9 一番シンプルな実装例
confidential 一番基本のVoice AgentはChain 10 STT/LLM/TTSと3つのモデルが連続して処理を行い一連の応答を行う。思考はLLMに依る
confidential STSモデルが出てから、新たな方式ができるように 11 単一のモデルが聞く/考える/話すという一連の応答を行う。思考は本モデルに依る docs: https://openai.com/index/introducing-gpt-realtime/
confidential Chainが優勢か?(2025-05時点) 12 ビジネスユースするのであれば、Chainが優勢だよねという話に. ただし、限界も感じた 方式 深い思考 費用 速度 柔軟性
実装の複雑さ 正確性 Realtime API 単体 △ 単発応答中心。長 期的な推論は弱 い △ realtime API そのものが高コス ト ◎ 速い △ 機能が増え るほど難しくな る ◦ シンプル ×~△ 日常会話などでは 良いが、数字の理 解や思考など困る 点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せら れるので深い思 考は可能 ◎ realtime APIと 比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュー ルを入れ替え 可能 △ モジュー ル統合の設 計必要 ◯ 思考という点では 良い. 文字起こしさ えできれば精度も 担保
confidential ©Almondo Co.Ltd,. 13 何が課題感だったのか? 04
confidential 何が課題感だったのか? 14 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... 方式 深い思考 費用
速度 柔軟性 実装の複雑さ 正確性 Realtime API 単体 △ 単発応答中心。長 期的な推論は弱 い △ realtime API そのものが高コス ト ◎ 速い △ 機能が増え るほど難しくな る ◦ シンプル ×~△ 日常会話などでは 良いが、数字の理 解や思考など困る 点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せら れるので深い思 考は可能 ◎ realtime APIと 比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュー ルを入れ替え 可能 △ モジュー ル統合の設 計必要 ◯ 思考という点では 良い. 文字起こしさ えできれば精度も 担保
confidential 何が課題感だったのか? 15 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつける と遅い - Reasoning Modelなどで、深く思 考が可能 - テキストでのミスは少ない
confidential 何が課題感だったのか? 16 役割分担だ!
confidential ©Almondo Co.Ltd,. 17 Voice Agentの Multi Agent アーキテクチャ 05
confidential OpenAIから新しいVoice Agentアーキテクチャが考案 18 OpenAIから、新しくVoice Agentのアーキテクチャとして、Chat-Supervisor/Sequential Handsoff が考案される。特にChat-Supervisor型に期待 https://github.com/openai/openai-realtime-agents
confidential 何が課題感だったのか? 19 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつける と遅い - Reasoning Modelなどで、深く思 考が可能 - テキストでのミスは少ない
confidential 何が課題感だったのか? 20 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API(gpt-realtime) - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしは最低限できる - Tool実行を待てるようになった LLM - そもそも発話できない - 話せるようなパーツをつける と遅い - Reasoning Modelなどで、深く思 考が可能 - テキストでのミスは少ない
confidential おさらい: テキストベースMulti Agentアーキテクチャ 21 よく引き合いに出されるMulti Agentアーキテクチャの一覧 https://langchain-ai.github.io/langgraph/concepts/multi_agent/
confidential Chat-Supervisor Agentのアーキテクチャ 22 Chat-Supervisor型のMulti Agent アーキテクチャ. Supervisor Agentが裏側にいるという、テキストの Agentだとあまりない構成.
Supervisor Agent側をより複雑にすることも可能
confidential 比較図(再び) 23 多くの面でChat-Supervisor型に軍配が上がる! 方式 深い思考 費用 速度 柔軟性
実装の複雑さ 正確性 Realtime API 単体 △ 単発応答中心。長期 的な推論は弱い △ realtime APIその ものが高コスト ◎ 速い △ 機能が増えるほ ど難しくなる ◦ シンプル ×~△ 日常会話などでは良 いが、数字の理解や 思考など困る点が多 い Chain (STT→LLM→ TTS) ◎ LLMに任せられ るので深い思考は 可能 ◎ realtime APIと比 較して安価 × STT→LLM→TT Sで遅延大 ◎ 各モジュールを 入れ替え可能 △ モジュール 統合の設計必 要 ◯ 思考という点では良 い. 文字起こしさえで きれば精度も担保 (Realtime) Chat-Supervi sor 型 ◎ Supervisorが長期的 推論や検索分岐を 制御可能 ◯ 複雑な思考のみ LLMに任せることで コストメリットあり ◯ 深く考える際の みやや遅い ◎ Supervisorへの 機能追加 △ Supervisor 設計の工数必 要 ◯ Chainと同じような正 確性
confidential ©Almondo Co.Ltd,. 24 補足 06
confidential Sequential Handoffs型はまだ実用には至らないか 25 Realtime Agentがそれぞれのニーズに合わせて会話中に入れ替わりたち変わり担当. 一つ一つのRealtime Agentに持たせる責務を狭くしてRealtie Agentの範囲で対応するという構想
体験の再現性を担保することが難しい懸念あり
confidential ©Almondo Co.Ltd,. 26 まとめ 07
confidential まとめ 27 まず ➢ Realtime Agentアツい Voice Agentの動向 ➢
gpt-realtimeの改善により、ビジネスユースもかなり視野に入るように (ただし高い ) ➢ 現在は、Chat-Supervisor型のMulti-Agentアーキテクチャが優勢 その他・考え方 ➢ モデルの強みに応じて対応を変えるための、 Multi-Agentという考え方 (≠役割設計) Voice Agentサクッと触れるQR(GitHub) Twitter(X)
confidential イベント宣伝 28 知り合いを繋ぐ会として 『エンジニア未来談義 』やってます! 今までクローズドでやっていたので公表するのは初めてですが、 興味ある方ぜひXにてお声がけください!!
※個人で開催しているので、遅くなったらごめんなさい...
confidential 29 Almondoでは、ご一緒できるメンバーも募集してます! ご興味ある方はぜひ! ご清聴ありがとうございました! イベントもやってます!