Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「Code Interpreter、実は熱い」「Voice Agentも今アツい」
Search
Almondoイベント担当
September 23, 2025
0
55
「Code Interpreter、実は熱い」「Voice Agentも今アツい」
9/16(火)開催「AIAgent勉強会vol.7」イベントの松本さん登壇資料
https://almondo.connpass.com/event/367052/
Almondoイベント担当
September 23, 2025
Tweet
Share
More Decks by Almondoイベント担当
See All by Almondoイベント担当
Agentic Workflowの実践知 登壇資料
almondo_event
0
39
InnovativeAI取り組み事例.pdf
almondo_event
0
130
Almondo 取り組み事例
almondo_event
0
140
レビューAgentの現在地
almondo_event
0
320
AIエージェントデザインパターンの選び方
almondo_event
0
190
A2AとMCPで作るエージェント
almondo_event
0
190
Almondo流!AI駆動開発 〜デザインと実装の未来/TDD開発〜
almondo_event
0
220
AIエージェントデザインパターンの選び方
almondo_event
0
300
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.1k
How STYLIGHT went responsive
nonsquared
100
5.8k
A designer walks into a library…
pauljervisheath
208
24k
Become a Pro
speakerdeck
PRO
29
5.5k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
31
2.2k
Speed Design
sergeychernyshev
32
1.1k
Designing for humans not robots
tammielis
254
25k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
The Art of Programming - Codeland 2020
erikaheidi
56
13k
Scaling GitHub
holman
463
140k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
940
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Transcript
©Almondo Co.Ltd,. 1 株式会社Almondo দຊ ༔ल :VIP.BUTVNPUP 経歴 株式会社松尾研究所 MLエンジニア・PM(2年)
データサイエンス/基盤モデル開発/Agent(2023年)/基礎研究など様々なプロジェクトに参画 東京大学松尾研究室 講師・講義設計(2年) 国内最大のデータサイエンス講座であるGCIの講師・講義設計 自己紹介 @YuhoMatsumoto 42 Tokyo 2nd Circle 2023_07当時、最速で42 Tokyo Common Coreを突破 バックエンド > インフラ > フロントエンド 株式会社Almondo COO(2年) MLエンジニア・ソフトウェアエンジニア・PMとして参画 現在は幅広いチーム(SW/ML開発・人事・営業)の管掌や参画
confidential ©Almondo Co.Ltd,. 2 お詫び 00
confidential 企業でのAI活用の実態 3 ʮ$PEF*OUFSQSFUFS ࣮͍ʯ ͱ͍͏͕͔ͨͬͨ͠ͷͰ͕͢ɺ ؾ͍ͮͨΒ7PJDF"HFOUʹϋϚͬͯ͠·͍·ͨ͠ 🙇
confidential 話そうと考えていること 1. Code Interpreter超概要 2. Voice Agentも今アツい 3. Voice
Agentのこれまで 4. 何が課題感だったのか? 5. Voice AgentのMulti Agent アーキテクチャ 6. 補足 7. まとめ
confidential ©Almondo Co.Ltd,. 5 Code Interpreter超概要 01
confidential Code Interpreter, 実は結構アツい 6 2023年ごろにふと出てきて、一瞬話題になったCode Interpreter. 最近全然あまり話題に上がっていない イベント公開当時は、 usutakuさんなどが2023年~2024年の初登場時の驚
きツイートしか検索欄に上がらなかった
confidential これだけ持ち帰ってもらえれば 7 Code Interpreter, こちらのDocsから超簡単に利用できます。 全く初見のexcelファイルなどから、基本的なEDAを、大した指示をすることなく実行できます docs: https://platform.openai.com/docs/assistants/tools/code-interpreter
confidential Code Interpreter、ここが面白い 8 Sandboxの動向、OpenAI以外のCode Interpreterから学ぶAgentの構築、実際の実用方法まで、 広く面白いテーマがあります 是非一度触ってみてください!
confidential ここからが本題
confidential ©Almondo Co.Ltd,. 10 Voice Agentも今アツい 02
confidential Voice Agentの今 11 2025/08/28にてgpt-realtimeが登場. これまで以上に流暢で、リアルタイムに応答可能なモデルがリリースされた docs: https://openai.com/index/introducing-gpt-realtime/
confidential 実は前回登壇も、Voice Agentについて話しました 12 2025/05/09にてボイスエージェント入門ということで、登壇をしていました この4ヶ月での結論の違いなどもお届けできればと思っています 前回の結論: ビジネスユースではChainが優勢
confidential ©Almondo Co.Ltd,. 13 Voice Agentのこれまで 03
confidential テキストの場合の基本的な処理 14 一番シンプルな実装例
confidential 一番基本のVoice AgentはChain 15 STT/LLM/TTSと3つのモデルが連続して処理を行い一連の応答を行う。思考はLLMに依る
confidential STSモデルが出てから、新たな方式ができるように 16 単一のモデルが聞く/考える/話すという一連の応答を行う。思考は本モデルに依る docs: https://openai.com/index/introducing-gpt-realtime/
confidential Chainが優勢か?(2025-05時点) 17 ビジネスユースするのであれば、Chainが優勢だよねという話に. ただし、限界も感じた 方式 深い思考 費用 速度 柔軟性
実装の複雑さ 正確性 Realtime API 単体 △ 単発応答中心。 長期的な推論は 弱い △ realtime APIそ のものが高コス ト ◎ 速い △ 機能が増え るほど難しく なる ◦ シンプル ×~△ 日常会話などで は良いが、数字 の理解や思考な ど困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せら れるので深い思 考は可能 ◎ realtime API と比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュ ールを入れ替 え可能 △ モジュー ル統合の設 計必要 ◯ 思考という点で は良い. 文字起こ しさえできれば 精度も担保
confidential ©Almondo Co.Ltd,. 18 何が課題感だったのか? 04
confidential 何が課題感だったのか? 19 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... 方式 深い思考 費用 速度
柔軟性 実装の複雑さ 正確性 Realtime API 単体 △ 単発応答中心。 長期的な推論は 弱い △ realtime APIそ のものが高コス ト ◎ 速い △ 機能が増え るほど難しく なる ◦ シンプル ×~△ 日常会話などで は良いが、数字 の理解や思考な ど困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せら れるので深い思 考は可能 ◎ realtime API と比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュ ールを入れ替 え可能 △ モジュー ル統合の設 計必要 ◯ 思考という点で は良い. 文字起こ しさえできれば 精度も担保
confidential 何が課題感だったのか? 20 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できな い - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつ けると遅い - Reasoning Modelなどで、深く 思考が可能 - テキストでのミスは少ない
confidential 何が課題感だったのか? 21 役割分担だ!
confidential ©Almondo Co.Ltd,. 22 Voice Agentの Multi Agent アーキテクチャ 05
confidential OpenAIから新しいVoice Agentアーキテクチャが考案 23 OpenAIから、新しくVoice Agentのアーキテクチャとして、Chat-Supervisor/Sequential Handsoff が考案される。特にChat-Supervisor型に期待 https://github.com/openai/openai-realtime-agents
confidential 何が課題感だったのか? 24 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつけると遅い - Reasoning Modelなどで、深く思考が可能 - テキストでのミスは少ない
confidential 何が課題感だったのか? 25 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API(gpt-realtime) - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしは最低限できる - Tool実行を待てるようになった LLM - そもそも発話できない - 話せるようなパーツをつ けると遅い - Reasoning Modelなどで、深く 思考が可能 - テキストでのミスは少ない
confidential おさらい: テキストベースMulti Agentアーキテクチャ 26 よく引き合いに出されるMulti Agentアーキテクチャの一覧 https://langchain-ai.github.io/langgraph/concepts/multi_agent/
confidential Chat-Supervisor Agentのアーキテクチャ 27 Chat-Supervisor型のMulti Agent アーキテクチャ. Supervisor Agentが裏側にいるという、テキストの Agentだとあまりない構成.
Supervisor Agent側をより複雑にすることも可能
confidential 比較図(再び) 28 多くの面でChat-Supervisor型に軍配が上がる! 方式 深い思考 費用 速度 柔軟性 実装の複雑さ
正確性 Realtime API 単体 △ 単発応答中心。長 期的な推論は弱い △ realtime APIその ものが高コスト ◎ 速い △ 機能が増えるほ ど難しくなる ◦ シンプル ×~△ 日常会話などでは良 いが、数字の理解や 思考など困る点が多 い Chain (STT→LLM→ TTS) ◎ LLMに任せられ るので深い思考は 可能 ◎ realtime APIと比 較して安価 × STT→LLM→TT Sで遅延大 ◎ 各モジュールを 入れ替え可能 △ モジュール 統合の設計必 要 ◯ 思考という点では良 い. 文字起こしさえ できれば精度も担保 (Realtime) Chat- Supervisor 型 ◎ Supervisorが長期的 推論や検索分岐を 制御可能 ◯ 複雑な思考のみ LLMに任せること でコストメリット あり ◯ 深く考える際の みやや遅い ◎ Supervisorへの 機能追加 △ Supervisor 設計の工数必 要 ◯ Chainと同じような 正確性
confidential ©Almondo Co.Ltd,. 29 補足 06
confidential Sequential Handoffs型はまだ実用には至らないか 30 Realtime Agentがそれぞれのニーズに合わせて会話中に入れ替わりたち変わり担当. 一つ一つのRealtime Agentに持たせる責務を狭くしてRealtie Agentの範囲で対応するという構想 体験の再現性を担保することが難しい懸念あり
confidential ©Almondo Co.Ltd,. 31 まとめ 07
confidential まとめ 32 まず ➢ Code Interpreter/Realtime Agentアツい Voice Agentの動向
➢ gpt-realtimeの改善により、ビジネスユースもかなり視野に入るように(ただし高い) ➢ 現在は、Chat-Supervisor型のMulti-Agentアーキテクチャが優勢 その他・考え方 ➢ モデルの強みに応じて対応を変えるための、Multi-Agentという考え方(≠役割設計) Code Interpreterサクッと触るQR(Colab Notebook) Voice Agentサクッと触れるQR(GitHub)
confidential まとめ 33 ぜひお声がけください!