「Code Interpreter、実は熱い」「Voice Agentも今アツい」

©Almondo Co.Ltd,. 1 株式会社Almondo দຊ ༔ल :VIP.BUTVNPUP 経歴株式会社松尾研究所 MLエンジニア・PM（2年）
データサイエンス/基盤モデル開発/Agent(2023年)/基礎研究など様々なプロジェクトに参画東京大学松尾研究室講師・講義設計（2年）国内最大のデータサイエンス講座であるGCIの講師・講義設計自己紹介 @YuhoMatsumoto 42 Tokyo 2nd Circle 2023_07当時、最速で42 Tokyo Common Coreを突破バックエンド > インフラ > フロントエンド株式会社Almondo COO（2年） MLエンジニア・ソフトウェアエンジニア・PMとして参画現在は幅広いチーム（SW/ML開発・人事・営業）の管掌や参画

confidential ©Almondo Co.Ltd,. 2 お詫び 00

confidential 企業でのAI活用の実態 3 ʮ$PEF*OUFSQSFUFS ࣮͸೤͍ʯ ͱ͍͏࿩͕͔ͨͬͨ͠ͷͰ͕͢ɺ ؾ͍ͮͨΒ7PJDF"HFOUʹϋϚͬͯ͠·͍·ͨ͠ 🙇

confidential 話そうと考えていること 1. Code Interpreter超概要 2. Voice Agentも今アツい 3. Voice
Agentのこれまで 4. 何が課題感だったのか？ 5. Voice AgentのMulti Agent アーキテクチャ 6. 補足 7. まとめ

confidential ©Almondo Co.Ltd,. 5 Code Interpreter超概要 01

confidential Code Interpreter, 実は結構アツい 6 2023年ごろにふと出てきて、一瞬話題になったCode Interpreter. 最近全然あまり話題に上がっていないイベント公開当時は、 usutakuさんなどが2023年~2024年の初登場時の驚
きツイートしか検索欄に上がらなかった

confidential これだけ持ち帰ってもらえれば 7 Code Interpreter, こちらのDocsから超簡単に利用できます。全く初見のexcelファイルなどから、基本的なEDAを、大した指示をすることなく実行できます docs: https://platform.openai.com/docs/assistants/tools/code-interpreter

confidential Code Interpreter、ここが面白い 8 Sandboxの動向、OpenAI以外のCode Interpreterから学ぶAgentの構築、実際の実用方法まで、広く面白いテーマがあります是非一度触ってみてください！

confidential ここからが本題

confidential ©Almondo Co.Ltd,. 10 Voice Agentも今アツい 02

confidential Voice Agentの今 11 2025/08/28にてgpt-realtimeが登場. これまで以上に流暢で、リアルタイムに応答可能なモデルがリリースされた docs: https://openai.com/index/introducing-gpt-realtime/

confidential 実は前回登壇も、Voice Agentについて話しました 12 2025/05/09にてボイスエージェント入門ということで、登壇をしていましたこの4ヶ月での結論の違いなどもお届けできればと思っています前回の結論: ビジネスユースではChainが優勢

confidential ©Almondo Co.Ltd,. 13 Voice Agentのこれまで 03

confidential テキストの場合の基本的な処理 14 一番シンプルな実装例

confidential 一番基本のVoice AgentはChain 15 STT/LLM/TTSと3つのモデルが連続して処理を行い一連の応答を行う。思考はLLMに依る

confidential STSモデルが出てから、新たな方式ができるように 16 単一のモデルが聞く/考える/話すという一連の応答を行う。思考は本モデルに依る docs: https://openai.com/index/introducing-gpt-realtime/

confidential Chainが優勢か？(2025-05時点) 17 ビジネスユースするのであれば、Chainが優勢だよねという話に. ただし、限界も感じた方式深い思考費用速度柔軟性
実装の複雑さ正確性 Realtime API 単体 △ 単発応答中心。長期的な推論は弱い △ realtime APIそのものが高コスト ◎ 速い △ 機能が増えるほど難しくなる ◦ シンプル ×~△ 日常会話などでは良いが、数字の理解や思考など困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せられるので深い思考は可能 ◎ realtime API と比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュールを入れ替え可能 △ モジュール統合の設計必要 ◯ 思考という点では良い. 文字起こしさえできれば精度も担保

confidential ©Almondo Co.Ltd,. 18 何が課題感だったのか？ 04

confidential 何が課題感だったのか？ 19 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... 方式深い思考費用速度
柔軟性実装の複雑さ正確性 Realtime API 単体 △ 単発応答中心。長期的な推論は弱い △ realtime APIそのものが高コスト ◎ 速い △ 機能が増えるほど難しくなる ◦ シンプル ×~△ 日常会話などでは良いが、数字の理解や思考など困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せられるので深い思考は可能 ◎ realtime API と比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュールを入れ替え可能 △ モジュール統合の設計必要 ◯ 思考という点では良い. 文字起こしさえできれば精度も担保

confidential 何が課題感だったのか？ 20 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつけると遅い - Reasoning Modelなどで、深く思考が可能 - テキストでのミスは少ない

confidential 何が課題感だったのか？ 21 役割分担だ！

confidential ©Almondo Co.Ltd,. 22 Voice Agentの Multi Agent アーキテクチャ 05

confidential OpenAIから新しいVoice Agentアーキテクチャが考案 23 OpenAIから、新しくVoice Agentのアーキテクチャとして、Chat-Supervisor/Sequential Handsoff が考案される。特にChat-Supervisor型に期待 https://github.com/openai/openai-realtime-agents

confidential 何が課題感だったのか？ 24 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつけると遅い - Reasoning Modelなどで、深く思考が可能 - テキストでのミスは少ない

confidential 何が課題感だったのか？ 25 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API(gpt-realtime) - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしは最低限できる - Tool実行を待てるようになった LLM - そもそも発話できない - 話せるようなパーツをつけると遅い - Reasoning Modelなどで、深く思考が可能 - テキストでのミスは少ない

confidential おさらい: テキストベースMulti Agentアーキテクチャ 26 よく引き合いに出されるMulti Agentアーキテクチャの一覧 https://langchain-ai.github.io/langgraph/concepts/multi_agent/

confidential Chat-Supervisor Agentのアーキテクチャ 27 Chat-Supervisor型のMulti Agent アーキテクチャ. Supervisor Agentが裏側にいるという、テキストの Agentだとあまりない構成.
Supervisor Agent側をより複雑にすることも可能

confidential 比較図(再び) 28 多くの面でChat-Supervisor型に軍配が上がる！方式深い思考費用速度柔軟性実装の複雑さ
正確性 Realtime API 単体 △ 単発応答中心。長期的な推論は弱い △ realtime APIそのものが高コスト ◎ 速い △ 機能が増えるほど難しくなる ◦ シンプル ×~△ 日常会話などでは良いが、数字の理解や思考など困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せられるので深い思考は可能 ◎ realtime APIと比較して安価 × STT→LLM→TT Sで遅延大 ◎ 各モジュールを入れ替え可能 △ モジュール統合の設計必要 ◯ 思考という点では良い. 文字起こしさえできれば精度も担保 (Realtime) Chat- Supervisor 型 ◎ Supervisorが長期的推論や検索分岐を制御可能 ◯ 複雑な思考のみ LLMに任せることでコストメリットあり ◯ 深く考える際のみやや遅い ◎ Supervisorへの機能追加 △ Supervisor 設計の工数必要 ◯ Chainと同じような正確性

confidential Sequential Handoffs型はまだ実用には至らないか 30 Realtime Agentがそれぞれのニーズに合わせて会話中に入れ替わりたち変わり担当. 一つ一つのRealtime Agentに持たせる責務を狭くしてRealtie Agentの範囲で対応するという構想体験の再現性を担保することが難しい懸念あり

confidential まとめ 32 まず ➢ Code Interpreter/Realtime Agentアツい Voice Agentの動向
➢ gpt-realtimeの改善により、ビジネスユースもかなり視野に入るように(ただし高い) ➢ 現在は、Chat-Supervisor型のMulti-Agentアーキテクチャが優勢その他・考え方 ➢ モデルの強みに応じて対応を変えるための、Multi-Agentという考え方(≠役割設計) Code Interpreterサクッと触るQR(Colab Notebook) Voice Agentサクッと触れるQR(GitHub)

confidential まとめ 33 ぜひお声がけください！

「Code Interpreter、実は熱い」「Voice Agentも今アツい」

「Code Interpreter、実は熱い」「Voice Agentも今アツい」

Almondoイベント担当

More Decks by Almondoイベント担当

Featured

Transcript

©Almondo Co.Ltd,. 1 株式会社Almondo দຊ ༔ल :VIP.BUTVNPUP 経歴株式会社松尾研究所 MLエンジニア・PM（2年）

confidential ©Almondo Co.Ltd,. 2 お詫び 00

confidential 企業でのAI活用の実態 3 ʮ$PEF*OUFSQSFUFS ࣮͸೤͍ʯ ͱ͍͏࿩͕͔ͨͬͨ͠ͷͰ͕͢ɺ ؾ͍ͮͨΒ7PJDF"HFOUʹϋϚͬͯ͠·͍·ͨ͠ 🙇

confidential 話そうと考えていること 1. Code Interpreter超概要 2. Voice Agentも今アツい 3. Voice

confidential ©Almondo Co.Ltd,. 5 Code Interpreter超概要 01

confidential Code Interpreter, 実は結構アツい 6 2023年ごろにふと出てきて、一瞬話題になったCode Interpreter. 最近全然あまり話題に上がっていないイベント公開当時は、 usutakuさんなどが2023年~2024年の初登場時の驚

confidential Code Interpreter、ここが面白い 8 Sandboxの動向、OpenAI以外のCode Interpreterから学ぶAgentの構築、実際の実用方法まで、広く面白いテーマがあります是非一度触ってみてください！

confidential ここからが本題

confidential ©Almondo Co.Ltd,. 10 Voice Agentも今アツい 02

confidential Voice Agentの今 11 2025/08/28にてgpt-realtimeが登場. これまで以上に流暢で、リアルタイムに応答可能なモデルがリリースされた docs: https://openai.com/index/introducing-gpt-realtime/

confidential ©Almondo Co.Ltd,. 13 Voice Agentのこれまで 03

confidential テキストの場合の基本的な処理 14 一番シンプルな実装例

confidential 一番基本のVoice AgentはChain 15 STT/LLM/TTSと3つのモデルが連続して処理を行い一連の応答を行う。思考はLLMに依る

confidential STSモデルが出てから、新たな方式ができるように 16 単一のモデルが聞く/考える/話すという一連の応答を行う。思考は本モデルに依る docs: https://openai.com/index/introducing-gpt-realtime/

confidential Chainが優勢か？(2025-05時点) 17 ビジネスユースするのであれば、Chainが優勢だよねという話に. ただし、限界も感じた方式深い思考費用速度柔軟性

confidential ©Almondo Co.Ltd,. 18 何が課題感だったのか？ 04

confidential 何が課題感だったのか？ 19 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... 方式深い思考費用速度

confidential 何が課題感だったのか？ 20 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い

confidential 何が課題感だったのか？ 21 役割分担だ！

confidential ©Almondo Co.Ltd,. 22 Voice Agentの Multi Agent アーキテクチャ 05

confidential OpenAIから新しいVoice Agentアーキテクチャが考案 23 OpenAIから、新しくVoice Agentのアーキテクチャとして、Chat-Supervisor/Sequential Handsoff が考案される。特にChat-Supervisor型に期待 https://github.com/openai/openai-realtime-agents

confidential 何が課題感だったのか？ 24 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い

confidential 何が課題感だったのか？ 25 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API(gpt-realtime) - 返答が早い

confidential おさらい: テキストベースMulti Agentアーキテクチャ 26 よく引き合いに出されるMulti Agentアーキテクチャの一覧 https://langchain-ai.github.io/langgraph/concepts/multi_agent/

confidential Chat-Supervisor Agentのアーキテクチャ 27 Chat-Supervisor型のMulti Agent アーキテクチャ. Supervisor Agentが裏側にいるという、テキストの Agentだとあまりない構成.

confidential 比較図(再び) 28 多くの面でChat-Supervisor型に軍配が上がる！方式深い思考費用速度柔軟性実装の複雑さ

confidential ©Almondo Co.Ltd,. 29 補足 06

confidential ©Almondo Co.Ltd,. 31 まとめ 07

confidential まとめ 32 まず ➢ Code Interpreter/Realtime Agentアツい Voice Agentの動向

confidential まとめ 33 ぜひお声がけください！