Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「Code Interpreter、実は熱い」「Voice Agentも今アツい」
Search
Almondoイベント担当
September 23, 2025
0
120
「Code Interpreter、実は熱い」「Voice Agentも今アツい」
9/16(火)開催「AIAgent勉強会vol.7」イベントの松本さん登壇資料
https://almondo.connpass.com/event/367052/
Almondoイベント担当
September 23, 2025
Tweet
Share
More Decks by Almondoイベント担当
See All by Almondoイベント担当
20251027_マルチエージェントとは
almondo_event
0
120
20251027_findyさん_音声エージェントLT
almondo_event
0
67
LLMの可能性を拡張する! 物体検出 × AIエージェントによる 図面認識・解釈
almondo_event
0
120
Agentic Workflowの実践知 登壇資料
almondo_event
0
56
InnovativeAI取り組み事例.pdf
almondo_event
0
150
Almondo 取り組み事例
almondo_event
0
170
レビューAgentの現在地
almondo_event
0
360
AIエージェントデザインパターンの選び方
almondo_event
0
200
A2AとMCPで作るエージェント
almondo_event
0
210
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Keith and Marios Guide to Fast Websites
keithpitt
411
23k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
130k
GraphQLとの向き合い方2022年版
quramy
49
14k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Mobile First: as difficult as doing things right
swwweet
225
10k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.2k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.6k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
36
6.1k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
230
22k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
190
55k
Transcript
©Almondo Co.Ltd,. 1 株式会社Almondo দຊ ༔ल :VIP.BUTVNPUP 経歴 株式会社松尾研究所 MLエンジニア・PM(2年)
データサイエンス/基盤モデル開発/Agent(2023年)/基礎研究など様々なプロジェクトに参画 東京大学松尾研究室 講師・講義設計(2年) 国内最大のデータサイエンス講座であるGCIの講師・講義設計 自己紹介 @YuhoMatsumoto 42 Tokyo 2nd Circle 2023_07当時、最速で42 Tokyo Common Coreを突破 バックエンド > インフラ > フロントエンド 株式会社Almondo COO(2年) MLエンジニア・ソフトウェアエンジニア・PMとして参画 現在は幅広いチーム(SW/ML開発・人事・営業)の管掌や参画
confidential ©Almondo Co.Ltd,. 2 お詫び 00
confidential 企業でのAI活用の実態 3 ʮ$PEF*OUFSQSFUFS ࣮͍ʯ ͱ͍͏͕͔ͨͬͨ͠ͷͰ͕͢ɺ ؾ͍ͮͨΒ7PJDF"HFOUʹϋϚͬͯ͠·͍·ͨ͠ 🙇
confidential 話そうと考えていること 1. Code Interpreter超概要 2. Voice Agentも今アツい 3. Voice
Agentのこれまで 4. 何が課題感だったのか? 5. Voice AgentのMulti Agent アーキテクチャ 6. 補足 7. まとめ
confidential ©Almondo Co.Ltd,. 5 Code Interpreter超概要 01
confidential Code Interpreter, 実は結構アツい 6 2023年ごろにふと出てきて、一瞬話題になったCode Interpreter. 最近全然あまり話題に上がっていない イベント公開当時は、 usutakuさんなどが2023年~2024年の初登場時の驚
きツイートしか検索欄に上がらなかった
confidential これだけ持ち帰ってもらえれば 7 Code Interpreter, こちらのDocsから超簡単に利用できます。 全く初見のexcelファイルなどから、基本的なEDAを、大した指示をすることなく実行できます docs: https://platform.openai.com/docs/assistants/tools/code-interpreter
confidential Code Interpreter、ここが面白い 8 Sandboxの動向、OpenAI以外のCode Interpreterから学ぶAgentの構築、実際の実用方法まで、 広く面白いテーマがあります 是非一度触ってみてください!
confidential ここからが本題
confidential ©Almondo Co.Ltd,. 10 Voice Agentも今アツい 02
confidential Voice Agentの今 11 2025/08/28にてgpt-realtimeが登場. これまで以上に流暢で、リアルタイムに応答可能なモデルがリリースされた docs: https://openai.com/index/introducing-gpt-realtime/
confidential 実は前回登壇も、Voice Agentについて話しました 12 2025/05/09にてボイスエージェント入門ということで、登壇をしていました この4ヶ月での結論の違いなどもお届けできればと思っています 前回の結論: ビジネスユースではChainが優勢
confidential ©Almondo Co.Ltd,. 13 Voice Agentのこれまで 03
confidential テキストの場合の基本的な処理 14 一番シンプルな実装例
confidential 一番基本のVoice AgentはChain 15 STT/LLM/TTSと3つのモデルが連続して処理を行い一連の応答を行う。思考はLLMに依る
confidential STSモデルが出てから、新たな方式ができるように 16 単一のモデルが聞く/考える/話すという一連の応答を行う。思考は本モデルに依る docs: https://openai.com/index/introducing-gpt-realtime/
confidential Chainが優勢か?(2025-05時点) 17 ビジネスユースするのであれば、Chainが優勢だよねという話に. ただし、限界も感じた 方式 深い思考 費用 速度 柔軟性
実装の複雑さ 正確性 Realtime API 単体 △ 単発応答中心。 長期的な推論は 弱い △ realtime APIそ のものが高コス ト ◎ 速い △ 機能が増え るほど難しく なる ◦ シンプル ×~△ 日常会話などで は良いが、数字 の理解や思考な ど困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せら れるので深い思 考は可能 ◎ realtime API と比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュ ールを入れ替 え可能 △ モジュー ル統合の設 計必要 ◯ 思考という点で は良い. 文字起こ しさえできれば 精度も担保
confidential ©Almondo Co.Ltd,. 18 何が課題感だったのか? 04
confidential 何が課題感だったのか? 19 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... 方式 深い思考 費用 速度
柔軟性 実装の複雑さ 正確性 Realtime API 単体 △ 単発応答中心。 長期的な推論は 弱い △ realtime APIそ のものが高コス ト ◎ 速い △ 機能が増え るほど難しく なる ◦ シンプル ×~△ 日常会話などで は良いが、数字 の理解や思考な ど困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せら れるので深い思 考は可能 ◎ realtime API と比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュ ールを入れ替 え可能 △ モジュー ル統合の設 計必要 ◯ 思考という点で は良い. 文字起こ しさえできれば 精度も担保
confidential 何が課題感だったのか? 20 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できな い - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつ けると遅い - Reasoning Modelなどで、深く 思考が可能 - テキストでのミスは少ない
confidential 何が課題感だったのか? 21 役割分担だ!
confidential ©Almondo Co.Ltd,. 22 Voice Agentの Multi Agent アーキテクチャ 05
confidential OpenAIから新しいVoice Agentアーキテクチャが考案 23 OpenAIから、新しくVoice Agentのアーキテクチャとして、Chat-Supervisor/Sequential Handsoff が考案される。特にChat-Supervisor型に期待 https://github.com/openai/openai-realtime-agents
confidential 何が課題感だったのか? 24 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつけると遅い - Reasoning Modelなどで、深く思考が可能 - テキストでのミスは少ない
confidential 何が課題感だったのか? 25 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API(gpt-realtime) - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしは最低限できる - Tool実行を待てるようになった LLM - そもそも発話できない - 話せるようなパーツをつ けると遅い - Reasoning Modelなどで、深く 思考が可能 - テキストでのミスは少ない
confidential おさらい: テキストベースMulti Agentアーキテクチャ 26 よく引き合いに出されるMulti Agentアーキテクチャの一覧 https://langchain-ai.github.io/langgraph/concepts/multi_agent/
confidential Chat-Supervisor Agentのアーキテクチャ 27 Chat-Supervisor型のMulti Agent アーキテクチャ. Supervisor Agentが裏側にいるという、テキストの Agentだとあまりない構成.
Supervisor Agent側をより複雑にすることも可能
confidential 比較図(再び) 28 多くの面でChat-Supervisor型に軍配が上がる! 方式 深い思考 費用 速度 柔軟性 実装の複雑さ
正確性 Realtime API 単体 △ 単発応答中心。長 期的な推論は弱い △ realtime APIその ものが高コスト ◎ 速い △ 機能が増えるほ ど難しくなる ◦ シンプル ×~△ 日常会話などでは良 いが、数字の理解や 思考など困る点が多 い Chain (STT→LLM→ TTS) ◎ LLMに任せられ るので深い思考は 可能 ◎ realtime APIと比 較して安価 × STT→LLM→TT Sで遅延大 ◎ 各モジュールを 入れ替え可能 △ モジュール 統合の設計必 要 ◯ 思考という点では良 い. 文字起こしさえ できれば精度も担保 (Realtime) Chat- Supervisor 型 ◎ Supervisorが長期的 推論や検索分岐を 制御可能 ◯ 複雑な思考のみ LLMに任せること でコストメリット あり ◯ 深く考える際の みやや遅い ◎ Supervisorへの 機能追加 △ Supervisor 設計の工数必 要 ◯ Chainと同じような 正確性
confidential ©Almondo Co.Ltd,. 29 補足 06
confidential Sequential Handoffs型はまだ実用には至らないか 30 Realtime Agentがそれぞれのニーズに合わせて会話中に入れ替わりたち変わり担当. 一つ一つのRealtime Agentに持たせる責務を狭くしてRealtie Agentの範囲で対応するという構想 体験の再現性を担保することが難しい懸念あり
confidential ©Almondo Co.Ltd,. 31 まとめ 07
confidential まとめ 32 まず ➢ Code Interpreter/Realtime Agentアツい Voice Agentの動向
➢ gpt-realtimeの改善により、ビジネスユースもかなり視野に入るように(ただし高い) ➢ 現在は、Chat-Supervisor型のMulti-Agentアーキテクチャが優勢 その他・考え方 ➢ モデルの強みに応じて対応を変えるための、Multi-Agentという考え方(≠役割設計) Code Interpreterサクッと触るQR(Colab Notebook) Voice Agentサクッと触れるQR(GitHub)
confidential まとめ 33 ぜひお声がけください!