「Code Interpreter、実は熱い」「Voice Agentも今アツい」

Slide 1

Slide 1 text

©Almondo Co.Ltd,. 1 株式会社Almondo দຊ ༔ल :VIP.BUTVNPUP 経歴株式会社松尾研究所 MLエンジニア・PM（2年）データサイエンス/基盤モデル開発/Agent(2023年)/基礎研究など様々なプロジェクトに参画東京大学松尾研究室講師・講義設計（2年）国内最大のデータサイエンス講座であるGCIの講師・講義設計自己紹介 @YuhoMatsumoto 42 Tokyo 2nd Circle 2023_07当時、最速で42 Tokyo Common Coreを突破バックエンド > インフラ > フロントエンド株式会社Almondo COO（2年） MLエンジニア・ソフトウェアエンジニア・PMとして参画現在は幅広いチーム（SW/ML開発・人事・営業）の管掌や参画

Slide 2

Slide 2 text

confidential ©Almondo Co.Ltd,. 2 お詫び 00

Slide 3

Slide 3 text

confidential 企業でのAI活用の実態 3 ʮ$PEF*OUFSQSFUFS ࣮͸೤͍ʯ ͱ͍͏࿩͕͔ͨͬͨ͠ͷͰ͕͢ɺ ؾ͍ͮͨΒ7PJDF"HFOUʹϋϚͬͯ͠·͍·ͨ͠ 🙇

Slide 4

Slide 4 text

confidential 話そうと考えていること 1. Code Interpreter超概要 2. Voice Agentも今アツい 3. Voice Agentのこれまで 4. 何が課題感だったのか？ 5. Voice AgentのMulti Agent アーキテクチャ 6. 補足 7. まとめ

Slide 5

Slide 5 text

confidential ©Almondo Co.Ltd,. 5 Code Interpreter超概要 01

Slide 6

Slide 6 text

confidential Code Interpreter, 実は結構アツい 6 2023年ごろにふと出てきて、一瞬話題になったCode Interpreter. 最近全然あまり話題に上がっていないイベント公開当時は、 usutakuさんなどが2023年~2024年の初登場時の驚きツイートしか検索欄に上がらなかった

Slide 7

Slide 7 text

confidential これだけ持ち帰ってもらえれば 7 Code Interpreter, こちらのDocsから超簡単に利用できます。全く初見のexcelファイルなどから、基本的なEDAを、大した指示をすることなく実行できます docs: https://platform.openai.com/docs/assistants/tools/code-interpreter

Slide 8

Slide 8 text

confidential Code Interpreter、ここが面白い 8 Sandboxの動向、OpenAI以外のCode Interpreterから学ぶAgentの構築、実際の実用方法まで、広く面白いテーマがあります是非一度触ってみてください！

Slide 9

Slide 9 text

confidential ここからが本題

Slide 10

Slide 10 text

confidential ©Almondo Co.Ltd,. 10 Voice Agentも今アツい 02

Slide 11

Slide 11 text

confidential Voice Agentの今 11 2025/08/28にてgpt-realtimeが登場. これまで以上に流暢で、リアルタイムに応答可能なモデルがリリースされた docs: https://openai.com/index/introducing-gpt-realtime/

Slide 12

Slide 12 text

confidential 実は前回登壇も、Voice Agentについて話しました 12 2025/05/09にてボイスエージェント入門ということで、登壇をしていましたこの4ヶ月での結論の違いなどもお届けできればと思っています前回の結論: ビジネスユースではChainが優勢

Slide 13

Slide 13 text

confidential ©Almondo Co.Ltd,. 13 Voice Agentのこれまで 03

Slide 14

Slide 14 text

confidential テキストの場合の基本的な処理 14 一番シンプルな実装例

Slide 15

Slide 15 text

confidential 一番基本のVoice AgentはChain 15 STT/LLM/TTSと3つのモデルが連続して処理を行い一連の応答を行う。思考はLLMに依る

Slide 16

Slide 16 text

confidential STSモデルが出てから、新たな方式ができるように 16 単一のモデルが聞く/考える/話すという一連の応答を行う。思考は本モデルに依る docs: https://openai.com/index/introducing-gpt-realtime/

Slide 17

Slide 17 text

confidential Chainが優勢か？(2025-05時点) 17 ビジネスユースするのであれば、Chainが優勢だよねという話に. ただし、限界も感じた方式深い思考費用速度柔軟性実装の複雑さ正確性 Realtime API 単体 △ 単発応答中心。長期的な推論は弱い △ realtime APIそのものが高コスト ◎ 速い △ 機能が増えるほど難しくなる ○ シンプル ×~△ 日常会話などでは良いが、数字の理解や思考など困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せられるので深い思考は可能 ◎ realtime API と比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュールを入れ替え可能 △ モジュール統合の設計必要 ◯ 思考という点では良い. 文字起こしさえできれば精度も担保

Slide 18

Slide 18 text

confidential ©Almondo Co.Ltd,. 18 何が課題感だったのか？ 04

Slide 19

Slide 19 text

confidential 何が課題感だったのか？ 19 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... 方式深い思考費用速度柔軟性実装の複雑さ正確性 Realtime API 単体 △ 単発応答中心。長期的な推論は弱い △ realtime APIそのものが高コスト ◎ 速い △ 機能が増えるほど難しくなる ○ シンプル ×~△ 日常会話などでは良いが、数字の理解や思考など困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せられるので深い思考は可能 ◎ realtime API と比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュールを入れ替え可能 △ モジュール統合の設計必要 ◯ 思考という点では良い. 文字起こしさえできれば精度も担保

Slide 20

Slide 20 text

confidential 何が課題感だったのか？ 20 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い - あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつけると遅い - Reasoning Modelなどで、深く思考が可能 - テキストでのミスは少ない

Slide 21

Slide 21 text

confidential 何が課題感だったのか？ 21 役割分担だ！

Slide 22

Slide 22 text

confidential ©Almondo Co.Ltd,. 22 Voice Agentの Multi Agent アーキテクチャ 05

Slide 23

Slide 23 text

confidential OpenAIから新しいVoice Agentアーキテクチャが考案 23 OpenAIから、新しくVoice Agentのアーキテクチャとして、Chat-Supervisor/Sequential Handsoff が考案される。特にChat-Supervisor型に期待 https://github.com/openai/openai-realtime-agents

Slide 24

Slide 24 text

confidential 何が課題感だったのか？ 24 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い - あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつけると遅い - Reasoning Modelなどで、深く思考が可能 - テキストでのミスは少ない

Slide 25

Slide 25 text

confidential 何が課題感だったのか？ 25 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API(gpt-realtime) - 返答が早い - あまり深くタスクを思考できない - 正確な文字起こしは最低限できる - Tool実行を待てるようになった LLM - そもそも発話できない - 話せるようなパーツをつけると遅い - Reasoning Modelなどで、深く思考が可能 - テキストでのミスは少ない

Slide 26

Slide 26 text

confidential おさらい: テキストベースMulti Agentアーキテクチャ 26 よく引き合いに出されるMulti Agentアーキテクチャの一覧 https://langchain-ai.github.io/langgraph/concepts/multi_agent/

Slide 27

Slide 27 text

confidential Chat-Supervisor Agentのアーキテクチャ 27 Chat-Supervisor型のMulti Agent アーキテクチャ. Supervisor Agentが裏側にいるという、テキストの Agentだとあまりない構成. Supervisor Agent側をより複雑にすることも可能

Slide 28

Slide 28 text

confidential 比較図(再び) 28 多くの面でChat-Supervisor型に軍配が上がる！方式深い思考費用速度柔軟性実装の複雑さ正確性 Realtime API 単体 △ 単発応答中心。長期的な推論は弱い △ realtime APIそのものが高コスト ◎ 速い △ 機能が増えるほど難しくなる ○ シンプル ×~△ 日常会話などでは良いが、数字の理解や思考など困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せられるので深い思考は可能 ◎ realtime APIと比較して安価 × STT→LLM→TT Sで遅延大 ◎ 各モジュールを入れ替え可能 △ モジュール統合の設計必要 ◯ 思考という点では良い. 文字起こしさえできれば精度も担保 (Realtime) Chat- Supervisor 型 ◎ Supervisorが長期的推論や検索分岐を制御可能 ◯ 複雑な思考のみ LLMに任せることでコストメリットあり ◯ 深く考える際のみやや遅い ◎ Supervisorへの機能追加 △ Supervisor 設計の工数必要 ◯ Chainと同じような正確性

Slide 29

Slide 29 text

Slide 30

Slide 30 text

confidential Sequential Handoffs型はまだ実用には至らないか 30 Realtime Agentがそれぞれのニーズに合わせて会話中に入れ替わりたち変わり担当. 一つ一つのRealtime Agentに持たせる責務を狭くしてRealtie Agentの範囲で対応するという構想体験の再現性を担保することが難しい懸念あり

Slide 31

Slide 31 text

Slide 32

Slide 32 text

confidential まとめ 32 まず ➢ Code Interpreter/Realtime Agentアツい Voice Agentの動向 ➢ gpt-realtimeの改善により、ビジネスユースもかなり視野に入るように(ただし高い) ➢ 現在は、Chat-Supervisor型のMulti-Agentアーキテクチャが優勢その他・考え方 ➢ モデルの強みに応じて対応を変えるための、Multi-Agentという考え方(≠役割設計) Code Interpreterサクッと触るQR(Colab Notebook) Voice Agentサクッと触れるQR(GitHub)

Slide 33

Slide 33 text

confidential まとめ 33 ぜひお声がけください！