Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Claude code Orchestra

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

Claude code Orchestra

Avatar for Taisei Ozaki

Taisei Ozaki

June 03, 2026

More Decks by Taisei Ozaki

Other Decks in Technology

Transcript

  1. ©MATSUO INSTITUTE, INC. 2 所属  株式会社 松尾研究所 データサイエンティスト 東京大学 松尾岩澤研究室 学術専門職員 大阪公立大学大学院 博士後期2年 DynamicsDesign研究室 来歴 2023年:大阪公立大学工学研究科 修士課程 入学

    2025年:同大学 博士後期課程 入学 2025年:東京大学及び株式会社松尾研究所 入職 学会   EMNLP / NAACL / AAAI / JSAI (優秀賞*2) / NLP その他活動 NLP & JSAI 若手の会委員 / GENIAC / AKATSUKI etc…  研究領域 VLM・LLM Agent・LLMの開発・応用  自己紹介 Ozaki Taisei  (尾崎  大晟) 部活動でのスポーツコーチング AI Agentを研究
  2. ©MATSUO INSTITUTE, INC. 3 本日の元ネタ 2026年1月末にリポジトリを公開.同時投稿の Claude Code Orchestra 記事も多数の反響をいただきました.

    あれから半年で,中身はかなり変わりました. Claude code orchestraとは Claude codeをインターフェースとし, Codex CLIとGemini CLIをSubAgentとして扱うことを前提に設計した CLI Agents 変遷 公開半年で170star,25forkをいただき,その後も継続的に発展して来ました. 連携をSKILLS型へ移行 Agent teamに対応 Gemini CLI廃止 26/4- 26/5- 26/5- MCPベースで各Agentを使っていたところを CLIベースに変更 並列実装SKILLSに対応 Claudeの画像能力・コンテキスト量がGeminiと肉薄 してきたことからGeminiを廃止
  3. ©MATSUO INSTITUTE, INC. 4 CLI Agent (Agentic CLI)とは,ターミナル (コマンドライン )上で動作する

    AI Agentの総称. CLIを通して自然言語でやり取りを行い,環境内のファイルを読取・編集する Agent.Aiderから始まり, Claude codeなどが代表格. CLI Agentとは Claude code Github Copilot CLI Codex CLI Gemini CLI ←VScode上にextention版のClaude codeとCodex CLI  を展開するとこんなイメージ. 用例: 「{任意のファイルパス }の以下のエラー内容に対応する形で修正して」 「このjsonlファイルをいい感じに Excelファイルに変換して」 「このマージコンフリクトをなんとかして」 Antigravity CLIになりました.
  4. ©MATSUO INSTITUTE, INC. 5 Anthoropicが提供する CLI Agentの中でもフラッグシップ的な存在のツール. CLAUDE.mdによるシステムプロンプト制御, SKILLSやhooks,subagent,Agent teamなどの多様な機能を持つ.

    Claude codeについて SKILLS 作業過程でメインエージェントが必要に応じて 自動で特定のファイルを読み込む機能. SubAgent メインのインターフェースとなるエージェント とは別に独立したコンテスト動くエージェント Hooks ファイル編集などの特定のタイミングに 連動して何等かの動作を行う機能
  5. ©MATSUO INSTITUTE, INC. 6 (旧)得意領域に応じた使い分けを探る 厳密に各社が強みを主張しているわけではないが, SNSを中心に Claude code・Codex CLI・Gemini

    CLIにはそれぞれ別個の 強みが存在している可能性が高い.それらを独自に調査し,強みが活きる形で作業区分けを行った. • Visualが絡んだ推論を行う場合は Geminiが圧倒 マルチモーダル推論能力を問う著名ベンチである MMLU-pro でもいまだに Gemini3 proが圧倒 • GPQAシリーズなどの Generalな言語推論能力は GPT あとはなぜかムズイことを任せろという言説が... この中では一番コンテキストウインドウが小さい • 平均的なコーディング能力はやはり Claude codeに歩がある ただ丁寧なインストラクションをしてあげないと難しい と,言われていたが, 4.6以降でロングランできるようになり無双 モードに入りそう
  6. ©MATSUO INSTITUTE, INC. 7 得意領域に応じた使い分けを探る opus4.7,4.8の登場, gpt-5.5の登場以降,モデルの強みにやや違いが現れており, opus4.7以降で画像の認識能力が大きく向上, codexモデルがなくなり gpt-5.4以降はコード周りが強化されたことで

    2強の構図に. 引き続きコーディング能力は Claudeが強いように見えるが, ほぼ差はないレベルに感じる. (差があるように感じていたらハーネス作りやコンテキスト管理がミスっているかも ) 1Mクラスのコンテキストになると Claude強い ちなみにcodexのgpt-5.5は400k Visionの能力はGeminiが最強だが誤差か
  7. ©MATSUO INSTITUTE, INC. 8 「Main Agentのコンテキスト消費を最小化する形で進めること」と「インターフェースを一元化し認知負荷を下げること」 を中心的な設計思想に置きつつ, hooks,rules,docsディレクトリを活用し,自動化範囲を最大化する. Claude Code

    Orchestraの設計思想 公式のClaude code ベストプラクティス Everything Claude code 1. Claudeに作業を検証する方法を与える — テスト・スクリーンショッ ト・期待出力を提供し,自己チェックさせる.公式が「最も効果的」と 明言 2. 探索→計画→実装の分離 — 計画モードで調査と実装を分け,間 違った問題を解決するリスクを排除 3. 環境を設定する — CLAUDE.md・hooks・skills・サブエージェント で,セッション横断の永続的コンテキストを整備 1. 専門家チームのように使う — なんでも屋ではなく,各エージェント に最小限のツールだけ与えて専門特化させる 2. hooksで確実な自動化 — CLAUDE.mdの「助言」ではなく,イベン ト発火で例外なく毎回実行される仕組みにする 3. MCP・SKILLS管理でリソース節約 — 有効化しすぎると 200k→70kまでコンテキストが縮小するため,プロジェクトごとに 10 個以下に絞る
  8. 9 0. Claude code orchestraでCLI Agentを使い分ける 1. CLI Agentと協調する時代の認知負荷の問題 2.

    認知負荷を意識したCLI Agent設計 3. ユースケース 4. 小言 9 Agenda
  9. ©MATSUO INSTITUTE, INC. 10 CLI / Claw Agentの登場により,人間の ”実作業”はどんどん AIによる代替が進んでいる.

    ”バイブコーディング ”から始まるように 人間の認知しない作業が多数存在,増加する中で,どうキャッチアップしていくかという認知不可問題が重要テーマになりつつある. CLI Agent / Claw Agent時代における問題意識 時代はHITLを前提としない世界へ HumanはどこにInするのがいいのか 旧来の活動ループ Auto Research • 旧来コーディング作業 (それ以外のあらゆる活動含め )は 人間の認知・判断を含むパイプラインで構築された. • AIの能力向上を背景に人間が行っていた作業が AIに代替されるシチュエーションが増えている. • codex・claude codeの登場はその先駆け. 1:人間を介さないでもいいようにする 2:人間の適切な介入場所を考える (本日) 2軸の 発展方向 ? ? ? • 生産性を高めるには当然すべて AIでやるのがいい. • ただ現在の AIには限界もあり,適切な人間の介入が 望まれる. • しかし介入するにはそのループでどういうことが行われ ていて,直近何をしたのかを認知することが必要. • 一方でAIが生み出す文章・コード量は膨大. 本日の課題 :どうやって膨大な情報を人間に認知させるか
  10. ©MATSUO INSTITUTE, INC. 11 Claude code Orchestraが重視している戦略は 2点. ・人間は指定した場所しか書き込まない. Agentとの会話も

    Claude codeとしか会話をしない. (UIの一元化 ) ・コンテキストを構造化し,ワークフロー (Skills)パターンをデザインする. (メモリエンジニアリング・パラグラフエンジニアリング ) 認知負荷を抑えるための考え方 人間と相対するMain Agentは単体化 メモリエンジニアリング Codex Codex • 人間が全エージェントを認知しない. • OrchestratorであるMain Agentを必ず経由する. Checkpointディレクトリ (後述) • 直近のループ (Agentが自律的に 行った作業 )が溜まっていく • ここを元に方針を整理したり,見 落としを指摘したり.. researchディレクトリ • WebSearch,Slack,Notion,他 リポジトリなどの Read作業をした ときの情報の整理 • “何”を”どこ”に置き,人間は ”何”を見るのか • 同時にAIにマルチセッションでロバストに動かす土台に これらの生データを 所定のMDで管理 (LLM wikiの思想)
  11. ©MATSUO INSTITUTE, INC. 12 ベースコードに対して CLI Agentと共に作業する場合,基本的に以下の形で作業が進む.その前提でスキル化しておく. ①ベースコードの全体理解 →②作業計画の立案 →③実際にコード編集

    →④レビュー &テスト&PR→⑤作業サマリをドキュメント化 主要Skills:/start-feature & /checkpointing /start-feature /checkpointing • 新しい機能開発や改善に着手するための起点スキル. • コード全体と過程の理解+計画立案支援が主要目的. • 長時間・複数回の作業を安全に継続するための状態管理 スキル(前述のcheckpointを生成するスキル ) ユーザーとのやり取り,他の Agentの作 業内容などをcheckpoint化.構造はLLM wiki準拠 Codex Codex checkpointの内容からSKILLSを自動更新 使用感的にこの作業は codexがgood Claude Codeの1Mコンテキストの理解能力・聞取能力 Codexの計画能力やサーベイ能力 協調: • 最初に全体像理解と計画し,これから何をやるかを 言語化したうえで,人間と合意を取り進める. • 「何をやろうとして,どこまでやった」を残し,人間の理解 補助と長期行動のロバスト性を向上に繋げる
  12. ©MATSUO INSTITUTE, INC. 13 人間が見るべき場所と重要指示 (作業要件定義 )を残す場所を明確化しておく. • 毎回の作業で残した checkpointをもとに,

    PROGRESS.mdが構築され,どういう状況なのかを把握できる. • DESIGN.mdに事実上の仕様 (要件定義的に最終的に到達したい状態や細かな更新など )を残し,常に作業方針を明確化できる. 人間はどこでキャッチアップし,意図を伝えるのか PROGRESS.md DESIGN.md • 現在地を知るための場所 • 直近5件のcheckpointから作成される作業まとめ • 目的地・方針を共有する場所 • リポジトリの立ち上げや作業都度で更新する仕様書 • セッションの開始時に読む. • 人間視点では直近何をしていて,それはなぜで, 今どこまで進んだのかを把握する. • セッションの開始時に読む. • 人間が要件や細かな仕様を明文化し, Agentはここを適宜 参照しながら進める.場合よっては修正する. • 二つのファイルに出口と入口を絞っているイメージ.ただ詳細が気になった場合は, checkpointへのリンク, さらにそこから実コードへのリンクを飛ばして曝露範囲を増やす (SKILLSの技術背景 )
  13. ©MATSUO INSTITUTE, INC. 14 主に3つのユースケースを考えており,コーディングへの活用・論文執筆への活用・ Personal knowledge Baseへの活用がある. それぞれで別のハーネスとコンテキスト管理方法を勘案しており,具体については後日テックブログ化予定. ユースケース

    Coding 論文執筆 PKB • バニラな利用方法 • /start-featureから/checkpointing のサイクルを回す • checkpointを元にどういった作業を 進めたのかを逐次確認可能 • Overleafでの複数人執筆を前提とし た利用方法 • 参考文献・実験コード・結果の統合的 な管理をモノリポで行う • 人間の編集と競合しないような pullと pushの制御を行う • ObsidianをViewerとして活用し, Cron作業をHermes Agentに, 共著はClaude code orchestra • Google DriveやTask,Github MCP,Notion CLI,Slack,Gensparl と自然に繋がり,PKBを構成
  14. ©MATSUO INSTITUTE, INC. 15 まとめと小言 Point! • 以下に継続的に Agentと協調するか (Agent

    Loopの中に入っていくか )をデザインする上で, 人間の認知負荷の低減の工夫 は非常に重要. • インターフェースを一元化し,どこで指示し,どこを見るのかを適切に事前定義する ことが 認知負荷低減につながる. • 作業を上手に checkpointさせる,蓄積させることがそもそも重要. 資産にもなるし,継続的にロバストに動かすことにもつながるし,何より認知するために必要. • 認知負荷低減の工夫はこれだけでは済まない. ポッドキャスティング や,HTMLの動的レポート化 ,サマリー動画化 など工夫余地は無数. Oops! Claude codeはSub Agent側が担当できないかも... Team開発でも共有と分担のすみ分けなどコンテキスト管理が重要...