トークンをケチるな、設計しろ：GitHub Copilotを賢く使うコンテキスト戦略

// 2026.06.21 — 30min Talk トークンをケチるな、設計しろ GitHub Copilot を賢く使うコンテキスト戦略コンテキスト設計によるAI
開発の最適化

Godius Eternal War 2025/07/23 で日本でサービス終了して、 2026/06/27 に Steam
で韓国( 本国) から復活 🎉

本記事のターゲット層 GitHub Copilot （Agent Mode ）を日常的に使っている開発者トークン消費やレスポンス品質に課題を感じている方 MCP サーバーを構築・運用しているエンジニアチームでのAI
活用ルールを設計したいリード・マネージャー

はじめに：質問の仕方から情報設計へ従来のアプローチ「プロンプトを上手に書く」活用するためのアプローチ「AI が受け取る情報全体を設計する」コンテキストエンジニアリングの次の
ステップ： • コンテキストウィンドウ全体を俯瞰する • 情報の寿命と用途で配置を決める • 観測→ 最適化のサイクルを回す • AI の行動のブレをコントロールするハーネスエンジニアリング（安全に、再現可能に、検証可能にシステム開発を進めるための環境設計）ループエンジニアリング（目的達成まで AI が作業を続ける）

はじめに：リクエスト数から従量課金制へ従来のアプローチ「一つのリクエストにうまく詰め込む」本セッションのアプローチ
「コンテキストウィンドウを有効活用する」トークン消費を設計する時代へ • 原始人語で節約するのでもない • 単にプロダクトを乗り換えればいいわけでもない

はじめに：5 月頃から複数AI + 高価格プランを選ぶ時代に突入した既存の
社内システムと機能や企業の信頼性、自身の利用環境に応じて複数のツールを選択する時代既存の社内システムとの親和性が重視用途に応じた使い分け Claude Codex Claude Microsoft365 Codex GitHub Copilot

はじめに：なんで GitHub Copilot ？唯一無二だからだが？ (/ᐕ)/

はじめに：GitHub Copilot + 何かで選ぶべきでしょ開発会社/ 部
署が GitHub Copilot 選ばない理由なくね？ ╭( ･ㅂ･)و

// KEY MESSAGE トークンを「節約」するのではなく「適正に設計」する必要な情報を必要な形で、必要なタイミングで届ける。それがコンテキスト設計。 GitHub Copilot の料金体系が
変わったことで困っている人へ捧ぐ＼(^O^) ／

SECTION 01 トークンは質問文だけで増えるわけではない GitHub Copilot が消費するトークンの内訳： • ユーザーのプロンプト（質問文） • AGENTS.md
/ カスタム指示 • 開いているファイル・ワークスペースファイル • MCP 通信結果（ツール呼び出し + レスポンス） • 会話履歴の蓄積 • AI の出力自体（出力途中も含む） → 質問文は全体のごく一部に過ぎない

コンテキストウィンドウはAI の作業机図2: コンテキストウィンドウの全体像 GitHub Copilot 会話ウィンドウ内の全て履歴管理 • 会話履歴
• AGENTS.md 等ツール呼出 • input_schema • MCP 通信結果入出力 • ユーザー入力 • AI 出力結果 • 出力途中も含むファイル参照 • 開かれたファイル • ワークスペース • .gitignore 等会話と履歴を積み重ねると、/content & /usage で、この全ての合計を観測する

入力・出力・キャッシュトークンの違い Input Tokens LLM に送信される全情報プロンプト + コンテキスト + 履歴
課金: $$/1M tokens Output Tokens LLM が生成した応答コード + 説明 + ツール呼出課金: $$$/1M tokens Cached Tokens 再利用された入力部分 AGENTS.md 等の固定情報課金: $/1M tokens （割安） ⚠ 出力トークンは入力の3 〜4 倍コストが高い → 出力の制御も設計対象実は「ツールを実行した」という情報もトークンに含まれる

256k トークンってどれくらい？ 256k tokens = 約600 ページ相当 (
英語の一般的なビジネス文書・PDF の 1 ページ)= 日本語なら 500 文字～800 文字相当この記事で 7,032 文字 = 4,113 tokens × 62 ページ相当が 256k tokens なお、こちらからご参加頂けます。

256k トークンの用途別目安（あくまで目安です）

MCP 通信とLLM トークンは別物 MCP 通信サーバーとクライアント間のJSON データ交換 → ネットワーク・処理時間に影響 LLM
トークン MCP 結果がLLM へ送信されて初めてトークン消費 → コスト・品質に影響設計のポイント MCP サーバー側でレスポンスを絞る必要な結果のみLLM へ渡す input_schema の定義もトークン消費ツール数が多い = 常時コスト増 input_schema とは・・・ツールに渡す入力値の説明 { "name": "get_weather", "description": "Get current weather information for a location", "inputSchema": { "type": "object", "properties": { "location": { "type": "string", "description": "City name or zip code" } }, "required": ["location"] } } 通信そのものはトークンに入らない

トークンを観測してから最適化するまず現状を把握する。推測で最適化しない。観測コマンド /usage — トークン消費量を表示 /content —
現在のコンテキスト内容を確認観測何がどれだけトークンを使っているか分析不要な情報はどこに含まれるか最適化設計を見直し、効果を再測定

SECTION 02 情報の寿命と適用範囲で分ける ① すべての情報を1 ファイルに詰め込まない情報には寿命がある。寿命に応じて配置場所を変える。
・ほぼすべての作業で守る情報・特定の作業だけで必要な情報・設計変更時だけ必要な情報・対象ファイルやディレクトリによって変わる情報・今回の依頼だけで必要な情報

情報の寿命と適用範囲で分ける ② 情報を AI に渡す＝トークンを消費する。

指示の置き場所チートシート

プロンプトが長くなるならファイル添付にしよう長いプロンプトをそのままチャットに貼り付けないほうがよい
・コンテキストウィンドウを効率的に使える・チャット履歴が見やすい・AI がファイル単位で処理しやすい・編集・再利用しやすい

GitHub Copilot Spaces を活用しよう！ Copilot に「このプロジェクトでは何を前提に
答えてほしいか」をまとめて渡すための “ コンテキスト置き場” GitHub MCP サーバー VS Code Visual Studio GitHub Copilot リポジトリのコンテキストとアップロードされたファイルは非サポート

GitHub Copilot Memory を活用しよう！リポジトリ単位で共有できるメモリ機能がある

AGENTS.md ✓ インストラクションファイルに書くべきもの • プロジェクト概要（1-2 行） • 会話スタイル・トーン指定 •
参照すべき他ファイルへのポインタ ✗ インストラクションファイルに書くべきでないもの • 詳細な設計ドキュメント • 全API 仕様 • 作業手順の全ステップ理由: AGENTS.md は毎回の会話で最初に読み込まれるここが肥大化 = 全会話のベースコスト増 → 入口は薄く、必要時に詳細を参照させるインストラクションファイルは入口、全知識の倉庫ではない ① instructions.md

インストラクションファイルは入口、全知識の倉庫ではない ② インストラクション設計で重要なこと・システム構成情報は膨大に
なるため、別ファイルに持たせる・インストラクションファイルで必要に応じて読み込ませたい場合は別ファイルに持たせる・コンテキストウィンドウを圧迫する恐れがある場合は思い切ってスキルや MCP/CLI にする → パラメーターに応じて必要な情報（システム構成情報、依存関係・呼び出し関係、コーディング規約など）を DB や JSON などから取得する手法も要検討 AGENTS.md instructions.md

Agent Skills は作業手順書 ① SKILL.md = タスク実行時に必要な具体手順 // 例: .github/skills/deploy.md
## デプロイ手順 1. テスト実行: npm run test 2. ビルド: npm run build 3. 環境変数確認: .env.production 4. デプロイ: gh workflow run deploy • タスク単位で分割 • 必要時のみ読み込まれる • 更新頻度が高い情報向きセッション開始時に name と discription が読み込まれて、スキルの実行時に body が読み込まれる。

Agent Skills は作業手順書 ② スキル設計で重要なこと・条件によって読み込まなくても
よいものは別ファイルに分ける・スキルの本文が長くなりすぎる場合は、複数に分ける（分割実行をする）・プログラムで処理できる内容は script 化して実行する。・MCP のツール呼び出しは明示指定する（判断させるとトークン消費が膨大になる）・スキルで呼び出すなら MCP よりも CLI にすること（MCP 起動だけでもトークン消費する）

DESIGN.md は必要時に参照デザインシステムは常時読み込む必要がない → AGENTS.md から「デザイン判断が必要な
場合は DESIGN.md を参照」と誘導ちなみに明示的にファイルを指定すれば GitHub Copilot でも作用します

SECTION 03 MCP は定義と実行結果を設計する MCP ツールは便利。でもトークンコストを意識していますか？ MCP がトークンに影響する3 つの経路：定義
input_schema が毎回送信される呼び出しツール呼び出しのJSON 結果レスポンス全体がコンテキストへ

MCP で重くなる三つの場所 1. ツール定義の肥大化ツール数 × input_schema = 常時消費 20
ツール登録 → 数千トークンが常時占有 2. レスポンスの無制限返却 DB 全件取得 → 巨大JSON LLM にとって処理不能な量 3. 不要なメタデータタイムスタンプ、ID 、内部フラグ等 LLM の判断に不要な情報 ⚠ MCP の「便利さ」がトークンを圧迫するパターンに注意

MCP サーバー側で結果を制御サーバー側の設計で、LLM に渡る情報量を制御する // MCP Resource 設計の工夫 ✓ ページネーション:
limit / offset パラメータ ✓ フィールド選択: fields パラメータで返却項目を絞る ✓ サマリー返却: 詳細ではなく要約を返す ✓ エラー情報の簡潔化: スタックトレースを除外 → 「必要な結果のみLLM へ送信」がMCP 設計の原則

MCP とCLI の使い分け

SECTION 04 コンテキスト設計・キャッシュ・圧縮を品質とセットで考える最適化手段は3 つ。でも順番を間違えると品質が劣化する。 1 コンテキスト設計
→ 2 Prompt Caching → 3 コンテキスト圧縮 ⚠ 適正設計せずに圧縮・キャッシュのみ行うと、品質が最速劣化

コンテキスト設計は不要な情報を入れない実行するタイミングで不要な情報は最初から入れないようにしましょう
・使わないツールを提示しない・対象外の設計書を読まない・検索結果を上位20 件に制限する・ログ全文ではなくエラー周辺を返す・一覧取得と詳細取得を分けるこれは入力トークンを減らすだけでなく、 AI の判断ノイズを減らします。

Prompt Caching を活用するなら「固定文」はできるだけ前に書く [system] あなたは〜
[tools] tool1: ... tool2: ... [messages] user: ... assistant: ... tool_result: ... キャッシュ発火バイト列として完全一致していればキャッシュが効く前回 ABCDEFG | HIJK ABCDEFG | LMNO 今回が一致してればキャッシュヒット ABCDEFG 👉 セッション継続中は、いままでの文脈を引き継いで次の指示を受け入れるため、指示を出すたびにコンテキストサイズは増えていく。そのため、意識せずとも意外とキャッシュは効く。 LLM に送られる最終イメージ

コンテキスト圧縮は長い履歴を要約してしまうコンテキスト圧縮は、長くなった会話履歴を短い要約へ置き換える
考え方です。これにより、古い会話をすべて保持しなくても、重要な判断を引き継げます。ただし、要約時に細かな情報が失われる可能性があります。後から必要になる原文は、ファイルや外部記録へ残しておく方が安全です。

状況に応じてセッション継続をやめよう [system] あなたは〜 [tools] tool1: ... tool2:
... [messages] user: ... assistant: ... tool_result: ... [system] あなたは〜 [tools] tool1: ... tool2: ... [messages] user: ... assistant: ... tool_result: ... ～～長く継続するほど、最初の指示がいい加減になってくる。セッションを継続し続けるたびにコンテキストを圧迫して、やることにブレが起きやすくなる。

リポジトリインデックスを活用しようと言っても、 GitHub Copilot はリポジトリをコンテキストにした
会話を始めると、バックグラウンドで自動的に生成されます。 1 GitHub.com または VS Code で対象リポジトリを開く 2 Copilot Chat を開く 3 そのリポジトリについて質問する 4 裏側でインデックス作成が走るこのリポジトリの注文確定処理はどこにありますか？検索で絞ったコンテキストリポジトリや大量ファイルをそのまま渡すセマンティック検索が発火する効率的な検索により、トークン消費を抑える VS セマンティック検索とは「同じ意味っぽいもの」を探す検索方法このプロジェクトの HTTP リクエスト処理の流れを説明して

三つの違い（設計・キャッシュ・圧縮）図1: トークン最適化の3 つのアプローチコンテキスト設計不要情報は「入れない」設計で対応 Prompt Caching 繰り返し使う情報を「再利用」
キャッシュで対応コンテキスト圧縮必要情報を「圧縮」 AI 圧縮で対応適正設計せずに圧縮・キャッシュのみ行うと、品質が最速劣化品質劣化リスク: 低品質劣化リスク: 中（古い情報）品質劣化リスク: 高（情報欠損）

SECTION 05 モデル選択はタスクで決める ① 「最強モデルを常に使う」は最適解ではない高性能モデル • 設計判断
• 複雑なリファクタリング • アーキテクチャ検討軽量モデル • 定型コード生成 • テスト追加 • ドキュメント生成特化モデル • コードレビュー • セキュリティ分析 • パフォーマンス最適化

モデル選択はタスクで決める ② モデルはコストやコンテキストサイズだけで決めない・迷ったら Auto
・軽量モデルを選ぶなら MAI を優先するべし：GitHub Copilot や VS Code での実利用を意識したモデル・Claude Opus 4.7 以降、 OpenAI GPT 5.5 からはプロンプトガイドが異なるから注意が必要つまり Opus の方が細かくコントロールが効くがトークン消費は大きい

モデル選択はタスクで決める ③

SECTION 06 自動化は QCDR で判断する AI 活用のフレームワーク C
Cost 不要な入力と出力を減らす D Delivery AI の作業速度 Q Quality AI の成果の品質 R Review 人間による確認 → 4 つの軸でバランスを取り、最適化の深度を決定するこれを実現するには指示ファイルなど（AGENTS.md/SKILL/MCP/etc..) は組織で共有/ 管理できるようにしたほうがよい。マーケットプレイスや APM （Agent Package Manager ）を活用しよう APM のリポジトリはこちら👇

Cost ：不要な入力と出力を減らす Cost では、単にプロンプトの文字数を
見るのではなく、処理全体を確認します。 - 常設指示が巨大になっていないか - 利用しないツール定義を毎回提示していないか - 検索結果を全件返していないか - ログを無制限に返していないか - 同じファイルを何度も読み直していないか - 長いセッションを放置していないか - 何度もやり直す原因が説明不足ではないか - 軽い作業に高推論モデルを使い続けていないか「入力を短くする」だけでなく、「往復回数を減らす」「タスクに合ったモデルへ切り替える」ことも Cost 改善です。

Delivery ：AI の作業速度作業手順を AI に毎回考えさせるより、 Skill や
CLI で固定した方が速い場合があります。たとえば、毎回同じテストコマンドを使うなら、 AI が数十個のツールからテストツールを探す必要はありません。 1. `dotnet format -- verify- no- changes` 2. `dotnet test -- logger "console;verbosity=minimal"` 3. 失敗時はエラー周辺のみを報告する判断が不要な部分は固定し、判断が必要な部分へ AI の能力を使う方が効率的です。

Quality ：AI の成果の品質設計書やコーティング規約を読ませれば、以下の品質問題が
減ります。 - 既存アーキテクチャに反する - 公開API を壊す - セキュリティ境界を越える - データ整合性を損なう - テスト方針に反する - 似た機能を重複実装するしかし、 AI に伝わる内容である必要があり、 AI に伝えるべきものもある程度網羅が必要です。従来であれば、設計書に不足があっても人が調査をし、間を読んで対処ができました。 AI にある一定の成果を自律的に達成させるためには、設計力と説明力の両方が重要になります。長いタスクを AI に任せる場合は以下のようなフローを意識するとある程度の品質が保たれます。 AI に必要な設計意図と検証条件を渡しましょう。作業計画策定作業計画検証作業実行情報整理作業計画検証

Review ：人間が承認すべき境界を残す AI エージェントが自律的に作業できても、すべてを無条件に
承認してよいわけではありません。 AI は、候補を調査し、差分を作り、テストを実行し、レビュー材料を整理できます。しかし、「このリスクを受け入れるか」「この仕様を正式採用するか」は、組織や責任者の判断です。 - 必要なファイルを探す - 既存実装を説明する - 変更案を複数出す - テストを追加する - 静的解析を実行する - 影響範囲を一覧化する - Pull Request の説明文を作る - 方式の最終決定 - 本番反映 - データ破壊操作 - セキュリティ例外 - 予算や納期の優先順位 - 法務・コンプライアンス判断 AI へ任せやすい部分人間の承認を残す部分

CDQR の判断表

まとめ：チェックリストインストラクションファイル（AGENTS.md 、 instructions.md ）は入口のみ。詳細は別ファイルへ分離
情報の寿命に応じてインストラクションファイル / SKILL.md / DESIGN.md を使い分け MCP サーバーのレスポンスは必要最小限に設計 /usage と /content で定期的に観測するコンテキスト設計→ キャッシュ→ コンテキスト圧縮をセットで品質を考えるモデル選択はタスク複雑度で判断 CDQR フレームワークで最適化の深度を決定

// CONCLUSION トークンをケチるな、設計しろ AI に渡す情報を「減らす」のではなく「必要な情報を、必要な形で、必要な時に届ける」それがコンテキスト設計 Thank you —
ご質問はお気軽に

トークンをケチるな、設計しろ：GitHub Copilotを賢く使うコンテキスト戦略

トークンをケチるな、設計しろ：GitHub Copilotを賢く使うコンテキスト戦略

More Decks by Ochtum

Other Decks in Programming

Featured

Transcript