Upgrade to Pro — share decks privately, control downloads, hide ads and more …

現場のトークンマネジメント

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.
Avatar for dak2 dak2
June 25, 2026

 現場のトークンマネジメント

2026/6/25 AIオブザーバビリティ スペシャル#1 スポンサーLT
https://aid.connpass.com/event/397141/

Avatar for dak2

dak2

June 25, 2026

More Decks by dak2

Other Decks in Technology

Transcript

  1. トークン削減 Tips • モデルを使い分ける /model ◦ 設計は Opus ◦ 実装は

    Sonnet https://code.claude.com/docs/ja/costs#choose-the-right-model
  2. トークン削減 Tips • 新しい作業を始める時は /clear する ◦ 古いコンテキストはトークン消費する ▪ /rename

    でセッション名をつけておくと /resume で探しやすくて便利 https://code.claude.com/docs/ja/costs#manage-context-proactively
  3. トークン削減 Tips • 不要な MCP を disable する ◦ /context

    を実行してどのくらいのトークンを消費する か確認 https://code.claude.com/docs/ja/costs#reduce-mcp-server-overhead
  4. トークン削減 Tips • 不要な Skills / Plugin も disable する

    ◦ /context を実行してどのくらいのトークンを消費する か確認 ◦ 入れたけどあまり使っていないものありません?
  5. トークン削減 Tips • Extended thinking の調整 /effort ◦ 計画立案やアイディア発散の場合は、high or

    xhigh ◦ 実装時には low or medium で使い分ける https://code.claude.com/docs/ja/costs#adjust-extended-thinking
  6. • Agents を使い分ける ◦ トークン上限が来たら別の Agent を使う ◦ コードの仕様調査は Devin

    にほぼ全てを任せ、設計 / 開発は Claude Code に トークン削減 Tips
  7. • LSP Plugins ◦ あまり使えてないけど精度高いものなのか ◦ 有識者求 • Hooks への処理のオフロード

    ◦ プライベートでは Linter の実行を設定をしていたりします ◦ ただ、重すぎる操作は応答速度に関わるので注意です 他にも
  8. 論文 • Token-Budget-Aware LLM Reasoning ◦ https://arxiv.org/abs/2412.18547 ◦ プロンプトに「トークン予算」を提示し動的に長さを 調整するフレームワーク「TALE」を用いることで、精

    度低下を最小限に抑えつつトークンコストを平均67% 削減 ▪ *マルチモーダル非対応だったり精度低下が大きく なるケースも
  9. 論文 • SKILLREDUCER: A Less-Is-More Approach to LLM Agent Context

    Management ◦ https://arxiv.org/html/2603.29919v1 ◦ スキルから不要な情報を削ぎ落とし、必要な知識だけを段階的に開示する 「SKILLREDUCER」の提案 ▪ *ルールと例が暗黙的に入り組んで記述されているスキルの場合、自 動分離によって必要な依存関係が切り離され、逆にパフォーマンスが 低下するケースも
  10. 論文 • GenericAgent: A Self-Evolving LLM Agent ◦ https://arxiv.org/abs/2604.17091 ◦

    長期的に動作するLLMエージェントにおいて、重要なのはコンテキスト の長さではなく「情報密度」であると主張しています。最小限のツール、 階層型メモリ、過去の軌跡を再利用可能なSOP(手順書)に圧縮する自 己進化メカニズムを備え、圧倒的に少ないトークン消費で高いタスク完了 率を達成 ▪ *1回の実行ラウンド数に上限(30ラウンド)があるため、非常に複 雑なタスクは複数のセッションに分割する必要があり、その際の連続 性は手動でのレポート等に依存。また、自己改善ログの整理やスキル ツリーの再構築といった高度なメンテナンスは、現在手動で行う必要
  11. 論文 • Compressing Sequences in the Latent Embedding Space: K-Token

    Merging ◦ https://arxiv.org/abs/2604.15153 ◦ 連続するK個のトークンを軽量エンコーダで1つの潜在的埋め込み (Embedding)にマージすることで、性能低下を抑えながら入力長を最 大75%圧縮し、計算コストを大幅に削減する手法を提案 ▪ *「入力トークン」のみを圧縮しており、モデルが生成する出力トー クンには圧縮を適用していないため、出力が非常に長くなるタスクで は効率化の恩恵薄れる