Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
現場のトークンマネジメント
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
dak2
June 25, 2026
Technology
130
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
現場のトークンマネジメント
2026/6/25 AIオブザーバビリティ スペシャル#1 スポンサーLT
https://aid.connpass.com/event/397141/
dak2
June 25, 2026
More Decks by dak2
See All by dak2
KaigiEffect.new(name: "dak2").generate
dak2
1
84
No Types Needed, Just Callable Method Check
dak2
1
8.1k
MCP Security Best Practices に見るセキュリティリスクとmodelcontextprotocol/ruby-sdk の authorization の現在地
dak2
0
49
自然言語で ActiveRecord を操作する試み
dak2
0
55
DoD x RBS
dak2
0
18
Other Decks in Technology
See All in Technology
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
3k
LayerX コーポレートエンジニアリング室におけるサプライチェーンセキュリティへの取り組み / Supply Chain Security at LayerX Corporate Engineering
yuyatakeyama
2
690
Flow 不死:AI 時代 DevOps 的不變本質
cheng_wei_chen
2
350
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
1.3k
小さく始める AI 活用推進 ― 日経電子版 Web チームの事例/nikkei-tech-talk47
nikkei_engineer_recruiting
0
300
アンオフィシャルな、オフィシャルからのお願い
wyamazak_devrel
0
140
新しいUbuntu/GNOMEが使いたいからXからWaylandへ移行頑張ってるの巻 2026-06-20
nobutomurata
0
150
200個のGitHubリポジトリを横断調査したかった
icck
0
140
Agent Skills設計で柔軟性と硬さのバランスが難しい話
nassy20
0
150
AWS Security Agent といっしょに脅威モデリングをやってみよう
amarelo_n24
1
180
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
230
脆弱性対応、どこで線を引くか
rymiyamoto
1
420
Featured
See All Featured
Making Projects Easy
brettharned
120
6.7k
So, you think you're a good person
axbom
PRO
2
2.1k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.2k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.5k
Into the Great Unknown - MozCon
thekraken
41
2.6k
Believing is Seeing
oripsolob
1
150
Abbi's Birthday
coloredviolet
2
8.1k
Building the Perfect Custom Keyboard
takai
2
800
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Are puppies a ranking factor?
jonoalderson
1
3.6k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
Transcript
現場のトークンマネジメント ~ Tokenmaxxing is over ~ AIオブザーバビリティ スペシャル#1 | 2026-06-25
Daichi Kamiyama (@_dak2_)
1会場案内・自己紹介
始める前に 喫煙所は地下になります
自己紹介 Daichi Kamiyama(@_dak2_) • 株式会社タイミー • バックエンド / 新規事業開発 •
W杯観戦しながらトークンを消費していま す!!!
2 本編
本日のお品書き • トークンマネジメントの事例(Claude Code) • 弊社のモニタリング環境 • 研究事例の紹介
AI 使ってますか? (多分みなさん使ってると思います)
トークンの使用率 気になってますか?
最近 https://www.businessinsider.jp/article/2606-amazon-ai-leaderboard-tokenmaxxing/
最近 https://news.yahoo.co.jp/articles/e568aedd8390e2c0e881b60dfbac36930999c29d
以前 \どんどん AI を使おう/
最近 \トークン上限内で使おう/
Tokenmaxxing is over
AI の性能を劣化させな いためのトークン効率 以前
AI の性能を劣化させな い + コスト増への対応 これから
弊社の現状
弊社の現状 トークン上限が設けられて おり、適切に管理
弊社で使える Coding Agents • Claude Code • Cursor • Devin
現場のトークン削減 Tips
トークン削減 Tips *Claude Code メイン Tips です 🙏
トークン削減 Tips • モデルを使い分ける /model ◦ 設計は Opus ◦ 実装は
Sonnet https://code.claude.com/docs/ja/costs#choose-the-right-model
トークン削減 Tips • 新しい作業を始める時は /clear する ◦ 古いコンテキストはトークン消費する ▪ /rename
でセッション名をつけておくと /resume で探しやすくて便利 https://code.claude.com/docs/ja/costs#manage-context-proactively
トークン削減 Tips • コンテキストを要約 /compact ◦ トークンの圧縮になります ◦ CLAUDE.md でコンパクションの動作を指示できる
https://code.claude.com/docs/ja/costs#manage-context-proactively
トークン削減 Tips • 不要な MCP を disable する ◦ /context
を実行してどのくらいのトークンを消費する か確認 https://code.claude.com/docs/ja/costs#reduce-mcp-server-overhead
トークン削減 Tips • 不要な Skills / Plugin も disable する
◦ /context を実行してどのくらいのトークンを消費する か確認 ◦ 入れたけどあまり使っていないものありません?
トークン削減 Tips • Extended thinking の調整 /effort ◦ 計画立案やアイディア発散の場合は、high or
xhigh ◦ 実装時には low or medium で使い分ける https://code.claude.com/docs/ja/costs#adjust-extended-thinking
• CLAUDE.md を薄く保つ ◦ PR レビューやデータベース移行などの特定のワークフ ロー用の詳細な指示は載せない。概要だけ ◦ 特定ワークフローの指示は Skill
化する https://code.claude.com/docs/ja/costs#move-instructions-from-claude-md- to-skills トークン削減 Tips
• subagent に詳細な操作を任せる ◦ テスト実行やドキュメントの取得、ログファイルの処 理は結構コンテキストを食うので、subagent に任せる https://code.claude.com/docs/ja/costs#delegate-verbose-operations-to-su bagents トークン削減
Tips
• プロンプトを具体的に ◦ これはよく言われることですね https://platform.claude.com/docs/ja/build-with-claude/prompt-engineering /claude-prompting-best-practices トークン削減 Tips
• 知見を集めた skills を作っておく https://tech.timee.co.jp/entry/2026/02/24/100702 トークン削減 Tips
• Agents を使い分ける ◦ トークン上限が来たら別の Agent を使う ◦ コードの仕様調査は Devin
にほぼ全てを任せ、設計 / 開発は Claude Code に トークン削減 Tips
• LSP Plugins ◦ あまり使えてないけど精度高いものなのか ◦ 有識者求 • Hooks への処理のオフロード
◦ プライベートでは Linter の実行を設定をしていたりします ◦ ただ、重すぎる操作は応答速度に関わるので注意です 他にも
• いらない機能は作らない / 不要なら削除してい くというのも地味に推していきたいポイント ◦ 当たり前の話 ◦ ただ、AI で作る量の増加に対して認知負荷(=コンテキ
スト)も増加している中で、ちゃんと線引きできていま すかというのは問ていきたい 他にも
• こんなこと気にしなくてもいい感じにトークン 消費抑えてほしい!!!!!!!!! • ただ、メタ的に見ると対人コミュニケーション と同じだなと思えてくるので、AI とやり取り をする上では必要だなあと思う 個人的には
• 一度にいろんなことをやらせない ◦ これはどの Agent を使っていても共通する ことかなと思います 要は
とはいえ
計測ですよ
トークン消費を定期的にウォッチして調 整していくのが大事 とはいえ
弊社の取り組み
弊社の取り組み • 鋭意改善中ではあるものの、モニタリングをし ながら個々人が調整をできるような環境が整備 されています
ccusage https://github.com/c cusage/ccusage 個人的に使っている OSS
研究事例
論文 • Token-Budget-Aware LLM Reasoning ◦ https://arxiv.org/abs/2412.18547 ◦ プロンプトに「トークン予算」を提示し動的に長さを 調整するフレームワーク「TALE」を用いることで、精
度低下を最小限に抑えつつトークンコストを平均67% 削減 ▪ *マルチモーダル非対応だったり精度低下が大きく なるケースも
論文 • SKILLREDUCER: A Less-Is-More Approach to LLM Agent Context
Management ◦ https://arxiv.org/html/2603.29919v1 ◦ スキルから不要な情報を削ぎ落とし、必要な知識だけを段階的に開示する 「SKILLREDUCER」の提案 ▪ *ルールと例が暗黙的に入り組んで記述されているスキルの場合、自 動分離によって必要な依存関係が切り離され、逆にパフォーマンスが 低下するケースも
論文 • GenericAgent: A Self-Evolving LLM Agent ◦ https://arxiv.org/abs/2604.17091 ◦
長期的に動作するLLMエージェントにおいて、重要なのはコンテキスト の長さではなく「情報密度」であると主張しています。最小限のツール、 階層型メモリ、過去の軌跡を再利用可能なSOP(手順書)に圧縮する自 己進化メカニズムを備え、圧倒的に少ないトークン消費で高いタスク完了 率を達成 ▪ *1回の実行ラウンド数に上限(30ラウンド)があるため、非常に複 雑なタスクは複数のセッションに分割する必要があり、その際の連続 性は手動でのレポート等に依存。また、自己改善ログの整理やスキル ツリーの再構築といった高度なメンテナンスは、現在手動で行う必要
論文 • Compressing Sequences in the Latent Embedding Space: K-Token
Merging ◦ https://arxiv.org/abs/2604.15153 ◦ 連続するK個のトークンを軽量エンコーダで1つの潜在的埋め込み (Embedding)にマージすることで、性能低下を抑えながら入力長を最 大75%圧縮し、計算コストを大幅に削減する手法を提案 ▪ *「入力トークン」のみを圧縮しており、モデルが生成する出力トー クンには圧縮を適用していないため、出力が非常に長くなるタスクで は効率化の恩恵薄れる
まとめ
まとめ • Tokenmaxxing は終わり、トークンコストを より気にする時代へ • 一度にいろんなことをやらせない • 多くの論文で研究されている •
トークンコストを管理してプロダクト開発を楽 しんでいきましょう
最後に
カジュアル面談はこちらから!