Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Tyranny of Not Measuring

Avatar for watany watany
June 19, 2026
49

The Tyranny of Not Measuring

Avatar for watany

watany

June 19, 2026

Transcript

  1. Token Maxxing > (私訳) Nvidiaのジェンスン‧ フアンCEOは、年俸50万ドルの エンジニアが業務を遂⾏するに あたって、25万ドル相当のAI トークンを消費していないと したら、⾮常に危機感を覚える

    と語りました。 Jensen Huang says Nvidia engineers should use AI tokens worth half their annual salary every year to be fully productive — compares not using AI to using paper and pencil for designing chips https://www.tomshardware.com/tech-industry/artificial-intelligence/jensen-huang-says-nvidia-engineers-should-use-ai-tokens-worth-half-their-ann ual-salary-every-year-to-be-fully-productive-compares-not-using-ai-to-using-paper-and-pencil-for-designing-chips
  2. OpenClawの開発者は$130万/⽉のAPIトークンを使う $130万 = 約2億円/⽉の内訳 - チーム : 3⼈ - 並列数

    : x100 Instance - Fast(1.5倍速) : x2.5 Token ※参考: どうすれば⽉2億円分のトークンを燃やせるのか https://x.com/steipete/status/2055346265869721905
  3. 8 ⻑期⾃⾛の実装例:Ralph Wiggum Loop - 「ザ‧シンプソンズ」のRalph Wiggumのように”諦めない”実装 - Ralph Wiggum

    Loopの最⼩系 - AI AgentへPromptを毎回渡す - タスクが完了するまでLoop - Loop毎にContextを初期化 - ⾃⾛に向くタスク - 完了定義が曖昧なタスク - ⼤量のToDo消化 https://github.com/langchain-ai/deepagents/tree/main/examples/ralph_mode
  4. ”⾃動運転レベル4”の到来 副操縦士(Copilot) レベル0 AI支援 なし レベル1 AI支援 Chat レベル2 AI支援

    補完 +Chat レベル3 Agent 人間が 支援 レベル4 Agent 人間の 支援なし レベル5 実装の 完全自動 生成 操縦士(Pilot) ドライバー席 助手席 後部座席 人間の支援なしでの長時間自 走 10 2025/02 2026/02
  5. 各社のLLM料⾦プラン⾒直しの背景 - サブスクリプション - 現状が利益度外視の格安状態 - LLMバックエンドAPIとして超⾼頻度に呼び出される - リクエストベース -

    エージェント前提の呼び出し(数⼗〜数百往復)は チャット時代の費⽤感(1呼出 - 1応答)と合わない - トークンベース - 利⽤トークン毎の完全従量課⾦ - 利⽤者には割⾼に感じるが、やむを得ない
  6. 企業向けの定額プランは多くない 注:2026/06時点での課題 - Business GPT & Codex = 厳密な定額ではない (超過時は別途Credit)

    - Claude Team Premium = 5〜150⼈向け GitHub Copilot法⼈利⽤の移⾏先検討結果 https://zenn.dev/nuits_jp/articles/2026-06-07-copilot-business-migration
  7. LLMのコストが「毎年下がる」は真か? フラッグシップモデルの値付けは ⼤きく変動していない - 2024/05:GPT-4o (登場時) - $5.00 / $15.00

    - 2025/04:o3 (登場時) - $10.00/ $40.00 - 2026/06:Claude Fable 5 - $10.00/ $50.00 https://x.com/wmoto_ai/status/2064535938127286292?s=20
  8. ⼊⼒Contextを削減する実装例 https://github.com/rtk-ai/rtk 49 RTK(Rust Token Killer) - Token消費を60〜90%削減する CLIプロキシ -

    コメント、空⽩、ボイラー プレートの⾃動除去 - テスト実⾏時の成功結果を省略 - ビルド時のError‧Warn抽出 - エージェントがコマンド実⾏時に Hookで書き換える - 例:ls → rtk ls -
  9. ⼊⼒Contextを削減する実装例 https://github.com/chopratejas/headroom 50 Headroom - Netflixでも利⽤実績のあるContext 圧縮レイヤー - CCR(Compress-Cache-Retrieve) という可逆圧縮

    - JSONの不要部分削除 - コードをAST解析し圧縮 - 軽量⾔語モデルでテキスト圧縮 - JSON-heavyなAPIレスポンス、⼤量 のログ読み込みで効果
  10. 結びに https://www.msz.co.jp/book/detail/08793/ 51 - 「測定できるものが必ずしも測定に 値するものだとは限らない」 - 出典:ジェリー‧Z‧ミュラー『測りす ぎ ――

    なぜパフォーマンス評価は失敗するのか?』 - しかしトークンを何も測らず居られた時代 のナレッジから次に進まなくてはいけない - 「未来のLLMが解決してくれる」のを期待 しつつ、まずは計測することが⼤切