Upgrade to Pro — share decks privately, control downloads, hide ads and more …

なぜトークンは足りなくなるのか? 〜LLMとうまく連携するためにエンジニア がやるべきデータ...

なぜトークンは足りなくなるのか? 〜LLMとうまく連携するためにエンジニア がやるべきデータ整備の話〜

技育CAMPアカデミア(2026/05/14(木) 18:00〜18:45) での発表資料です。

Avatar for Kashira

Kashira

May 20, 2026

More Decks by Kashira

Other Decks in Technology

Transcript

  1. 2 自己紹介 新田 大樹 (@kashira) ピクシブ株式会社 Platform Div, Data Unit

    テックリード X: @kashira202111 BigQuery を中心とした全社データインフラの開発・運用を統括。 現在は LLM を活用したデータ分析エージェントの開発をリードし、社内の データ民主化を推進しています。
  2. アジェンダ 1. 会社紹介 2. 企業のLLM活用の現状 3. 事例紹介 4. 技術的な深掘り a.

    LLM周りの基礎概念の紹介 b. Context Engineeringの実例 5. 新しいJobの誕生 6. まとめ・なぜトークンは足りなくなるのか? 3
  3. アジェンダ 1. 会社紹介 2. 企業のLLM活用の現状 3. 事例紹介 4. 技術的な深掘り a.

    LLM周りの基礎概念の紹介 b. Context Engineeringの実例 5. 新しいJobの誕生 6. まとめ・なぜトークンは足りなくなるのか? 4
  4. アジェンダ 1. 会社紹介 2. 企業のLLM活用の現状 3. 事例紹介 4. 技術的な深掘り a.

    LLM周りの基礎概念の紹介 b. Context Engineeringの実例 5. 新しいJobの誕生 6. まとめ・なぜトークンは足りなくなるのか? 6
  5. 12

  6. アジェンダ 1. 会社紹介 2. 企業のLLM活用の現状 3. 事例紹介 4. 技術的な深掘り a.

    LLM周りの基礎概念の紹介 b. Context Engineeringの実例 5. 新しいJobの誕生 6. まとめ・なぜトークンは足りなくなるのか? 17 あくまで一例なので、他にも活躍できる場所はいっぱいあるよ。 従来のエンジニアリングでも不要になるとは思わないけど、 今回は扱わない。
  7. 内製のデータエージェント、kaiについて 18 • ピクシブ株式会社、内製のデータエージェントです • 分析用のデータベース、BigQueryにSQLを自動で実行して、 インサイトを自動で引き出します ◦ 先週リリースした機能の利用度を教えて ◦

    登録者数の性別比は? • Before ◦ SQLをかける人だけが、数値を調べられた ◦ 大体数値を見るのに、エンジニアの手を借りつつ2-3日かかっていた • After ◦ 30分-1時間で気になる数値を誰でもサクッと調べられる
  8. 基本的な処理の流れ 24 List BigQuery Tables 2 Call Root Agent 1

    Get BigQuery Table Schema 3 Execute Query 4 Return to User 5
  9. アジェンダ 1. 会社紹介 2. 企業のLLM活用の現状 3. 事例紹介 4. 技術的な深掘り a.

    LLM周りの基礎概念の紹介 b. Context Engineeringの実例 5. 新しいJobの誕生 6. まとめ・なぜトークンは足りなくなるのか? 26
  10. アジェンダ 1. 会社紹介 2. 企業のLLM活用の現状 3. 事例紹介 4. 技術的な深掘り a.

    LLM周りの基礎概念の紹介 b. Context Engineeringの実例 5. 新しいJobの誕生 6. まとめ・なぜトークンは足りなくなるのか? 27
  11. 学習していないことは知らない PROMPT # 自社の売上データ(未学習データ) 昨日のA商品の売上は50万円、 B商品の売上は120万円でした。 # 質問 合計売上と、どちらが売れたか教え て。

    LLM ANSWER 承知いたしました。 合計売上は170万円です。 B商品(120万円)の方がA商 品(50万円)よりも売れてい ます。 データがPublicでなくても Context として与えれば推論可能です。
  12. Agentとは 32 # Agentの超ざっくりコード is_running = True history = []

    # Contextを積み上げるための履歴 while is_running: # 1. 環境や過去の履歴から情報を取得 (RAGやMemory) context = get_context_and_data(history) # 2. Contextに基づき、次に取るべき行動を決定 (LLM Call) action = llm.decide_next_step(context) # 3. 行動: 決定された行動 (Tool) を実行 tool_output = execute_action(action) # 4. 履歴を更新し、次のループへ history.append(tool_output) # 終了条件の確認 if action == "RETURN_FINAL_ANSWER" or max_iterations_reached(): is_running = False
  13. Prompt Engineering vs Context Engineering 33 Promptは1回限りのクエリ の最適化に焦点 Contextは繰り返しの中 で、どのデータを入力する

    かに焦点 引用: Anthropic, Effective context engineering for AI agents, https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
  14. Contextは入れすぎると精度が悪くなる (Context Rot) 35 引用: Chroma, Context Rot: How Increasing

    Input Tokens Impacts LLM Performance, https://www.trych roma.com/research/ context-rot
  15. アジェンダ 1. 会社紹介 2. 企業のLLM活用の現状 3. 事例紹介 4. 技術的な深掘り a.

    LLM周りの基礎概念の紹介 b. Context Engineeringの実例 i. Case1: 精度の壁 ii. Case2: データ整備の壁 5. 新しいJobの誕生 6. まとめ・なぜトークンは足りなくなるのか? 39
  16. アジェンダ 1. 会社紹介 2. 企業のLLM活用の現状 3. 事例紹介 4. 技術的な深掘り a.

    LLM周りの基礎概念の紹介 b. Context Engineeringの実例 i. Case1: 精度の壁 ii. Case2: データ整備の壁 5. 新しいJobの誕生 6. まとめ・なぜトークンは足りなくなるのか? 41
  17. 問題点に気づきましたか? 45 Call SubAgent 2 Call Root Agent 1 List

    Explore 3 Get Explore 4 Transform Json 5 Return to Root Agent 6 Get BigQuery Table Schema 7 Execute Query 8 Return to User 9
  18. リアーキテクチャ 47 List BigQuery Tables 2 Call Root Agent 1

    Get BigQuery Table Schema 3 Execute Query 4 Return to User 5 テーブル検索ロジックをダッシュボード検索 -> 整備済みテーブル一覧のみを返すロジックに変更 精度の向上 + 消費トークン削減 + コードが簡単になる の3重で嬉しい
  19. Schemaからクエリ構築に必要なContext を動的にロードする 48 List BigQuery Tables 2 Call Root Agent

    1 Get BigQuery Table Schema 3 Execute Query 4 Return to User 5 動的がポイントで、全てinstructionに入れると逆にコンテキスト汚染が起こり、精度が悪化する。 テーブルを使う時に、そのテーブルのコンテキストだけ注入するイメージ
  20. メタデータ整備 49 - name: work_type description: | Definition: 作品の種類区分。 Example

    Data: - "illustration": イラスト - "manga": マンガ - "ugoira": うごイラ - "novel": 小説 Transformation Rule: ソースの作品種別コードを標準名称に変換 tests: - not_null - accepted_values: values: ['illustration', 'manga', 'ugoira', 'novel'] テーブルスキーマを見れば クエリが書けるようにする • Filteringの値の候補 • 日本語とのマッピング • NULL定義
  21. アジェンダ 1. 会社紹介 2. 企業のLLM活用の現状 3. 事例紹介 4. 技術的な深掘り a.

    LLM周りの基礎概念の紹介 b. Context Engineeringの実例 i. Case1: 精度の壁 ii. Case2: データ整備の壁 5. 新しいJobの誕生 6. まとめ・なぜトークンは足りなくなるのか? 53
  22. Team Contextありのフロー 59 Ingest Team Context 2 Call Root Agent

    1 Get BigQuery Table Schema 3 Execute Query 4 Return to User 5 呼び出し後にTeam Contextが注入されることで、Listテーブルの処理をスキップ List BigQuery Tables 2 SKIP
  23. 他にContext Engineeringで扱う概念 • MCP vs Tool • Memory • Cache

    • Skills • Event Compaction • RAG (Vector, Graph) vs Documents • Sub Agent 61 ただ単に使うのと、 裏側の仕組みを理解して使うのには天と地の差がある。
  24. アジェンダ 1. 会社紹介 2. 企業のLLM活用の現状 3. 事例紹介 4. 技術的な深掘り a.

    LLM周りの基礎概念の紹介 b. Context Engineeringの実例 5. 新しいJobの誕生 6. まとめ・なぜトークンは足りなくなるのか? 62
  25. アジェンダ 1. 会社紹介 2. 企業のLLM活用の現状 3. 事例紹介 4. 技術的な深掘り a.

    LLM周りの基礎概念の紹介 b. Context Engineeringの実例 5. 新しいJobの誕生 6. まとめ・なぜトークンは足りなくなるのか? 64
  26. なぜトークンは足りなくなるのか? 65 コンテキストの運用を真面目に取り組んでいないことが多い • 同じセッションを使い回していませんか? ◦ コンテキストの汚染が発生しているので、より無駄なトークンを消費します • 読み込むデータが綺麗ですか?linkだらけになってませんか? •

    MCPを大量につないで、LLMを混乱させていませんか? データが分散していませんか? • Agents.md や Claude.md が細かすぎませんか?逆に荒すぎませんか? • モデル選択を適切に行っていますか?Sub Agentでコンテキスト区切ってますか? 色々工夫をした上で、トークンが足りないのであれば、 あとはROIの問題なので課金するしかない