Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Prompt Cachingは本当に効果的なのか検証し てみた 2024.09.05
Slide 2
Slide 2 text
自己紹介 WEB系エンジニア - Go言語 - Google Cloud X: @egtayu
Slide 3
Slide 3 text
目次 - Prompt Cacingとは? - 基本的な使い方 - 料金 - 仕様 - 検証してみた - まとめ
Slide 4
Slide 4 text
Prompt Cachingとは? 2024.8.15 Anthropic APIに「Prompt Caching」機能が追加 コンテキストをキャッシュできるようになった コストを最大90%、応答遅延を最大85%削減(※ドキュメントより)
Slide 5
Slide 5 text
サポートモデル ※パブリックベータ版 Claude 3.5 Sonnet Claude 3 Haiku Claude 3 Opus
Slide 6
Slide 6 text
基本的な使い方 cache_controlブロックを追加する。 パラメータ先頭からcache_controlブロックまで キャッシュされる。 👆 キャッシュから読み込むとコストと応答 速度が改善される!
Slide 7
Slide 7 text
料金 キャッシュ書き込み:入力トークンの 125% キャッシュ読み込み: 入力トークンの10% 出力トークンは通常通り 👉 入力トークンに対するコストが改善される
Slide 8
Slide 8 text
仕様 - 最小トークン数 - キャッシュできるパラメータ - ブレークポイント - キャッシュの有効期限
Slide 9
Slide 9 text
仕様 最小トークン数 最小トークン数を超えないとキャッシュさ れません。
Slide 10
Slide 10 text
仕様 キャッシュできるパラメータ tools system messages 上記順番でキャッシュを参照
Slide 11
Slide 11 text
仕様 ブレークポイント cache_controlブロックは4つまで 4つを超えるとエラーになります🤦
Slide 12
Slide 12 text
仕様 キャッシュの有効期限 現在はephemeralパラメータのみがサポートされており、キャッシュの有効期限 は5分です。 キャッシュにアクセスが無いまま5分経過した場合に削除されます。 ※キャッシュにアクセスがあった場合、期限は更新されます。 将来的には、長時間の有効期限に対応する可能性があるかもしれません。
Slide 13
Slide 13 text
検証してみた - 応答遅延削減の検証 キャッシュの有無による応答速度を比較 - コスト削減効果の検証 キャッシュの有無によるトークンのコスト削減効果を検証
Slide 14
Slide 14 text
キャッシュの有無による応答速度を比較 - 使用するモデルは Claude 3 Haiku - システムプロンプトに187,336トークンの小説を入力し、小説のタイトルを答 えさせる ※Context windowの最大値は200,000トークン 応答遅延削減の検証
Slide 15
Slide 15 text
応答遅延削減の検証
Slide 16
Slide 16 text
応答遅延削減の検証
Slide 17
Slide 17 text
応答遅延削減の検証 応答速度の有意差は確認できず、、、🤦 - Claude 3 Haikuは応答速度がmodelの中で一番速いため、キャッシュによる 差が顕著に現れなかった可能性 - 質問内容が本文全体を参照するようなケースでは、結果が異なった可能性
Slide 18
Slide 18 text
コスト削減効果の検証 キャッシュの有無によるトークンのコスト削減効果を検証 - 使用するモデルは Claude 3 Haiku - 5000トークンのシステムプロンプトを伴うマルチターンの会話で、トークン数を 追跡 - トークン数を料金比に直して、キャッシュの有無で何%コストを削減できるか検 証
Slide 19
Slide 19 text
コスト削減効果の検証
Slide 20
Slide 20 text
コスト削減効果の検証 キャッシュありの結果を料金表に基づき、入力トークンを基準にキャッシュ書き込みを1.25倍、 キャッシュ読み込みを0.1倍としてトークン数を料金比で計算
Slide 21
Slide 21 text
コスト削減効果の検証 入力トークンのコストを基準にしたトークン数で比較してコスト削減率を算出
Slide 22
Slide 22 text
コスト削減効果の検証
Slide 23
Slide 23 text
コスト削減効果の検証 1ターン目にはコストが増加するが、2ターン目以降はコスト削減が見られ、10ター ン目には77%のコストが削減された。 ターンが進むにつれてコスト削減効果は向上し、最終的には90%近いコスト削減に 達することが予測できる。
Slide 24
Slide 24 text
まとめ 応答遅延の削減 Claude 3 Haikuにおいて、応答速度の向上に関して有意な差は確認でき なかった コスト削減 入力トークンに対して、大幅なコスト削減効果が確認できた
Slide 25
Slide 25 text
まとめ 以下のようなケースでPrompt Cacingの効果を実感できることが期待でき ます。 1. 長文コンテンツの参照:ドキュメント、書籍や論文の内容をプロンプト に埋め込んでの参照 2. 会話エージェント: 詳細な指示セット、長時間の会話やツール使用で の反復的なAPI呼び出しによるトークンコストを削減 3. コーディングアシスタント: 長いコードスニペットでのQ&A …etc
Slide 26
Slide 26 text
最後に 本スライドの内容をより詳しく記事にまとめました。 他のモデルでの検証なども更新予定です。 https://zenn.dev/eventhorizon/articles/2b37b48365a08f
Slide 27
Slide 27 text
参考 https://www.anthropic.com/news/prompt-caching https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching https://github.com/anthropics/anthropic-cookbook/blob/main/misc/prompt_caching. ipynb