Prompt Cachingは本当に効果的なのか検証してみた.pdf

Slide 1

Slide 1 text

Prompt Cachingは本当に効果的なのか検証してみた 2024.09.05

Slide 2

Slide 2 text

自己紹介 WEB系エンジニア - Go言語 - Google Cloud X: @egtayu

Slide 3

Slide 3 text

目次 - Prompt Cacingとは？ - 基本的な使い方 - 料金 - 仕様 - 検証してみた - まとめ

Slide 4

Slide 4 text

Prompt Cachingとは？ 2024.8.15 Anthropic APIに「Prompt Caching」機能が追加コンテキストをキャッシュできるようになったコストを最大90%、応答遅延を最大85%削減（※ドキュメントより）

Slide 5

Slide 5 text

サポートモデル　※パブリックベータ版 Claude 3.5 Sonnet Claude 3 Haiku Claude 3 Opus

Slide 6

Slide 6 text

基本的な使い方 cache_controlブロックを追加する。パラメータ先頭からcache_controlブロックまでキャッシュされる。 👆 キャッシュから読み込むとコストと応答速度が改善される！

Slide 7

Slide 7 text

料金キャッシュ書き込み：入力トークンの 125% キャッシュ読み込み: 入力トークンの10% 出力トークンは通常通り 👉 入力トークンに対するコストが改善される

Slide 8

Slide 8 text

仕様 - 最小トークン数 - キャッシュできるパラメータ - ブレークポイント - キャッシュの有効期限

Slide 9

Slide 9 text

仕様最小トークン数最小トークン数を超えないとキャッシュされません。

Slide 10

Slide 10 text

仕様キャッシュできるパラメータ tools system messages 上記順番でキャッシュを参照

Slide 11

Slide 11 text

仕様ブレークポイント cache_controlブロックは４つまで４つを超えるとエラーになります🤦

Slide 12

Slide 12 text

仕様キャッシュの有効期限現在はephemeralパラメータのみがサポートされており、キャッシュの有効期限は5分です。キャッシュにアクセスが無いまま5分経過した場合に削除されます。 ※キャッシュにアクセスがあった場合、期限は更新されます。将来的には、長時間の有効期限に対応する可能性があるかもしれません。

Slide 13

Slide 13 text

検証してみた - 応答遅延削減の検証キャッシュの有無による応答速度を比較 - コスト削減効果の検証キャッシュの有無によるトークンのコスト削減効果を検証

Slide 14

Slide 14 text

キャッシュの有無による応答速度を比較 - 使用するモデルは Claude 3 Haiku - システムプロンプトに187,336トークンの小説を入力し、小説のタイトルを答えさせる ※Context windowの最大値は200,000トークン応答遅延削減の検証

Slide 15

Slide 15 text

応答遅延削減の検証

Slide 16

Slide 16 text

応答遅延削減の検証

Slide 17

Slide 17 text

応答遅延削減の検証応答速度の有意差は確認できず、、、🤦 - Claude 3 Haikuは応答速度がmodelの中で一番速いため、キャッシュによる差が顕著に現れなかった可能性 - 質問内容が本文全体を参照するようなケースでは、結果が異なった可能性

Slide 18

Slide 18 text

コスト削減効果の検証キャッシュの有無によるトークンのコスト削減効果を検証 - 使用するモデルは Claude 3 Haiku - 5000トークンのシステムプロンプトを伴うマルチターンの会話で、トークン数を追跡 - トークン数を料金比に直して、キャッシュの有無で何％コストを削減できるか検証

Slide 19

Slide 19 text

コスト削減効果の検証

Slide 20

Slide 20 text

コスト削減効果の検証キャッシュありの結果を料金表に基づき、入力トークンを基準にキャッシュ書き込みを1.25倍、キャッシュ読み込みを0.1倍としてトークン数を料金比で計算

Slide 21

Slide 21 text

コスト削減効果の検証入力トークンのコストを基準にしたトークン数で比較してコスト削減率を算出

Slide 22

Slide 22 text

コスト削減効果の検証

Slide 23

Slide 23 text

コスト削減効果の検証 1ターン目にはコストが増加するが、2ターン目以降はコスト削減が見られ、10ターン目には77%のコストが削減された。ターンが進むにつれてコスト削減効果は向上し、最終的には90%近いコスト削減に達することが予測できる。

Slide 24

Slide 24 text

まとめ応答遅延の削減 Claude 3 Haikuにおいて、応答速度の向上に関して有意な差は確認できなかったコスト削減入力トークンに対して、大幅なコスト削減効果が確認できた

Slide 25

Slide 25 text

まとめ以下のようなケースでPrompt Cacingの効果を実感できることが期待できます。 1. 長文コンテンツの参照:ドキュメント、書籍や論文の内容をプロンプトに埋め込んでの参照 2. 会話エージェント: 詳細な指示セット、長時間の会話やツール使用での反復的なAPI呼び出しによるトークンコストを削減 3. コーディングアシスタント: 長いコードスニペットでのQ&A …etc

Slide 26

Slide 26 text

最後に本スライドの内容をより詳しく記事にまとめました。他のモデルでの検証なども更新予定です。 https://zenn.dev/eventhorizon/articles/2b37b48365a08f

Slide 27

Slide 27 text

参考 https://www.anthropic.com/news/prompt-caching https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching https://github.com/anthropics/anthropic-cookbook/blob/main/misc/prompt_caching. ipynb