Slide 1

Slide 1 text

Prompt Cachingは本当に効果的なのか検証し てみた 2024.09.05

Slide 2

Slide 2 text

自己紹介 WEB系エンジニア - Go言語 - Google Cloud X: @egtayu

Slide 3

Slide 3 text

目次 - Prompt Cacingとは? - 基本的な使い方 - 料金 - 仕様 - 検証してみた - まとめ

Slide 4

Slide 4 text

Prompt Cachingとは? 2024.8.15 Anthropic APIに「Prompt Caching」機能が追加 コンテキストをキャッシュできるようになった コストを最大90%、応答遅延を最大85%削減(※ドキュメントより)

Slide 5

Slide 5 text

サポートモデル ※パブリックベータ版 Claude 3.5 Sonnet Claude 3 Haiku Claude 3 Opus

Slide 6

Slide 6 text

基本的な使い方 cache_controlブロックを追加する。 パラメータ先頭からcache_controlブロックまで キャッシュされる。 👆 キャッシュから読み込むとコストと応答 速度が改善される!

Slide 7

Slide 7 text

料金 キャッシュ書き込み:入力トークンの 125% キャッシュ読み込み: 入力トークンの10% 出力トークンは通常通り 👉 入力トークンに対するコストが改善される

Slide 8

Slide 8 text

仕様 - 最小トークン数 - キャッシュできるパラメータ - ブレークポイント - キャッシュの有効期限

Slide 9

Slide 9 text

仕様 最小トークン数 最小トークン数を超えないとキャッシュさ れません。

Slide 10

Slide 10 text

仕様 キャッシュできるパラメータ tools system messages 上記順番でキャッシュを参照

Slide 11

Slide 11 text

仕様 ブレークポイント cache_controlブロックは4つまで 4つを超えるとエラーになります🤦

Slide 12

Slide 12 text

仕様 キャッシュの有効期限 現在はephemeralパラメータのみがサポートされており、キャッシュの有効期限 は5分です。 キャッシュにアクセスが無いまま5分経過した場合に削除されます。 ※キャッシュにアクセスがあった場合、期限は更新されます。 将来的には、長時間の有効期限に対応する可能性があるかもしれません。

Slide 13

Slide 13 text

検証してみた - 応答遅延削減の検証 キャッシュの有無による応答速度を比較 - コスト削減効果の検証 キャッシュの有無によるトークンのコスト削減効果を検証

Slide 14

Slide 14 text

キャッシュの有無による応答速度を比較 - 使用するモデルは Claude 3 Haiku - システムプロンプトに187,336トークンの小説を入力し、小説のタイトルを答 えさせる ※Context windowの最大値は200,000トークン 応答遅延削減の検証

Slide 15

Slide 15 text

応答遅延削減の検証

Slide 16

Slide 16 text

応答遅延削減の検証

Slide 17

Slide 17 text

応答遅延削減の検証 応答速度の有意差は確認できず、、、🤦 - Claude 3 Haikuは応答速度がmodelの中で一番速いため、キャッシュによる 差が顕著に現れなかった可能性 - 質問内容が本文全体を参照するようなケースでは、結果が異なった可能性

Slide 18

Slide 18 text

コスト削減効果の検証 キャッシュの有無によるトークンのコスト削減効果を検証 - 使用するモデルは Claude 3 Haiku - 5000トークンのシステムプロンプトを伴うマルチターンの会話で、トークン数を 追跡 - トークン数を料金比に直して、キャッシュの有無で何%コストを削減できるか検 証

Slide 19

Slide 19 text

コスト削減効果の検証

Slide 20

Slide 20 text

コスト削減効果の検証 キャッシュありの結果を料金表に基づき、入力トークンを基準にキャッシュ書き込みを1.25倍、 キャッシュ読み込みを0.1倍としてトークン数を料金比で計算

Slide 21

Slide 21 text

コスト削減効果の検証 入力トークンのコストを基準にしたトークン数で比較してコスト削減率を算出

Slide 22

Slide 22 text

コスト削減効果の検証

Slide 23

Slide 23 text

コスト削減効果の検証 1ターン目にはコストが増加するが、2ターン目以降はコスト削減が見られ、10ター ン目には77%のコストが削減された。 ターンが進むにつれてコスト削減効果は向上し、最終的には90%近いコスト削減に 達することが予測できる。

Slide 24

Slide 24 text

まとめ 応答遅延の削減 Claude 3 Haikuにおいて、応答速度の向上に関して有意な差は確認でき なかった コスト削減 入力トークンに対して、大幅なコスト削減効果が確認できた

Slide 25

Slide 25 text

まとめ 以下のようなケースでPrompt Cacingの効果を実感できることが期待でき ます。 1. 長文コンテンツの参照:ドキュメント、書籍や論文の内容をプロンプト に埋め込んでの参照 2. 会話エージェント: 詳細な指示セット、長時間の会話やツール使用で の反復的なAPI呼び出しによるトークンコストを削減 3. コーディングアシスタント: 長いコードスニペットでのQ&A …etc

Slide 26

Slide 26 text

最後に 本スライドの内容をより詳しく記事にまとめました。 他のモデルでの検証なども更新予定です。 https://zenn.dev/eventhorizon/articles/2b37b48365a08f

Slide 27

Slide 27 text

参考 https://www.anthropic.com/news/prompt-caching https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching https://github.com/anthropics/anthropic-cookbook/blob/main/misc/prompt_caching. ipynb