Slide 1

Slide 1 text

【re:Invent 2024 アプデ】 Prompt Routing の紹介

Slide 2

Slide 2 text

自己紹介

Slide 3

Slide 3 text

1. (Intelligent)Prompt Routing とは 新機能の概要 re:invent 2024 で発表された新機能(プレビュー) プロンプトの複雑さを自動判定し、最適なモデルへ自動 振り分け 2024/12/17 時点では以下のルーティングが可能 Claude Sonnet 3.5 と Claude 3 Haiku Llama 3.1 70B と Llama 3.1 8B なにが嬉しいのか? プロンプトを適切なモデルにルーティングすることでコ ストを下げることが可能

Slide 4

Slide 4 text

2. 仕組み 処理の流れ Prompt Routing は以下の流れで処理が行われます プロンプト受信 パフォーマンスの計算 ルーティングの実施 実行とフォールバック それぞれについて解説していきます

Slide 5

Slide 5 text

2. 仕組み プロンプト受信 Prompt Routing がプロンプトを受け取る プロンプトの特徴を分析(長さ、複雑さ、要求タスクなど)

Slide 6

Slide 6 text

2. 仕組み パフォーマンスの計算 設定された各モデル(例:Sonnet と Haiku)でのパフォーマンスを計算 推論は実行せず、パフォーマンスの計算のみを実施 モデル間の品質差(quality_difference)を算出

Slide 7

Slide 7 text

2. 仕組み ルーティングの実施 quality_difference と 閾値(responseQualityDifference) を比較 quality_difference が 閾値未満の場合、軽量モデルを選択 閾値以上の場合、高性能モデルを選択 2024/12/17 時点ではデフォルト値は 0.0 になっている? ので、差が少しでもあれば Sonnet を選択

Slide 8

Slide 8 text

2. 仕組み ルーティングの実装 続き 簡略化したルーティングロジックのイメージ quality_difference = high_quality_model_score - lightweight_model_score responseQualityDifference = 0.1 # 閾値が 0.1 の場合 if quality_difference < responseQualityDifference: # 品質差が小さい場合(0.1未満) # → 軽量モデル(Haiku)を使用 # → "この程度の質問なら軽量モデルで十分"というケース use_lightweight_model() else: # 品質差が大きい場合(0.1以上) # → 高性能モデル(Sonnet)を使用 # → "この質問は高性能モデルを使う価値がある"というケース use_high_quality_model()

Slide 9

Slide 9 text

2. 仕組み 実行とフォールバック ルーティングで選択されたモデル(Sonnet or Haiku)で推論を行う ルーティング失敗時やタイムアウト時は、フォールバックモデル(Sonnet)を使 用して推論

Slide 10

Slide 10 text

3. 実際に試してみる 3 つのテストケースを用意: 1. シンプルな質問 2. 中程度の質問 3. 複雑な質問

Slide 11

Slide 11 text

テストケース 1: こんにちは 「こんにちは」

Slide 12

Slide 12 text

テストケース 1: こんにちは 「こんにちは」 → Sonnet が選択される

Slide 13

Slide 13 text

テストケース 2: EC2 について質問 「AWS の EC2 とは何ですか?一行で説明してください」

Slide 14

Slide 14 text

テストケース 2: EC2 について質問 「AWS の EC2 とは何ですか?一行で説明してください」 → Sonnet が選択される

Slide 15

Slide 15 text

テストケース 3: 英語で質問 What is your name?

Slide 16

Slide 16 text

テストケース 3: 英語で質問 What is your name? → Haiku が選択される

Slide 17

Slide 17 text

テストケース 4: 英語で EC2 について質問 What is EC2?

Slide 18

Slide 18 text

テストケース 4: 英語で EC2 について質問 What is EC2? → Haiku が選択される

Slide 19

Slide 19 text

考察 日本語で質問した場合、それだけでスコアが上がっている可能性がある そのため、閾値の調整が必要 英語の質問は適切にルーティングされてそう

Slide 20

Slide 20 text

5. まとめ Prompt Routing のメリット 1. 簡単にプロンプトの内容に応じたモデルを動的に使用できる 2. 適切なモデルを選ぶことによってコストの削減・応答時間の改善が期待できる 実装時の注意点 日本語の場合は閾値の調整が必要 プレビュー中なので閾値の調整はできない?

Slide 21

Slide 21 text

ご清聴ありがとうございました!