【re:Invent 2024 アプデ】 Prompt Routing の紹介

by Champ

Slide 1

Slide 1 text

Slide 2

Slide 2 text

自己紹介

Slide 3

Slide 3 text

1. （Intelligent）Prompt Routing とは新機能の概要 re:invent 2024 で発表された新機能（プレビュー）プロンプトの複雑さを自動判定し、最適なモデルへ自動振り分け 2024/12/17 時点では以下のルーティングが可能 Claude Sonnet 3.5 と Claude 3 Haiku Llama 3.1 70B と Llama 3.1 8B なにが嬉しいのか？プロンプトを適切なモデルにルーティングすることでコストを下げることが可能

Slide 4

Slide 4 text

2. 仕組み処理の流れ Prompt Routing は以下の流れで処理が行われますプロンプト受信パフォーマンスの計算ルーティングの実施実行とフォールバックそれぞれについて解説していきます

Slide 5

Slide 5 text

2. 仕組みプロンプト受信 Prompt Routing がプロンプトを受け取るプロンプトの特徴を分析（長さ、複雑さ、要求タスクなど）

Slide 6

Slide 6 text

2. 仕組みパフォーマンスの計算設定された各モデル（例：Sonnet と Haiku）でのパフォーマンスを計算推論は実行せず、パフォーマンスの計算のみを実施モデル間の品質差（quality_difference）を算出

Slide 7

Slide 7 text

2. 仕組みルーティングの実施 quality_difference と閾値（responseQualityDifference）を比較 quality_difference が閾値未満の場合、軽量モデルを選択閾値以上の場合、高性能モデルを選択 2024/12/17 時点ではデフォルト値は 0.0 になっている？ので、差が少しでもあれば Sonnet を選択

Slide 8

Slide 8 text

2. 仕組みルーティングの実装続き簡略化したルーティングロジックのイメージ quality_difference = high_quality_model_score - lightweight_model_score responseQualityDifference = 0.1 # 閾値が 0.1 の場合 if quality_difference < responseQualityDifference: # 品質差が小さい場合（0.1未満） # → 軽量モデル（Haiku）を使用 # → "この程度の質問なら軽量モデルで十分"というケース use_lightweight_model() else: # 品質差が大きい場合（0.1以上） # → 高性能モデル（Sonnet）を使用 # → "この質問は高性能モデルを使う価値がある"というケース use_high_quality_model()

Slide 9

Slide 9 text

2. 仕組み実行とフォールバックルーティングで選択されたモデル（Sonnet or Haiku）で推論を行うルーティング失敗時やタイムアウト時は、フォールバックモデル（Sonnet）を使用して推論

Slide 10

Slide 10 text

3. 実際に試してみる 3 つのテストケースを用意: 1. シンプルな質問 2. 中程度の質問 3. 複雑な質問

Slide 11

Slide 11 text

テストケース 1: こんにちは「こんにちは」

Slide 12

Slide 12 text

テストケース 1: こんにちは「こんにちは」 → Sonnet が選択される

Slide 13

Slide 13 text

テストケース 2: EC2 について質問「AWS の EC2 とは何ですか？一行で説明してください」

Slide 14

Slide 14 text

テストケース 2: EC2 について質問「AWS の EC2 とは何ですか？一行で説明してください」 → Sonnet が選択される

Slide 15

Slide 15 text

テストケース 3: 英語で質問 What is your name?

Slide 16

Slide 16 text

テストケース 3: 英語で質問 What is your name? → Haiku が選択される

Slide 17

Slide 17 text

テストケース 4: 英語で EC2 について質問 What is EC2?

Slide 18

Slide 18 text

テストケース 4: 英語で EC2 について質問 What is EC2? → Haiku が選択される

Slide 19

Slide 19 text

考察日本語で質問した場合、それだけでスコアが上がっている可能性があるそのため、閾値の調整が必要英語の質問は適切にルーティングされてそう

Slide 20

Slide 20 text

5. まとめ Prompt Routing のメリット 1. 簡単にプロンプトの内容に応じたモデルを動的に使用できる 2. 適切なモデルを選ぶことによってコストの削減・応答時間の改善が期待できる実装時の注意点日本語の場合は閾値の調整が必要プレビュー中なので閾値の調整はできない？

Slide 21

Slide 21 text

ご清聴ありがとうございました！