Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon Bedrockで行うモデル評価入門 / Introduction to Mo...

Amazon Bedrockで行うモデル評価入門 / Introduction to Model Evaluation in Amazon Bedrock

Bedrock Claude Night 2(JAWS-UG AI/ML支部 × 東京支部コラボ)のLT資料です。
https://jawsug-ai.connpass.com/event/319748/

r-kagaya

June 18, 2024
Tweet

More Decks by r-kagaya

Other Decks in Programming

Transcript

  1. 2 • r-kagaya(@ry0_kaga) • 株式会社ログラス • 生成AI/LLMアプリケーションエンジニア • 最近の趣味・興味 ◦

    ダーツ(SaaSカップとか開催したい) ◦ AIエージェント(特に音声絡む) 2022年に株式会社ログラスに入社 マスタ管理機能等の開発、開発生産性向上に取り組んだ のち、生成AI/LLMチームを立ち上げ 自己紹介
  2. 6 ©2024 Loglass Inc. おことわり / 前提 • LLMアプリケーションを開発するソフトウェアエンジニアとしての視点の話 


    • Claude, Amazon Bedrockに乗り換え予定だが、諸事情でまだ乗り換えてはいないので、本番 運用は行っていない
 • Amazon Bedrockのモデル評価機能についての簡単な紹介です 

  3. 8 ©2024 Loglass Inc. 品質保証‧評価の難しさ 常に同じ予測可能な結果が得られるとは限らない 出力を変化させうる変数が多い。Agenticなフローを組んだらさらに大変 確率的 パラメーター次第でも変動 評価指標の定義が

    ケースバイケース 一つの正解がない可能性。複数のパターン・要素・観点がある 完全一致の検証が必ずしもできるわけではない 「唯一絶対の正解」が ないことも 等式アサーション の限界(UT) 一般的な項目はあれど、より具体はアプリケーション・ユースケース・プロンプ トによって千差万別
  4. 9 ©2024 Loglass Inc. 品質保証‧評価の難しさ ~評価指標の定義がケースバイケース~ • 一般的な項目はあれど、より具体はユースケース・アプリケーションによって千差万別 • ドメイン・ユースケース毎に評価基準とデータセットがあることが評価の上で肝要

    有⽤性(helpfulness) どれだけ有用な回答をしたか (= 課題を解決できたか) 事実性(factuality) 正しい回答ができるか (事実でない内容を回答しないか) 有害性(harmlessness) 望ましくない回答をする
  5. 10 ©2024 Loglass Inc. オフライン評価とオンライン評価 • オフライン評価だけでは限界がある ◦ 究極ユーザーが見た出力が全て。網羅性は大事だが事前に全て想定しきれない •

    オンライン評価・代替指標を組み合わせる • 代替指標 ◦ 回答精度を直接評価しない。影響を与えると考えられるビジネス指標・ KPIを参照 • e.g.) Github Copillot i. Acceptance Rate (生成したコードの受け入れ率) ii. Retension Rate (生成したコードをどの程度で編集するか ) オフライン評価 事前にデータセットを用いて出力を評価 オンライン評価 ユーザーの実利用を元にしたFBや分析
  6. 11 ©2024 Loglass Inc. LLM出⼒の定性評価 • 定量的指標に基づく評価は重要 
 • 一方で、文章が自然な印象を人間に与えるかどうか等の評価は自動化しにくく、人間の主観的な

    判断が求められる場面も
 • 例えばtoB SaaSの場合、ドメイン知識がないといまいち判断つかないケースもそれなりにある 

  7. 12 ©2024 Loglass Inc. LLM出⼒の定性評価 • 定量的指標に基づく評価は重要 
 • 一方で、文章が自然な印象を人間に与えるかどうか等の評価は自動化しにくく、人間の主観的な

    判断が求められる場面も
 • 例えばtoB SaaSの場合、ドメイン知識がないといまいち判断つかないケースもそれなりにある 
 
 一方で全て人間を介在させるのは スケーラビリティやリソースの都合もあり 現実的ではない?
  8. 13 ©2024 Loglass Inc. LLM as a Judge LLMがLLMの出力を評価する手法 ->

    LLM as a Judge • 特定のドメイン・ユースケースに特化すればするほど、ドメイン・ユースケース固有の表現やニュ アンスが増加するが、人間を全ての評価に介在させるのはコストがかかる • スコアベースやペアワイズ評価、複数 LLMを使ったりとやり方は色々 • (プールの監視員を監視する人を監視する世界 ...) 人間による評価のコ スト削減 評価の揺らぎ解消 人間の感覚や好み に近い評価
  9. 16 ©2024 Loglass Inc. モデル評価とは • 出力を評価することで、モデルがユースケース に適しているかを判断 • 事前定義されたメトリクス・データセットのほ

    か、独自プロンプト/データセットを利用した自 動評価も可能 • 人間による評価ワークフローも • 米国の一部リージョンではAWS マネージド チームによる評価も利用可能 出典:https://aws.amazon.com/jp/blogs/news/evaluate-compare-and-select-the-best-foundation-models-for-your-use-case-in-amazon-bedrock-preview/

  10. 19 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3.

    評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認 6.
  11. 20 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3.

    評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認 6.
  12. 21 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3.

    評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認 6.
  13. 22 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3.

    評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認 6.
  14. 23 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3.

    評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認 生成された 結果レポート
  15. 25 ©2024 Loglass Inc. 所感 • 現状は名前の通り、LLMモデルの性能評価・オフライン評価のためのもの ◦ e.g.) 特定のタスクにおいて、モデルが目標とする精度を満たしているかを確認

    ◦ e.g.) 特定のタスクにおいて、複数のモデルを比較 • オンライン評価全般は対象外。 LLM as a Judgeも他の仕組みの方が良さそう • ドメインエキスパートと共に主観的な評価を行いたい時の、ワークフロープラットフォームとしては 期待したい気持ち • 複数パターンのKnowledge Base / Agentと繋げた状態で評価ができると嬉しそう ◦ ナレッジベースA or B or Cの組み合わせでどれが一番良さそうか?を確認する
  16. 26 ©2024 Loglass Inc. まとめ • AWS利用企業として、AWS内ネットワークで完結するBedrockは魅力的 • モデル評価やガードレール機能も出てきて、プロダクション運用の基盤として整ってきていると感 じる

    • 一方、BedrockもこれだけでOK!というものではない。他サービス含めたアーキテクチャ等の Tipsがこれから充実・洗練されていくはずなので、自身も頑張りたい ◦ e.g) プロンプト管理やら自動チューニングからオンライン評価、 etc… • Bedrock情報を追い切れてるわけでも、使いこなせてるわけでもないので、良いやり方等があれ ばぜひ議論させてください...!
  17. 27 ©2024 Loglass Inc. • AI/LLMを活用した新規事業の研究開発 • AI/LLMによる社内業務の効率化 • 既存プロダクト「Loglassシリーズ」へのUI/UX

    のインストール ◦ 「AI分析アシスタントβ版」などAIを活用し た機能開発 生成AI/LLMアプリケーションエンジニア ⽣成AI/LLMアプリケーションエンジニアも募集開始しました
  18. 29