Amazon Bedrockで行うモデル評価入門 / Introduction to Model Evaluation in Amazon Bedrock

1 ©2024 Loglass Inc. Amazon Bedrockで行うモデル評価入門 2024.6.18 r.kagaya Bedrock Claude
Night 2（JAWS-UG AI/ML支部 × 東京支部コラボ）

2 • r-kagaya(@ry0_kaga) • 株式会社ログラス • 生成AI/LLMアプリケーションエンジニア • 最近の趣味・興味 ◦
ダーツ(SaaSカップとか開催したい) ◦ AIエージェント(特に音声絡む) 2022年に株式会社ログラスに入社マスタ管理機能等の開発、開発生産性向上に取り組んだのち、生成AI/LLMチームを立ち上げ自己紹介

6 ©2024 Loglass Inc. おことわり / 前提 • LLMアプリケーションを開発するソフトウェアエンジニアとしての視点の話  
• Claude, Amazon Bedrockに乗り換え予定だが、諸事情でまだ乗り換えてはいないので、本番運用は行っていない  • Amazon Bedrockのモデル評価機能についての簡単な紹介です  

8 ©2024 Loglass Inc. 品質保証‧評価の難しさ常に同じ予測可能な結果が得られるとは限らない出力を変化させうる変数が多い。Agenticなフローを組んだらさらに大変確率的パラメーター次第でも変動評価指標の定義が
ケースバイケース一つの正解がない可能性。複数のパターン・要素・観点がある完全一致の検証が必ずしもできるわけではない「唯一絶対の正解」がないことも等式アサーションの限界(UT) 一般的な項目はあれど、より具体はアプリケーション・ユースケース・プロンプトによって千差万別

9 ©2024 Loglass Inc. 品質保証‧評価の難しさ ~評価指標の定義がケースバイケース~ • 一般的な項目はあれど、より具体はユースケース・アプリケーションによって千差万別 • ドメイン・ユースケース毎に評価基準とデータセットがあることが評価の上で肝要
有⽤性（helpfulness）どれだけ有用な回答をしたか（= 課題を解決できたか）事実性（factuality）正しい回答ができるか (事実でない内容を回答しないか) 有害性（harmlessness）望ましくない回答をする

10 ©2024 Loglass Inc. オフライン評価とオンライン評価 • オフライン評価だけでは限界がある ◦ 究極ユーザーが見た出力が全て。網羅性は大事だが事前に全て想定しきれない •
オンライン評価・代替指標を組み合わせる • 代替指標 ◦ 回答精度を直接評価しない。影響を与えると考えられるビジネス指標・ KPIを参照 • e.g.) Github Copillot i. Acceptance Rate (生成したコードの受け入れ率) ii. Retension Rate (生成したコードをどの程度で編集するか ) オフライン評価事前にデータセットを用いて出力を評価オンライン評価ユーザーの実利用を元にしたFBや分析

11 ©2024 Loglass Inc. LLM出⼒の定性評価 • 定量的指標に基づく評価は重要   • 一方で、文章が自然な印象を人間に与えるかどうか等の評価は自動化しにくく、人間の主観的な
判断が求められる場面も  • 例えばtoB SaaSの場合、ドメイン知識がないといまいち判断つかないケースもそれなりにある  

12 ©2024 Loglass Inc. LLM出⼒の定性評価 • 定量的指標に基づく評価は重要   • 一方で、文章が自然な印象を人間に与えるかどうか等の評価は自動化しにくく、人間の主観的な
判断が求められる場面も  • 例えばtoB SaaSの場合、ドメイン知識がないといまいち判断つかないケースもそれなりにある     一方で全て人間を介在させるのはスケーラビリティやリソースの都合もあり現実的ではない？

13 ©2024 Loglass Inc. LLM as a Judge LLMがLLMの出力を評価する手法 ->
LLM as a Judge • 特定のドメイン・ユースケースに特化すればするほど、ドメイン・ユースケース固有の表現やニュアンスが増加するが、人間を全ての評価に介在させるのはコストがかかる • スコアベースやペアワイズ評価、複数 LLMを使ったりとやり方は色々 • （プールの監視員を監視する人を監視する世界 ...）人間による評価のコスト削減評価の揺らぎ解消人間の感覚や好みに近い評価

16 ©2024 Loglass Inc. モデル評価とは • 出力を評価することで、モデルがユースケースに適しているかを判断 • 事前定義されたメトリクス・データセットのほ
か、独自プロンプト/データセットを利用した自動評価も可能 • 人間による評価ワークフローも • 米国の一部リージョンではAWS マネージドチームによる評価も利用可能出典：https://aws.amazon.com/jp/blogs/news/evaluate-compare-and-select-the-best-foundation-models-for-your-use-case-in-amazon-bedrock-preview/ 

17 ©2024 Loglass Inc. ⼈間によるモデル評価 • 推論〜作業者への評価依頼〜分析、レポート作成まで行える • 2つまでのモデルの出力を人間が評価する仕組
みを作れる

18 ©2024 Loglass Inc. ⼈間によるモデル評価 • 事前定義された物に加えて、独自のメトリクス・観点を定義可能 • 上記観点に基づいた複数モデルの出
力比較のワークフローが組める（例）独自の観点を追加可能

19 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3.
評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認 6.

評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認生成された結果レポート

25 ©2024 Loglass Inc. 所感 • 現状は名前の通り、LLMモデルの性能評価・オフライン評価のためのもの ◦ e.g.) 特定のタスクにおいて、モデルが目標とする精度を満たしているかを確認
◦ e.g.) 特定のタスクにおいて、複数のモデルを比較 • オンライン評価全般は対象外。 LLM as a Judgeも他の仕組みの方が良さそう • ドメインエキスパートと共に主観的な評価を行いたい時の、ワークフロープラットフォームとしては期待したい気持ち • 複数パターンのKnowledge Base / Agentと繋げた状態で評価ができると嬉しそう ◦ ナレッジベースA or B or Cの組み合わせでどれが一番良さそうか？を確認する

26 ©2024 Loglass Inc. まとめ • AWS利用企業として、AWS内ネットワークで完結するBedrockは魅力的 • モデル評価やガードレール機能も出てきて、プロダクション運用の基盤として整ってきていると感じる
• 一方、BedrockもこれだけでOK！というものではない。他サービス含めたアーキテクチャ等の Tipsがこれから充実・洗練されていくはずなので、自身も頑張りたい ◦ e.g) プロンプト管理やら自動チューニングからオンライン評価、 etc… • Bedrock情報を追い切れてるわけでも、使いこなせてるわけでもないので、良いやり方等があればぜひ議論させてください...！

27 ©2024 Loglass Inc. • AI/LLMを活用した新規事業の研究開発 • AI/LLMによる社内業務の効率化 • 既存プロダクト「Loglassシリーズ」へのUI/UX
のインストール ◦ 「AI分析アシスタントβ版」などAIを活用した機能開発生成AI/LLMアプリケーションエンジニア⽣成AI/LLMアプリケーションエンジニアも募集開始しました

28 ©2024 Loglass Inc. 一緒にプロダクト開発の次元をあげていきたい、良い景気づくりにご興味のある方を絶賛募集しています！！ https://job.loglass.jp/ 少しでも気になる方カジュアル面談Welcome です！
絶賛、エンジニア‧プロダクトマネージャー募集中

Amazon Bedrockで行うモデル評価入門 / Introduction to Mo...

Amazon Bedrockで行うモデル評価入門 / Introduction to Model Evaluation in Amazon Bedrock

r-kagaya

More Decks by r-kagaya

Other Decks in Programming

Featured

Transcript

1 ©2024 Loglass Inc. Amazon Bedrockで行うモデル評価入門 2024.6.18 r.kagaya Bedrock Claude

2 • r-kagaya(@ry0_kaga) • 株式会社ログラス • 生成AI/LLMアプリケーションエンジニア • 最近の趣味・興味 ◦

3 ©2024 Loglass Inc. ログラスについて（ 5秒）企業価値を向上する   経営管理クラウド

4 ©2024 Loglass Inc. 4 次世代型経営管理クラウド

5 ©2024 Loglass Inc. 経営企画は「企業価値の向上」をミッションに、企業経営にまつわるあらゆる業務を担っている

6 ©2024 Loglass Inc. おことわり / 前提 • LLMアプリケーションを開発するソフトウェアエンジニアとしての視点の話

7 ©2024 Loglass Inc. 評価

8 ©2024 Loglass Inc. 品質保証‧評価の難しさ常に同じ予測可能な結果が得られるとは限らない出力を変化させうる変数が多い。Agenticなフローを組んだらさらに大変確率的パラメーター次第でも変動評価指標の定義が

10 ©2024 Loglass Inc. オフライン評価とオンライン評価 • オフライン評価だけでは限界がある ◦ 究極ユーザーが見た出力が全て。網羅性は大事だが事前に全て想定しきれない •

11 ©2024 Loglass Inc. LLM出⼒の定性評価 • 定量的指標に基づく評価は重要   • 一方で、文章が自然な印象を人間に与えるかどうか等の評価は自動化しにくく、人間の主観的な

12 ©2024 Loglass Inc. LLM出⼒の定性評価 • 定量的指標に基づく評価は重要   • 一方で、文章が自然な印象を人間に与えるかどうか等の評価は自動化しにくく、人間の主観的な

13 ©2024 Loglass Inc. LLM as a Judge LLMがLLMの出力を評価する手法 ->

14 ©2024 Loglass Inc. Amazon Bedrockのモデル評価

15 ©2024 Loglass Inc. モデル評価がGA！出典：アマゾンウェブサービスジャパン

16 ©2024 Loglass Inc. モデル評価とは • 出力を評価することで、モデルがユースケースに適しているかを判断 • 事前定義されたメトリクス・データセットのほ

17 ©2024 Loglass Inc. ⼈間によるモデル評価 • 推論〜作業者への評価依頼〜分析、レポート作成まで行える • 2つまでのモデルの出力を人間が評価する仕組

18 ©2024 Loglass Inc. ⼈間によるモデル評価 • 事前定義された物に加えて、独自のメトリクス・観点を定義可能 • 上記観点に基づいた複数モデルの出

19 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3.

20 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3.

21 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3.

22 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3.

23 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3.

24 ©2024 Loglass Inc. 独⾃データセットを⽤いる場合の例出典：https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/model-evaluation-prompt-datasets-custom.html

25 ©2024 Loglass Inc. 所感 • 現状は名前の通り、LLMモデルの性能評価・オフライン評価のためのもの ◦ e.g.) 特定のタスクにおいて、モデルが目標とする精度を満たしているかを確認

26 ©2024 Loglass Inc. まとめ • AWS利用企業として、AWS内ネットワークで完結するBedrockは魅力的 • モデル評価やガードレール機能も出てきて、プロダクション運用の基盤として整ってきていると感じる

27 ©2024 Loglass Inc. • AI/LLMを活用した新規事業の研究開発 • AI/LLMによる社内業務の効率化 • 既存プロダクト「Loglassシリーズ」へのUI/UX

28 ©2024 Loglass Inc. 一緒にプロダクト開発の次元をあげていきたい、良い景気づくりにご興味のある方を絶賛募集しています！！ https://job.loglass.jp/ 少しでも気になる方カジュアル面談Welcome です！

29