Slide 1

Slide 1 text

1 ©2024 Loglass Inc. Amazon Bedrockで行うモデル評価入門 2024.6.18 r.kagaya Bedrock Claude Night 2(JAWS-UG AI/ML支部 × 東京支部コラボ)

Slide 2

Slide 2 text

2 ● r-kagaya(@ry0_kaga) ● 株式会社ログラス ● 生成AI/LLMアプリケーションエンジニア ● 最近の趣味・興味 ○ ダーツ(SaaSカップとか開催したい) ○ AIエージェント(特に音声絡む) 2022年に株式会社ログラスに入社 マスタ管理機能等の開発、開発生産性向上に取り組んだ のち、生成AI/LLMチームを立ち上げ 自己紹介

Slide 3

Slide 3 text

3 ©2024 Loglass Inc. ログラスについて( 5秒) 企業価値を向上する 
 経営管理クラウド 


Slide 4

Slide 4 text

4 ©2024 Loglass Inc. 4 次世代型 経営管理クラウド

Slide 5

Slide 5 text

5 ©2024 Loglass Inc. 経営企画は「企業価値の向上」をミッションに、企業経営にまつわるあらゆる業務を担っている

Slide 6

Slide 6 text

6 ©2024 Loglass Inc. おことわり / 前提 ● LLMアプリケーションを開発するソフトウェアエンジニアとしての視点の話 
 ● Claude, Amazon Bedrockに乗り換え予定だが、諸事情でまだ乗り換えてはいないので、本番 運用は行っていない
 ● Amazon Bedrockのモデル評価機能についての簡単な紹介です 


Slide 7

Slide 7 text

7 ©2024 Loglass Inc. 評価

Slide 8

Slide 8 text

8 ©2024 Loglass Inc. 品質保証‧評価の難しさ 常に同じ予測可能な結果が得られるとは限らない 出力を変化させうる変数が多い。Agenticなフローを組んだらさらに大変 確率的 パラメーター次第でも変動 評価指標の定義が ケースバイケース 一つの正解がない可能性。複数のパターン・要素・観点がある 完全一致の検証が必ずしもできるわけではない 「唯一絶対の正解」が ないことも 等式アサーション の限界(UT) 一般的な項目はあれど、より具体はアプリケーション・ユースケース・プロンプ トによって千差万別

Slide 9

Slide 9 text

9 ©2024 Loglass Inc. 品質保証‧評価の難しさ ~評価指標の定義がケースバイケース~ ● 一般的な項目はあれど、より具体はユースケース・アプリケーションによって千差万別 ● ドメイン・ユースケース毎に評価基準とデータセットがあることが評価の上で肝要 有⽤性(helpfulness) どれだけ有用な回答をしたか (= 課題を解決できたか) 事実性(factuality) 正しい回答ができるか (事実でない内容を回答しないか) 有害性(harmlessness) 望ましくない回答をする

Slide 10

Slide 10 text

10 ©2024 Loglass Inc. オフライン評価とオンライン評価 ● オフライン評価だけでは限界がある ○ 究極ユーザーが見た出力が全て。網羅性は大事だが事前に全て想定しきれない ● オンライン評価・代替指標を組み合わせる ● 代替指標 ○ 回答精度を直接評価しない。影響を与えると考えられるビジネス指標・ KPIを参照 ● e.g.) Github Copillot i. Acceptance Rate (生成したコードの受け入れ率) ii. Retension Rate (生成したコードをどの程度で編集するか ) オフライン評価 事前にデータセットを用いて出力を評価 オンライン評価 ユーザーの実利用を元にしたFBや分析

Slide 11

Slide 11 text

11 ©2024 Loglass Inc. LLM出⼒の定性評価 ● 定量的指標に基づく評価は重要 
 ● 一方で、文章が自然な印象を人間に与えるかどうか等の評価は自動化しにくく、人間の主観的な 判断が求められる場面も
 ● 例えばtoB SaaSの場合、ドメイン知識がないといまいち判断つかないケースもそれなりにある 


Slide 12

Slide 12 text

12 ©2024 Loglass Inc. LLM出⼒の定性評価 ● 定量的指標に基づく評価は重要 
 ● 一方で、文章が自然な印象を人間に与えるかどうか等の評価は自動化しにくく、人間の主観的な 判断が求められる場面も
 ● 例えばtoB SaaSの場合、ドメイン知識がないといまいち判断つかないケースもそれなりにある 
 
 一方で全て人間を介在させるのは スケーラビリティやリソースの都合もあり 現実的ではない?

Slide 13

Slide 13 text

13 ©2024 Loglass Inc. LLM as a Judge LLMがLLMの出力を評価する手法 -> LLM as a Judge ● 特定のドメイン・ユースケースに特化すればするほど、ドメイン・ユースケース固有の表現やニュ アンスが増加するが、人間を全ての評価に介在させるのはコストがかかる ● スコアベースやペアワイズ評価、複数 LLMを使ったりとやり方は色々 ● (プールの監視員を監視する人を監視する世界 ...) 人間による評価のコ スト削減 評価の揺らぎ解消 人間の感覚や好み に近い評価

Slide 14

Slide 14 text

14 ©2024 Loglass Inc. Amazon Bedrockのモデル評価

Slide 15

Slide 15 text

15 ©2024 Loglass Inc. モデル評価がGA! 出典:アマゾン ウェブ サービス ジャパン


Slide 16

Slide 16 text

16 ©2024 Loglass Inc. モデル評価とは ● 出力を評価することで、モデルがユースケース に適しているかを判断 ● 事前定義されたメトリクス・データセットのほ か、独自プロンプト/データセットを利用した自 動評価も可能 ● 人間による評価ワークフローも ● 米国の一部リージョンではAWS マネージド チームによる評価も利用可能 出典:https://aws.amazon.com/jp/blogs/news/evaluate-compare-and-select-the-best-foundation-models-for-your-use-case-in-amazon-bedrock-preview/


Slide 17

Slide 17 text

17 ©2024 Loglass Inc. ⼈間によるモデル評価 ● 推論〜作業者への評価依頼〜分析、レポート作 成まで行える ● 2つまでのモデルの出力を人間が評価する仕組 みを作れる

Slide 18

Slide 18 text

18 ©2024 Loglass Inc. ⼈間によるモデル評価 ● 事前定義された物に加えて、独自の メトリクス・観点を定義可能 ● 上記観点に基づいた複数モデルの出 力比較のワークフローが組める (例)独自の観点を追加可能

Slide 19

Slide 19 text

19 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3. 評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認 6.

Slide 20

Slide 20 text

20 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3. 評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認 6.

Slide 21

Slide 21 text

21 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3. 評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認 6.

Slide 22

Slide 22 text

22 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3. 評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認 6.

Slide 23

Slide 23 text

23 ©2024 Loglass Inc. ⾃動評価の実施ステップ 1. 対象のモデル・タスクタイプを指定 2. 推論パラメーターを指定 3. 評価メトリクス・データセットを指定 4. 評価結果を格納するS3ロケーション・IAM ロールを指定 5. 実行・結果確認 生成された 結果レポート

Slide 24

Slide 24 text

24 ©2024 Loglass Inc. 独⾃データセットを⽤いる場合の例 出典:https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/model-evaluation-prompt-datasets-custom.html


Slide 25

Slide 25 text

25 ©2024 Loglass Inc. 所感 ● 現状は名前の通り、LLMモデルの性能評価・オフライン評価のためのもの ○ e.g.) 特定のタスクにおいて、モデルが目標とする精度を満たしているかを確認 ○ e.g.) 特定のタスクにおいて、複数のモデルを比較 ● オンライン評価全般は対象外。 LLM as a Judgeも他の仕組みの方が良さそう ● ドメインエキスパートと共に主観的な評価を行いたい時の、ワークフロープラットフォームとしては 期待したい気持ち ● 複数パターンのKnowledge Base / Agentと繋げた状態で評価ができると嬉しそう ○ ナレッジベースA or B or Cの組み合わせでどれが一番良さそうか?を確認する

Slide 26

Slide 26 text

26 ©2024 Loglass Inc. まとめ ● AWS利用企業として、AWS内ネットワークで完結するBedrockは魅力的 ● モデル評価やガードレール機能も出てきて、プロダクション運用の基盤として整ってきていると感 じる ● 一方、BedrockもこれだけでOK!というものではない。他サービス含めたアーキテクチャ等の Tipsがこれから充実・洗練されていくはずなので、自身も頑張りたい ○ e.g) プロンプト管理やら自動チューニングからオンライン評価、 etc… ● Bedrock情報を追い切れてるわけでも、使いこなせてるわけでもないので、良いやり方等があれ ばぜひ議論させてください...!

Slide 27

Slide 27 text

27 ©2024 Loglass Inc. ● AI/LLMを活用した新規事業の研究開発 ● AI/LLMによる社内業務の効率化 ● 既存プロダクト「Loglassシリーズ」へのUI/UX のインストール ○ 「AI分析アシスタントβ版」などAIを活用し た機能開発 生成AI/LLMアプリケーションエンジニア ⽣成AI/LLMアプリケーションエンジニアも募集開始しました

Slide 28

Slide 28 text

28 ©2024 Loglass Inc. 一緒にプロダクト開発の次元をあげていきたい、良い景気づくりにご興味のある方を絶賛 募集しています!! https://job.loglass.jp/ 少しでも気になる方 カジュアル面談Welcome です! 絶賛、エンジニア‧プロダクトマネージャー募集中

Slide 29

Slide 29 text

29