Slide 1

Slide 1 text

Bedrockのモデル評価 人間による評価の可能性を探ってみる 戸塚 翔太

Slide 2

Slide 2 text

自己紹介 - 戸塚翔太(Blueish) - Go, Rust, Python - 生成AI, 機械学習 - 松尾研GENIAC開発メンバーとして参加 - 静岡県(浜松)に住んでます - 近くの方がいれば、一緒に勉強会しましょう - X: @totsumaru_dot

Slide 3

Slide 3 text

会社紹介 - 株式会社ブルーイッシュ - Go, Rust, 生成AIエンジニア等募集中 - 興味があれば覗いていただけると嬉しいです - https://www.blueish.co.jp

Slide 4

Slide 4 text

Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ

Slide 5

Slide 5 text

今日伝えたいこと 1. Bedrockのモデル評価は、実務ではまだ使いにくい(個人的に) a. 評価できるモデルや機能が少ない 2. Bedrockで人間による評価のやり方 a. まだ実務では使っていないが、機能を知っておいて損はない b. LLMによる自動評価が注目されるが、人間による評価も共存させる

Slide 6

Slide 6 text

Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ

Slide 7

Slide 7 text

概要 - 評価手法 - 自動(LLMによる自動評価) - 人間(自分の作業チームを作成) - 人間(AWSマネージドチームによる評価) - モデル評価ジョブ - 一般テキスト生成(正解率, 堅牢性, 有害性) - テキスト要約(正解率, 堅牢性, 有害性) - 質問と回答(正解率, 堅牢性, 有害性) - テキスト分類(正解率, 堅牢性) - データセット - AWSのデフォルトデータセット(BOLD, TREX…) - 独自のプロンプトデータセット(S3に用意) - その他 - 推論はBedrockで実行される(課金対象) 1. Bedrockのモデル評価

Slide 8

Slide 8 text

“現時点で” ここが辛い - 評価できるモデルが限られている - Claude 3, 3.5 は評価できない(2024.6.22時点)? - プロンプトの評価機能が整っていない - 独自データセットを使えばできるが、バージョン管理など自分でやる必要がある - オフライン評価特化 - オンライン評価も独自データセットでできるが、手間がかかる → 実務ではAzureや他ツールを使い、まだBedrockは導入していない 1. Bedrockのモデル評価

Slide 9

Slide 9 text

Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ

Slide 10

Slide 10 text

人間による評価を上手に使う - 前提: Bedrockの辛いところは変わらない - プロダクトに応じて、日本語の言い回しなど柔軟に評価 - Biz側(非エンジニア)も評価に参加 - LLMによる自動評価は継続しつつ、ポイントで人間による評価を取り入れる - 自動評価で最低限の品質を保ち、手動評価でビジネス要件とのズレを確認・修正 2. 人間による評価

Slide 11

Slide 11 text

評価の方法① ジョブの開始 1. 対象のモデルを選択(2つまで同時に選択できる) 2. タスクタイプを選択(一般テキスト生成、要約...etc) 3. 評価メトリクスを選択、指定(この数だけ手動評価する) 4. データセットの場所を指定(事前にS3にjsonlを保存) a. prompt: required b. referenceResponse, category: optional 5. ロールの作成/選択 6. 作業チームの設定(メンバーのメールアドレスを設定) 7. 作業チームに依頼する文面作成 8. 実行 → 新規メンバーにはメールが送られる 2. 人間による評価 ロールはエラーの原因に なりやすいので、一旦は ここで作ることをお勧め します。

Slide 12

Slide 12 text

評価の方法② 評価の実行 2. 人間による評価 1. (ワーカー届いたメールのURLにサインイン) 2. プロンプトと出力をみて、1つずつ手動評価 3. Submitで評価完了 プロンプトと各モデルの出力結果 評価項目(ここで評価をつける) 結果 ※ステータスについて 「進行中」でもワーカーページにジョブがあれば評価で きます。全員が完了したら「完了済み」に変わります。 → 自分は推論が終わっていないと勘違いし「進行中」 でずっと待機していました。。

Slide 13

Slide 13 text

Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ

Slide 14

Slide 14 text

まとめ - 現状では実務で満足に使えないところも多いが、今後検討はしていきたい - 自動評価だけでなく、積極的に人間による評価も取り入れる - (サービスの規模やフェーズにもよる) - Claude 3.5 Sonnet / Claude 3 Opus をBedrockで評価、比較したい!

Slide 15

Slide 15 text

No content