Bedrockのモデル評価

Bedrockのモデル評価人間による評価の可能性を探ってみる戸塚翔太

自己紹介 - 戸塚翔太（Blueish） - Go, Rust, Python - 生成AI, 機械学習
- 松尾研GENIAC開発メンバーとして参加 - 静岡県（浜松）に住んでます - 近くの方がいれば、一緒に勉強会しましょう - X: @totsumaru_dot

会社紹介 - 株式会社ブルーイッシュ - Go, Rust, 生成AIエンジニア等募集中 - 興味があれば覗いていただけると嬉しいです -
https://www.blueish.co.jp

Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ

今日伝えたいこと 1. Bedrockのモデル評価は、実務ではまだ使いにくい（個人的に） a. 評価できるモデルや機能が少ない 2. Bedrockで人間による評価のやり方 a. まだ実務では使っていないが、機能を知っておいて損はない b.
LLMによる自動評価が注目されるが、人間による評価も共存させる

概要 - 評価手法 - 自動（LLMによる自動評価） - 人間（自分の作業チームを作成） - 人間（AWSマネージドチームによる評価） -
モデル評価ジョブ - 一般テキスト生成（正解率, 堅牢性, 有害性） - テキスト要約（正解率, 堅牢性, 有害性） - 質問と回答（正解率, 堅牢性, 有害性） - テキスト分類（正解率, 堅牢性） - データセット - AWSのデフォルトデータセット（BOLD, TREX…） - 独自のプロンプトデータセット（S3に用意） - その他 - 推論はBedrockで実行される（課金対象） 1. Bedrockのモデル評価

“現時点で” ここが辛い - 評価できるモデルが限られている - Claude 3, 3.5 は評価できない（2024.6.22時点）? -
プロンプトの評価機能が整っていない - 独自データセットを使えばできるが、バージョン管理など自分でやる必要がある - オフライン評価特化 - オンライン評価も独自データセットでできるが、手間がかかる → 実務ではAzureや他ツールを使い、まだBedrockは導入していない 1. Bedrockのモデル評価

人間による評価を上手に使う - 前提: Bedrockの辛いところは変わらない - プロダクトに応じて、日本語の言い回しなど柔軟に評価 - Biz側（非エンジニア）も評価に参加 - LLMによる自動評価は継続しつつ、ポイントで人間による評価を取り入れる
- 自動評価で最低限の品質を保ち、手動評価でビジネス要件とのズレを確認・修正 2. 人間による評価

評価の方法① ジョブの開始 1. 対象のモデルを選択（2つまで同時に選択できる） 2. タスクタイプを選択（一般テキスト生成、要約...etc） 3. 評価メトリクスを選択、指定（この数だけ手動評価する） 4. データセットの場所を指定（事前にS3にjsonlを保存）
a. prompt: required b. referenceResponse, category: optional 5. ロールの作成/選択 6. 作業チームの設定（メンバーのメールアドレスを設定） 7. 作業チームに依頼する文面作成 8. 実行 → 新規メンバーにはメールが送られる 2. 人間による評価ロールはエラーの原因になりやすいので、一旦はここで作ることをお勧めします。

評価の方法② 評価の実行 2. 人間による評価 1. (ワーカー届いたメールのURLにサインイン) 2. プロンプトと出力をみて、1つずつ手動評価 3. Submitで評価完了
プロンプトと各モデルの出力結果評価項目（ここで評価をつける）結果 ※ステータスについて「進行中」でもワーカーページにジョブがあれば評価できます。全員が完了したら「完了済み」に変わります。 → 自分は推論が終わっていないと勘違いし「進行中」でずっと待機していました。。

まとめ - 現状では実務で満足に使えないところも多いが、今後検討はしていきたい - 自動評価だけでなく、積極的に人間による評価も取り入れる - （サービスの規模やフェーズにもよる） - Claude 3.5
Sonnet / Claude 3 Opus をBedrockで評価、比較したい！

Bedrockのモデル評価

Bedrockのモデル評価

Shota Totsuka

More Decks by Shota Totsuka

Featured

Transcript