Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Bedrockのモデル評価
Search
Shota Totsuka
June 25, 2024
480
3
Share
Bedrockのモデル評価
Shota Totsuka
June 25, 2024
More Decks by Shota Totsuka
See All by Shota Totsuka
Figma to Codeから Code to Figmaへ
totsukash
0
1.6k
コードレビューはCLAUDE.md/skillsに書け。同じ指摘を繰り返すな。
totsukash
20
19k
HITL実装によるマルチエージェント組織の設計パターン
totsukash
1
100
Claude Codeの知らない知識に立ち向かう
totsukash
1
830
Claude Codeの知らない知識、ADK, A2Aを用いた プロダクト開発をClaude Codeで行う
totsukash
0
1.3k
Claude Code で Vibe Coding
totsukash
1
100
MCP, A2Aをプロダクトに組み込んで 開発している話
totsukash
1
56
Mastra活用|Text-to-SQLの実装と応用
totsukash
1
240
Bedrockでのプロンプト管理戦略
totsukash
3
220
Featured
See All Featured
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Statistics for Hackers
jakevdp
799
230k
Agile that works and the tools we love
rasmusluckow
331
21k
Speed Design
sergeychernyshev
33
1.7k
Deep Space Network (abreviated)
tonyrice
0
150
New Earth Scene 8
popppiees
3
2.2k
Designing Experiences People Love
moore
143
24k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
360
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.4k
sira's awesome portfolio website redesign presentation
elsirapls
0
250
Music & Morning Musume
bryan
47
7.2k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
160
Transcript
Bedrockのモデル評価 人間による評価の可能性を探ってみる 戸塚 翔太
自己紹介 - 戸塚翔太(Blueish) - Go, Rust, Python - 生成AI, 機械学習
- 松尾研GENIAC開発メンバーとして参加 - 静岡県(浜松)に住んでます - 近くの方がいれば、一緒に勉強会しましょう - X: @totsumaru_dot
会社紹介 - 株式会社ブルーイッシュ - Go, Rust, 生成AIエンジニア等募集中 - 興味があれば覗いていただけると嬉しいです -
https://www.blueish.co.jp
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
今日伝えたいこと 1. Bedrockのモデル評価は、実務ではまだ使いにくい(個人的に) a. 評価できるモデルや機能が少ない 2. Bedrockで人間による評価のやり方 a. まだ実務では使っていないが、機能を知っておいて損はない b.
LLMによる自動評価が注目されるが、人間による評価も共存させる
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
概要 - 評価手法 - 自動(LLMによる自動評価) - 人間(自分の作業チームを作成) - 人間(AWSマネージドチームによる評価) -
モデル評価ジョブ - 一般テキスト生成(正解率, 堅牢性, 有害性) - テキスト要約(正解率, 堅牢性, 有害性) - 質問と回答(正解率, 堅牢性, 有害性) - テキスト分類(正解率, 堅牢性) - データセット - AWSのデフォルトデータセット(BOLD, TREX…) - 独自のプロンプトデータセット(S3に用意) - その他 - 推論はBedrockで実行される(課金対象) 1. Bedrockのモデル評価
“現時点で” ここが辛い - 評価できるモデルが限られている - Claude 3, 3.5 は評価できない(2024.6.22時点)? -
プロンプトの評価機能が整っていない - 独自データセットを使えばできるが、バージョン管理など自分でやる必要がある - オフライン評価特化 - オンライン評価も独自データセットでできるが、手間がかかる → 実務ではAzureや他ツールを使い、まだBedrockは導入していない 1. Bedrockのモデル評価
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
人間による評価を上手に使う - 前提: Bedrockの辛いところは変わらない - プロダクトに応じて、日本語の言い回しなど柔軟に評価 - Biz側(非エンジニア)も評価に参加 - LLMによる自動評価は継続しつつ、ポイントで人間による評価を取り入れる
- 自動評価で最低限の品質を保ち、手動評価でビジネス要件とのズレを確認・修正 2. 人間による評価
評価の方法① ジョブの開始 1. 対象のモデルを選択(2つまで同時に選択できる) 2. タスクタイプを選択(一般テキスト生成、要約...etc) 3. 評価メトリクスを選択、指定(この数だけ手動評価する) 4. データセットの場所を指定(事前にS3にjsonlを保存)
a. prompt: required b. referenceResponse, category: optional 5. ロールの作成/選択 6. 作業チームの設定(メンバーのメールアドレスを設定) 7. 作業チームに依頼する文面作成 8. 実行 → 新規メンバーにはメールが送られる 2. 人間による評価 ロールはエラーの原因に なりやすいので、一旦は ここで作ることをお勧め します。
評価の方法② 評価の実行 2. 人間による評価 1. (ワーカー届いたメールのURLにサインイン) 2. プロンプトと出力をみて、1つずつ手動評価 3. Submitで評価完了
プロンプトと各モデルの出力結果 評価項目(ここで評価をつける) 結果 ※ステータスについて 「進行中」でもワーカーページにジョブがあれば評価で きます。全員が完了したら「完了済み」に変わります。 → 自分は推論が終わっていないと勘違いし「進行中」 でずっと待機していました。。
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
まとめ - 現状では実務で満足に使えないところも多いが、今後検討はしていきたい - 自動評価だけでなく、積極的に人間による評価も取り入れる - (サービスの規模やフェーズにもよる) - Claude 3.5
Sonnet / Claude 3 Opus をBedrockで評価、比較したい!
None