Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Bedrockのモデル評価
Search
Shota Totsuka
June 25, 2024
490
3
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Bedrockのモデル評価
Shota Totsuka
June 25, 2024
More Decks by Shota Totsuka
See All by Shota Totsuka
Figma to Codeから Code to Figmaへ
totsukash
0
1.7k
コードレビューはCLAUDE.md/skillsに書け。同じ指摘を繰り返すな。
totsukash
20
20k
HITL実装によるマルチエージェント組織の設計パターン
totsukash
1
110
Claude Codeの知らない知識に立ち向かう
totsukash
1
860
Claude Codeの知らない知識、ADK, A2Aを用いた プロダクト開発をClaude Codeで行う
totsukash
0
1.4k
Claude Code で Vibe Coding
totsukash
1
110
MCP, A2Aをプロダクトに組み込んで 開発している話
totsukash
1
59
Mastra活用|Text-to-SQLの実装と応用
totsukash
1
250
Bedrockでのプロンプト管理戦略
totsukash
3
230
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
46
8.2k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.4k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
54k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Color Theory Basics | Prateek | Gurzu
gurzu
0
360
Skip the Path - Find Your Career Trail
mkilby
1
150
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
390
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
56k
So, you think you're a good person
axbom
PRO
2
2.1k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.4k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
410
Transcript
Bedrockのモデル評価 人間による評価の可能性を探ってみる 戸塚 翔太
自己紹介 - 戸塚翔太(Blueish) - Go, Rust, Python - 生成AI, 機械学習
- 松尾研GENIAC開発メンバーとして参加 - 静岡県(浜松)に住んでます - 近くの方がいれば、一緒に勉強会しましょう - X: @totsumaru_dot
会社紹介 - 株式会社ブルーイッシュ - Go, Rust, 生成AIエンジニア等募集中 - 興味があれば覗いていただけると嬉しいです -
https://www.blueish.co.jp
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
今日伝えたいこと 1. Bedrockのモデル評価は、実務ではまだ使いにくい(個人的に) a. 評価できるモデルや機能が少ない 2. Bedrockで人間による評価のやり方 a. まだ実務では使っていないが、機能を知っておいて損はない b.
LLMによる自動評価が注目されるが、人間による評価も共存させる
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
概要 - 評価手法 - 自動(LLMによる自動評価) - 人間(自分の作業チームを作成) - 人間(AWSマネージドチームによる評価) -
モデル評価ジョブ - 一般テキスト生成(正解率, 堅牢性, 有害性) - テキスト要約(正解率, 堅牢性, 有害性) - 質問と回答(正解率, 堅牢性, 有害性) - テキスト分類(正解率, 堅牢性) - データセット - AWSのデフォルトデータセット(BOLD, TREX…) - 独自のプロンプトデータセット(S3に用意) - その他 - 推論はBedrockで実行される(課金対象) 1. Bedrockのモデル評価
“現時点で” ここが辛い - 評価できるモデルが限られている - Claude 3, 3.5 は評価できない(2024.6.22時点)? -
プロンプトの評価機能が整っていない - 独自データセットを使えばできるが、バージョン管理など自分でやる必要がある - オフライン評価特化 - オンライン評価も独自データセットでできるが、手間がかかる → 実務ではAzureや他ツールを使い、まだBedrockは導入していない 1. Bedrockのモデル評価
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
人間による評価を上手に使う - 前提: Bedrockの辛いところは変わらない - プロダクトに応じて、日本語の言い回しなど柔軟に評価 - Biz側(非エンジニア)も評価に参加 - LLMによる自動評価は継続しつつ、ポイントで人間による評価を取り入れる
- 自動評価で最低限の品質を保ち、手動評価でビジネス要件とのズレを確認・修正 2. 人間による評価
評価の方法① ジョブの開始 1. 対象のモデルを選択(2つまで同時に選択できる) 2. タスクタイプを選択(一般テキスト生成、要約...etc) 3. 評価メトリクスを選択、指定(この数だけ手動評価する) 4. データセットの場所を指定(事前にS3にjsonlを保存)
a. prompt: required b. referenceResponse, category: optional 5. ロールの作成/選択 6. 作業チームの設定(メンバーのメールアドレスを設定) 7. 作業チームに依頼する文面作成 8. 実行 → 新規メンバーにはメールが送られる 2. 人間による評価 ロールはエラーの原因に なりやすいので、一旦は ここで作ることをお勧め します。
評価の方法② 評価の実行 2. 人間による評価 1. (ワーカー届いたメールのURLにサインイン) 2. プロンプトと出力をみて、1つずつ手動評価 3. Submitで評価完了
プロンプトと各モデルの出力結果 評価項目(ここで評価をつける) 結果 ※ステータスについて 「進行中」でもワーカーページにジョブがあれば評価で きます。全員が完了したら「完了済み」に変わります。 → 自分は推論が終わっていないと勘違いし「進行中」 でずっと待機していました。。
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
まとめ - 現状では実務で満足に使えないところも多いが、今後検討はしていきたい - 自動評価だけでなく、積極的に人間による評価も取り入れる - (サービスの規模やフェーズにもよる) - Claude 3.5
Sonnet / Claude 3 Opus をBedrockで評価、比較したい!
None