Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Bedrockのモデル評価
Search
Shota Totsuka
June 25, 2024
3
330
Bedrockのモデル評価
Shota Totsuka
June 25, 2024
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
Amazon Novaを使用した蒸留
totsukash
2
37
SageMaker AIワークフローのあれこれ紹介
totsukash
1
36
Vertex AIで画像分類タスクのデータセットを準備する
totsukash
0
32
Text-to-SQLで自然言語から構造化データを取得する
totsukash
2
60
トークナイザーの仕組みを少しだけ深ぼって理解する
totsukash
0
28
Bedrockエージェントから見るAI Agentとその挙動
totsukash
1
27
SageMaker Ground Truthでトレーニングデータセットを構築する
totsukash
0
11
自発的にActionする(っぽい)AI Agentを常に稼働させている話
totsukash
1
35
Dify|基礎から最新アップデートまでをサラッと紹介
totsukash
7
1.7k
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
40
2k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Writing Fast Ruby
sferik
628
61k
Building Your Own Lightsaber
phodgson
104
6.2k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
Mobile First: as difficult as doing things right
swwweet
223
9.3k
How STYLIGHT went responsive
nonsquared
98
5.4k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
174
51k
Transcript
Bedrockのモデル評価 人間による評価の可能性を探ってみる 戸塚 翔太
自己紹介 - 戸塚翔太(Blueish) - Go, Rust, Python - 生成AI, 機械学習
- 松尾研GENIAC開発メンバーとして参加 - 静岡県(浜松)に住んでます - 近くの方がいれば、一緒に勉強会しましょう - X: @totsumaru_dot
会社紹介 - 株式会社ブルーイッシュ - Go, Rust, 生成AIエンジニア等募集中 - 興味があれば覗いていただけると嬉しいです -
https://www.blueish.co.jp
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
今日伝えたいこと 1. Bedrockのモデル評価は、実務ではまだ使いにくい(個人的に) a. 評価できるモデルや機能が少ない 2. Bedrockで人間による評価のやり方 a. まだ実務では使っていないが、機能を知っておいて損はない b.
LLMによる自動評価が注目されるが、人間による評価も共存させる
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
概要 - 評価手法 - 自動(LLMによる自動評価) - 人間(自分の作業チームを作成) - 人間(AWSマネージドチームによる評価) -
モデル評価ジョブ - 一般テキスト生成(正解率, 堅牢性, 有害性) - テキスト要約(正解率, 堅牢性, 有害性) - 質問と回答(正解率, 堅牢性, 有害性) - テキスト分類(正解率, 堅牢性) - データセット - AWSのデフォルトデータセット(BOLD, TREX…) - 独自のプロンプトデータセット(S3に用意) - その他 - 推論はBedrockで実行される(課金対象) 1. Bedrockのモデル評価
“現時点で” ここが辛い - 評価できるモデルが限られている - Claude 3, 3.5 は評価できない(2024.6.22時点)? -
プロンプトの評価機能が整っていない - 独自データセットを使えばできるが、バージョン管理など自分でやる必要がある - オフライン評価特化 - オンライン評価も独自データセットでできるが、手間がかかる → 実務ではAzureや他ツールを使い、まだBedrockは導入していない 1. Bedrockのモデル評価
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
人間による評価を上手に使う - 前提: Bedrockの辛いところは変わらない - プロダクトに応じて、日本語の言い回しなど柔軟に評価 - Biz側(非エンジニア)も評価に参加 - LLMによる自動評価は継続しつつ、ポイントで人間による評価を取り入れる
- 自動評価で最低限の品質を保ち、手動評価でビジネス要件とのズレを確認・修正 2. 人間による評価
評価の方法① ジョブの開始 1. 対象のモデルを選択(2つまで同時に選択できる) 2. タスクタイプを選択(一般テキスト生成、要約...etc) 3. 評価メトリクスを選択、指定(この数だけ手動評価する) 4. データセットの場所を指定(事前にS3にjsonlを保存)
a. prompt: required b. referenceResponse, category: optional 5. ロールの作成/選択 6. 作業チームの設定(メンバーのメールアドレスを設定) 7. 作業チームに依頼する文面作成 8. 実行 → 新規メンバーにはメールが送られる 2. 人間による評価 ロールはエラーの原因に なりやすいので、一旦は ここで作ることをお勧め します。
評価の方法② 評価の実行 2. 人間による評価 1. (ワーカー届いたメールのURLにサインイン) 2. プロンプトと出力をみて、1つずつ手動評価 3. Submitで評価完了
プロンプトと各モデルの出力結果 評価項目(ここで評価をつける) 結果 ※ステータスについて 「進行中」でもワーカーページにジョブがあれば評価で きます。全員が完了したら「完了済み」に変わります。 → 自分は推論が終わっていないと勘違いし「進行中」 でずっと待機していました。。
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
まとめ - 現状では実務で満足に使えないところも多いが、今後検討はしていきたい - 自動評価だけでなく、積極的に人間による評価も取り入れる - (サービスの規模やフェーズにもよる) - Claude 3.5
Sonnet / Claude 3 Opus をBedrockで評価、比較したい!
None