Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SageMaker Ground Truthでトレーニングデータセットを構築する
Search
Shota Totsuka
January 17, 2025
0
40
SageMaker Ground Truthでトレーニングデータセットを構築する
Shota Totsuka
January 17, 2025
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
HITL実装によるマルチエージェント組織の設計パターン
totsukash
0
9
Claude Codeの知らない知識に立ち向かう
totsukash
1
530
Claude Codeの知らない知識、ADK, A2Aを用いた プロダクト開発をClaude Codeで行う
totsukash
0
780
Claude Code で Vibe Coding
totsukash
1
14
MCP, A2Aをプロダクトに組み込んで 開発している話
totsukash
1
15
Mastra活用|Text-to-SQLの実装と応用
totsukash
1
190
Bedrockでのプロンプト管理戦略
totsukash
3
170
Amazon SageMaker AIでモデル開発からデプロイまで試す
totsukash
2
53
Amazon CodeGuruをGitHubと統合して アプリケーションの品質管理を楽にする
totsukash
0
21
Featured
See All Featured
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
420
Abbi's Birthday
coloredviolet
0
4.2k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
230
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
34
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
190
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
So, you think you're a good person
axbom
PRO
0
1.9k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
720
The Spectacular Lies of Maps
axbom
PRO
1
420
[SF Ruby Conf 2025] Rails X
palkan
0
690
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
87
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
1k
Transcript
SageMaker Ground Truthで トレーニングデータセットを構築する 2025.01.17 ©Blueish 2024. All rights reserved.
戸塚 翔太
自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太 Shota Totsuka
・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます 近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
01 SageMaker Ground Truth とは 02 ユースケース・メリット 03 使ってみる 04
まとめ 目次 ©Blueish 2024. All rights reserved.
会社紹介 ©Blueish 2024. All rights reserved. 会社名 株式会社BLUEISH 代表者 為藤アキラ
設立 2018年2月9日 所在地 〒106-0046 東京都港区元麻布3丁目1-35 VORT元麻布 5F 事業内容 ・WEBシステム開発 ・スマートフォンアプリケーション開発 資本金 10,000,000円
01 SageMaker Ground Truth とは ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - ラベリングアプリケーションを構築したり、ラベリング担当者を管理したりするこ となく、高品質のトレーニングデータセットを作成できる - 教師データを効率良く作成するアノテーションツール/サービス
概要 SageMaker Ground Truth とは
©Blueish 2024. All rights reserved. 画面 SageMaker Ground Truth とは
02 ユースケース・メリット ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - 例とデモンストレーションデータ - ある質問に対する回答: 「日本の首都は?」→「東京」
- 比較とランキングデータ - 同じ質問に対する複数の回答を比較/ランク付けする - 評価とレッドチーム - 脆弱性の発見、偏りの軽減、毒性の排除を可能にする - データラベリング - テキスト、画像、動画、音声、点群にラベルを付ける ユースケース ユースケース・メリット
©Blueish 2024. All rights reserved. - 人間が生成したデータを取得 - 人間が生成したデータを取得して、特定のタスクに合わせたり、企業や業界固有のデータを使用してモ デルをカスタマイズしたりできます
- モデルの評価 - 人間による評価を利用して、ユースケースに最適な基盤モデル (FM) を比較して選択してください - 高品質なデータセットの作成 - 専門家によるオンデマンドスタッフによる高品質なトレーニングデータセットの作成により、モデルの 精度を向上させます - ヒューマンインザループタスクを高速化 - コストを削減しながら、データ生成や注釈付けからモデルのレビュー、カスタマイズ、評価まで、 ヒューマンインザループタスクを加速および自動化します メリット ユースケース・メリット
03 使ってみる ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. 使ってみる 1. S3にオブジェクトを格納
使ってみる 2. jobを作成(今回はTurkを使用)
©Blueish 2024. All rights reserved. 使ってみる 3. (option) ワーカーとして作業する
©Blueish 2024. All rights reserved. 使ってみる 4. タスクの完了
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルの確認
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルデータの確認(JSONL)
04 まとめ ©Blueish 2024. All rights reserved.
©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど -
ラベルづけ, 正解データにはここを使用してTurk経由で依頼が楽かも - 今回は少数枚数だったので手作業の方が使い勝手が良いが、枚数が増えると使わざ るを得ないサービスのため、キャッチアップをしておくと良いかも まとめ
ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.