Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
SageMaker Ground Truthで トレーニングデータセットを構築する 2025.01.17 ©Blueish 2024. All rights reserved. 戸塚 翔太
Slide 2
Slide 2 text
自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太 Shota Totsuka ・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます 近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
Slide 3
Slide 3 text
01 SageMaker Ground Truth とは 02 ユースケース・メリット 03 使ってみる 04 まとめ 目次 ©Blueish 2024. All rights reserved.
Slide 4
Slide 4 text
会社紹介 ©Blueish 2024. All rights reserved. 会社名 株式会社BLUEISH 代表者 為藤アキラ 設立 2018年2月9日 所在地 〒106-0046 東京都港区元麻布3丁目1-35 VORT元麻布 5F 事業内容 ・WEBシステム開発 ・スマートフォンアプリケーション開発 資本金 10,000,000円
Slide 5
Slide 5 text
01 SageMaker Ground Truth とは ©Blueish 2024. All rights reserved.
Slide 6
Slide 6 text
©Blueish 2024. All rights reserved. - ラベリングアプリケーションを構築したり、ラベリング担当者を管理したりするこ となく、高品質のトレーニングデータセットを作成できる - 教師データを効率良く作成するアノテーションツール/サービス 概要 SageMaker Ground Truth とは
Slide 7
Slide 7 text
©Blueish 2024. All rights reserved. 画面 SageMaker Ground Truth とは
Slide 8
Slide 8 text
02 ユースケース・メリット ©Blueish 2024. All rights reserved.
Slide 9
Slide 9 text
©Blueish 2024. All rights reserved. - 例とデモンストレーションデータ - ある質問に対する回答: 「日本の首都は?」→「東京」 - 比較とランキングデータ - 同じ質問に対する複数の回答を比較/ランク付けする - 評価とレッドチーム - 脆弱性の発見、偏りの軽減、毒性の排除を可能にする - データラベリング - テキスト、画像、動画、音声、点群にラベルを付ける ユースケース ユースケース・メリット
Slide 10
Slide 10 text
©Blueish 2024. All rights reserved. - 人間が生成したデータを取得 - 人間が生成したデータを取得して、特定のタスクに合わせたり、企業や業界固有のデータを使用してモ デルをカスタマイズしたりできます - モデルの評価 - 人間による評価を利用して、ユースケースに最適な基盤モデル (FM) を比較して選択してください - 高品質なデータセットの作成 - 専門家によるオンデマンドスタッフによる高品質なトレーニングデータセットの作成により、モデルの 精度を向上させます - ヒューマンインザループタスクを高速化 - コストを削減しながら、データ生成や注釈付けからモデルのレビュー、カスタマイズ、評価まで、 ヒューマンインザループタスクを加速および自動化します メリット ユースケース・メリット
Slide 11
Slide 11 text
03 使ってみる ©Blueish 2024. All rights reserved.
Slide 12
Slide 12 text
©Blueish 2024. All rights reserved. 使ってみる 1. S3にオブジェクトを格納
Slide 13
Slide 13 text
使ってみる 2. jobを作成(今回はTurkを使用)
Slide 14
Slide 14 text
©Blueish 2024. All rights reserved. 使ってみる 3. (option) ワーカーとして作業する
Slide 15
Slide 15 text
©Blueish 2024. All rights reserved. 使ってみる 4. タスクの完了
Slide 16
Slide 16 text
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルの確認
Slide 17
Slide 17 text
©Blueish 2024. All rights reserved. 使ってみる 5. ラベルデータの確認(JSONL)
Slide 18
Slide 18 text
04 まとめ ©Blueish 2024. All rights reserved.
Slide 19
Slide 19 text
©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど - ラベルづけ, 正解データにはここを使用してTurk経由で依頼が楽かも - 今回は少数枚数だったので手作業の方が使い勝手が良いが、枚数が増えると使わざ るを得ないサービスのため、キャッチアップをしておくと良いかも まとめ
Slide 20
Slide 20 text
ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.