Slide 1

Slide 1 text

SageMaker Ground Truthで トレーニングデータセットを構築する 2025.01.17 ©Blueish 2024. All rights reserved. 戸塚 翔太

Slide 2

Slide 2 text

自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太 Shota Totsuka ・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます  近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash

Slide 3

Slide 3 text

01 SageMaker Ground Truth とは 02 ユースケース・メリット 03 使ってみる 04 まとめ 目次 ©Blueish 2024. All rights reserved.

Slide 4

Slide 4 text

会社紹介 ©Blueish 2024. All rights reserved. 会社名 株式会社BLUEISH 代表者 為藤アキラ 設立 2018年2月9日 所在地 〒106-0046 東京都港区元麻布3丁目1-35 VORT元麻布 5F 事業内容 ・WEBシステム開発 ・スマートフォンアプリケーション開発 資本金 10,000,000円

Slide 5

Slide 5 text

01 SageMaker Ground Truth とは ©Blueish 2024. All rights reserved.

Slide 6

Slide 6 text

©Blueish 2024. All rights reserved. - ラベリングアプリケーションを構築したり、ラベリング担当者を管理したりするこ となく、高品質のトレーニングデータセットを作成できる - 教師データを効率良く作成するアノテーションツール/サービス 概要 SageMaker Ground Truth とは

Slide 7

Slide 7 text

©Blueish 2024. All rights reserved. 画面 SageMaker Ground Truth とは

Slide 8

Slide 8 text

02 ユースケース・メリット ©Blueish 2024. All rights reserved.

Slide 9

Slide 9 text

©Blueish 2024. All rights reserved. - 例とデモンストレーションデータ - ある質問に対する回答: 「日本の首都は?」→「東京」 - 比較とランキングデータ - 同じ質問に対する複数の回答を比較/ランク付けする - 評価とレッドチーム - 脆弱性の発見、偏りの軽減、毒性の排除を可能にする - データラベリング - テキスト、画像、動画、音声、点群にラベルを付ける ユースケース ユースケース・メリット

Slide 10

Slide 10 text

©Blueish 2024. All rights reserved. - 人間が生成したデータを取得 - 人間が生成したデータを取得して、特定のタスクに合わせたり、企業や業界固有のデータを使用してモ デルをカスタマイズしたりできます - モデルの評価 - 人間による評価を利用して、ユースケースに最適な基盤モデル (FM) を比較して選択してください - 高品質なデータセットの作成 - 専門家によるオンデマンドスタッフによる高品質なトレーニングデータセットの作成により、モデルの 精度を向上させます - ヒューマンインザループタスクを高速化 - コストを削減しながら、データ生成や注釈付けからモデルのレビュー、カスタマイズ、評価まで、 ヒューマンインザループタスクを加速および自動化します メリット ユースケース・メリット

Slide 11

Slide 11 text

03 使ってみる ©Blueish 2024. All rights reserved.

Slide 12

Slide 12 text

©Blueish 2024. All rights reserved. 使ってみる 1. S3にオブジェクトを格納

Slide 13

Slide 13 text

使ってみる 2. jobを作成(今回はTurkを使用)

Slide 14

Slide 14 text

©Blueish 2024. All rights reserved. 使ってみる 3. (option) ワーカーとして作業する

Slide 15

Slide 15 text

©Blueish 2024. All rights reserved. 使ってみる 4. タスクの完了

Slide 16

Slide 16 text

©Blueish 2024. All rights reserved. 使ってみる 5. ラベルの確認

Slide 17

Slide 17 text

©Blueish 2024. All rights reserved. 使ってみる 5. ラベルデータの確認(JSONL)

Slide 18

Slide 18 text

04 まとめ ©Blueish 2024. All rights reserved.

Slide 19

Slide 19 text

©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど - ラベルづけ, 正解データにはここを使用してTurk経由で依頼が楽かも - 今回は少数枚数だったので手作業の方が使い勝手が良いが、枚数が増えると使わざ るを得ないサービスのため、キャッチアップをしておくと良いかも まとめ

Slide 20

Slide 20 text

ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.