Vertex AIで画像分類タスクのデータセットを準備する

Slide 1

Slide 1 text

No content

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

©Blueish 2024. All rights reserved. Data Collection (データ収集) - 生データをさまざまなソースから取得 Data Preprocessing (データ前処理) - ノイズ除去,正規化などの処理を行い、クリーンなデータを作成 Data Labeling (データラベリング) - 正解ラベルを付与することで、後続のモデル学習の品質を向上 Model Training/Evaluation (モデルの学習／評価) - ラベル付きデータを用いてモデルを学習させ、評価指標に基づいてパフォーマンスを確認 Deployment (デプロイメント) - 学習済みモデルを実際の運用環境へ展開 Feedback Loop (フィードバックループ) - モデルの評価結果や運用上の課題をもとに、データ収集・前処理、ラベリングの工程へフィードバック MLパイプラインにおけるラベリングの位置づけデータ準備の全体像

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

©Blueish 2024. All rights reserved. Vertex AI Data Labeling Service（非推奨）: - 2024年10月3日以降使用不可 - 対象データ: 画像、テキスト、ビデオなど多様なデータに対応 - ラベリング作業をGoogle Cloudの担当者に依頼 Google CloudエコシステムとVertex AI Google Cloudでのデータ準備アプローチ

Slide 13

Slide 13 text

©Blueish 2024. All rights reserved. 分類: - JPEG,GIF,PNG,BMP,ICO 形式 (トレーニングデータ) - 最大サイズは 30 MB - ラベルごとに約 1,000 個のトレーニング画像をおすすめオブジェクト検出: - JPEG,GIF,PNG,BMP,ICO 形式 - 最大サイズは 30 MB - 推奨サイズ 1024 x 1024 ピクセル以下 - ラベルごとに約 1,000 個のアノテーションを使用することをおすすめデータの準備 Google Cloudでのデータ準備アプローチ

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

AWS SageMaker AI Ground Truthとの比較 2. jobを作成(今回はTurkを使用）

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど - ラベルづけ, 正解データにはAWSを使用してTurk経由で依頼が楽かも - Cloud Storage, BigQueryを使っている/使いたい場合はVertex AI - JSONLで作成したメタデータを取り込むことも可能なため、このプラットフォーム上で全てを完結させる必要はないまとめ

Slide 29

Slide 29 text