Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vertex AIで画像分類タスクのデータセットを準備する

Avatar for Shota Totsuka Shota Totsuka
February 06, 2025
51

Vertex AIで画像分類タスクのデータセットを準備する

Avatar for Shota Totsuka

Shota Totsuka

February 06, 2025
Tweet

More Decks by Shota Totsuka

Transcript

  1. 自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太 Shota Totsuka

    ・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます  近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
  2. 会社紹介 ©Blueish 2024. All rights reserved. 会社名 株式会社BLUEISH 代表者 為藤アキラ

    設立 2018年2月9日 所在地 〒106-0046 東京都港区元麻布3丁目1-35 VORT元麻布 5F 事業内容 システム開発事業 Omni Workspace事業 サーバー最適化支援事業 資本金 1億4338万円
  3. 01 データ準備の全体像 02 Google Cloudでのデータ準備アプローチ 03 AWS SageMaker AI Ground

    Truthとの比較 04 まとめ 目次 ©Blueish 2024. All rights reserved.
  4. ©Blueish 2024. All rights reserved. - 機械学習を触ってないけど、概要を掴んでおきたい - Google Cloud

    / AWS でどうやってラベリングをするのか知っておきたい 細かい説明は除き、大枠を掴めるような構成となっています。 対象
  5. ©Blueish 2024. All rights reserved. - 機械学習プロジェクトの成功は「データの質」に依存する - ラベリングは、正確なモデル学習・評価の基盤 -

    Garbage in, garbage out(ゴミを入れてもゴミが出てくるだけ) - データラベリングは主に教師あり学習において必要不可欠 データラベリングの重要性 データ準備の全体像 ネコ
  6. ©Blueish 2024. All rights reserved. Data Collection (データ収集) - 生データをさまざまなソースから取得

    Data Preprocessing (データ前処理) - ノイズ除去,正規化などの処理を行い、クリーンなデータを作成 Data Labeling (データラベリング) - 正解ラベルを付与することで、後続のモデル学習の品質を向上 Model Training/Evaluation (モデルの学習/評価) - ラベル付きデータを用いてモデルを学習させ、 評価指標に基づいてパフォーマンスを確認 Deployment (デプロイメント) - 学習済みモデルを実際の運用環境へ展開 Feedback Loop (フィードバックループ) - モデルの評価結果や運用上の課題をもとに、 データ収集・前処理、ラベリングの工程へフィードバック MLパイプラインにおけるラベリングの位置づけ データ準備の全体像
  7. ©Blueish 2024. All rights reserved. 主な課題: - スケーラビリティと精度の両立 - コスト・運用面(人力

    vs 自動) - タスク管理と品質管理の仕組み 公式リソース参考: - 各社のMLパイプラインのベストプラクティス資料 (Google CloudのML Pipeline Documentationなど) ラベリングの課題と考慮点 データ準備の全体像
  8. ©Blueish 2024. All rights reserved. Vertex AI Data Labeling Service(非推奨):

    - 2024年10月3日以降使用不可 - 対象データ: 画像、テキスト、ビデオなど多様なデータに対応 - ラベリング作業をGoogle Cloudの担当者に依頼 Google CloudエコシステムとVertex AI Google Cloudでのデータ準備アプローチ
  9. ©Blueish 2024. All rights reserved. 分類: - JPEG,GIF,PNG,BMP,ICO 形式 (トレーニングデータ)

    - 最大サイズは 30 MB - ラベルごとに約 1,000 個のトレーニング画像をおすすめ オブジェクト検出: - JPEG,GIF,PNG,BMP,ICO 形式 - 最大サイズは 30 MB - 推奨サイズ 1024 x 1024 ピクセル以下 - ラベルごとに約 1,000 個のアノテーションを使用することをおすすめ データの準備 Google Cloudでのデータ準備アプローチ
  10. ©Blueish 2024. All rights reserved. - 機能差が大きくあるわけではない - 他のタスクとの兼ね合いや使用しているStorageに依存 -

    手動でのラベリングはAWS(Turk)が使える Ground Truthとの比較 AWS SageMaker AI Ground Truthとの比較
  11. ©Blueish 2024. All rights reserved. - Amazon Mechanical Turk経由で10件の依頼は約20分ほど -

    ラベルづけ, 正解データにはAWSを使用してTurk経由で依頼が楽かも - Cloud Storage, BigQueryを使っている/使いたい場合はVertex AI - JSONLで作成したメタデータを取り込むことも可能なため、このプラットフォーム 上で全てを完結させる必要はない まとめ