▪ アノテータによるラベルの偏りがない、一貫したデータセットの構築を目指す ▪ データにおける問題の発見、解決を機械学習エンジニアのスキルに依存するの ではなくシステマティックに行う A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
500枚の学習データの12%がノイズである場合、以下2つは同じ効果を持つ ▪ ノイズを除去する ▪ 追加で500枚を学習データに加える(データセットサイズを2倍にする) データ量:少 データ品質:低 データ量:多 データ品質:低 データ量:少 データ品質:高 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
MLOps 機械学習プロジェクトのライフサイクル全体を通じて高品質なデータを保証する Q. どのようにデータを定 義し、集めればよいか? Q. モデルの性能改善のた めにどのようにデータを 変更すればよいか? Q. コンセプト/データド リフトを検知するために どのようなデータをトラ ックすればよいか? MLOpsチームは各フェーズでのこれらの問いに答えられる必要がある A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
の定義に曖昧さがない) ▪ 重要なケースをカバーしている(入力 x の分布を十分にカバーしている) ▪ 現在のデータがタイムリーにフィードバックされる(データ分布がデータドリ フトやコンセプトドリフトをカバーしている) ▪ サイズが適切である Big DataからGood Dataへ 13 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
+ Data Model-Centric AI 性能を改善するためにどのように モデル(コード)を変更するか Data-Centric AI 性能を改善するためにどのように システマティックにデータを変更 するか ▪ MLOpsの最重要タスクは、機械学習プロジェクトのライフサイクル全体 を通じて高品質なデータを保証すること ▪ 今後はData-Centric AIを効率的かつシステマティックに実現するためのツ ールが重要となる A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube