Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Confident Learning

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.
Avatar for Asei Sugiyama Asei Sugiyama
September 16, 2022

Confident Learning

データの品質向上に使える Confident Learning についての解説資料です。実際に使ってみた事例は今後追加していければと思います。この資料は Money Forward 社内で開かれた MLOps についての勉強会のために作成しました。

## Reference

Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749
Confident Learning: Estimating Uncertainty in Dataset Labels https://arxiv.org/abs/1911.00068
cleanlab/cleanlab https://github.com/cleanlab/cleanlab

Avatar for Asei Sugiyama

Asei Sugiyama

September 16, 2022
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. Data Perf ML Perf: 機械学習アルゴリ ズムのベンチマーク Data Perf: データセットのベ ンチマーク

    いずれはアルゴリズム - テ スト - データセットをすべ てインクリメンタルに改善 するフレームワークを提供 するという野心的な提案
  2. Confident Learning 概要 背景 論文の内容 手法 結果 Pervasive Label Errors

    in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749
  3. 背景 Hinton が MNIST (LeCun が作成) の 誤り 1 件を見つけて喜んでいるのを

    見ていた 「こんなに有名な人がこんなに喜ん でいるのならこれは価値があるので は」と思ったのがきっかけ Cleanlab: Labeled Datasets that Correct Themselves Automatically // Curtis Northcutt // MLOps Coffee Sessions #105 https://anchor.fm/mlops/episodes/Cleanlab-Labeled- Datasets-that-Correct-Themselves-Automatically--Curtis-Northcutt--MLOps-Coffee- Sessions-105-e1k777l/a-a850eq6
  4. 論文の内容 Confident Learning という 手法を提案 多クラス分類において、既 存の手法よりも効率的にラ ベルの誤りを発見 MNIST, ImageNet

    などのデ ータセットにラベルの誤り を実際に発見した Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749
  5. 手法 データセットを用いてモデ ルを訓練 & 推論 (k-fold) 推論結果に Confident Learning を適用し、誤りが

    疑われるデータの一覧を作 成 Amazon Mechanical Turk で改めてアノテーション Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749
  6. どうしようもない例 右の画像は ImageNet で tick (ダニ) とラベル付けされたもの クラウドソーシングで scorpion とラ

    ベルが振り直された 実際は Solifugae (ヒヨケムシ、クモ やサソリではない)
  7. Confident Learning 実装: Clean Lab 解決したい問題 アルゴリズム概要 Clean Lab 特徴

    実用例 Confident Learning: Estimating Uncertainty in Dataset Labels https://arxiv.org/abs/1911.00068
  8. アルゴリズム概要 k-fold を行い、データセッ ト全体に対してスコアを計 算 ラベルの値ごとにしきい値 を調整 (式は次ページ) し Confusion

    Matrix を作成 Confusion Matrix の対角成 分以外の総和を各ラベルの 誤りの件数とする Confident Learning: Estimating Uncertainty in Dataset Labels https://arxiv.org/abs/1911.00068