Upgrade to Pro — share decks privately, control downloads, hide ads and more …

実用 Confident Learning

実用 Confident Learning

みんなのPython勉強会#86 での発表資料です
https://speakerdeck.com/asei/confident-learning よりも事例の紹介に注力しています

Asei Sugiyama

October 13, 2022
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. Data Perf ML Perf: 機械学習アルゴリ ズムのベンチマーク Data Perf: データセットのベ ンチマーク

    いずれはアルゴリズム - テ スト - データセットをすべ てインクリメンタルに改善 するフレームワークを提供 するという野心的な提案
  2. Confident Learning 概要 背景 論文の内容 手法 結果 Pervasive Label Errors

    in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749
  3. 背景 Hinton が MNIST (LeCun が作成) の 誤り 1 件を見つけて喜んでいるのを

    見ていた 「こんなに有名な人がこんなに喜ん でいるのならこれは価値があるので は」と思ったのがきっかけ Cleanlab: Labeled Datasets that Correct Themselves Automatically // Curtis Northcutt // MLOps Coffee Sessions #105 https://anchor.fm/mlops/episodes/Cleanlab-Labeled- Datasets-that-Correct-Themselves-Automatically--Curtis-Northcutt--MLOps-Coffee- Sessions-105-e1k777l/a-a850eq6
  4. 論文の内容 Confident Learning という 手法を提案 多クラス分類において、既 存の手法よりも効率的にラ ベルの誤りを発見 MNIST, ImageNet

    などのデ ータセットにラベルの誤り を実際に発見した Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749
  5. 手法 データセットを用いてモデ ルを訓練 & 推論 (k-fold) 推論結果に Confident Learning を適用し、誤りが

    疑われるデータの一覧を作 成 Amazon Mechanical Turk で改めてアノテーション Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749
  6. どうしようもない例 右の画像は ImageNet で tick (ダニ) とラベル付けされたもの クラウドソーシングで scorpion とラ

    ベルが振り直された 実際は Solifugae (ヒヨケムシ、クモ やサソリではない)
  7. 結果 画像 4000 枚から40件の誤りを特定、修正できた 種別 枚数 割合 全画像 4000 枚

    100% Confident Learning により抽出した画像 250 枚 6.25% 再レビューの結果、陽性/陰性が修正された件数 40 枚 1%