実用 Confident Learning

Confident Learning Asei Sugiyama

TOC Data-centric AI 振り返り <- Confident Learning 概要実践 Confident
Learning

Data-centric AI 振り返り Data-centric AI Confident Learning Data Perf

Data-centric AI データの改善に着目したムーブメントモデルよりもデータの改善のほうが効果的という Andrew Ng の過去の経験に基づく
2021 年 12 月に大きなワークショップが行われた

Confident Learning ワークショップの中で紹介された取り組みの 1 つデータセットに含まれるラベルの誤りを検出詳細は後述

Data Perf ML Perf: 機械学習アルゴリズムのベンチマーク Data Perf: データセットのベンチマーク
いずれはアルゴリズム - テスト - データセットをすべてインクリメンタルに改善するフレームワークを提供するという野心的な提案

TOC Data-centric AI 振り返り Confident Learning 概要 <- 実践 Confident
Learning

Confident Learning 概要背景論文の内容手法結果 Pervasive Label Errors
in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749

背景 Hinton が MNIST (LeCun が作成) の誤り 1 件を見つけて喜んでいるのを
見ていた「こんなに有名な人がこんなに喜んでいるのならこれは価値があるのでは」と思ったのがきっかけ Cleanlab: Labeled Datasets that Correct Themselves Automatically // Curtis Northcutt // MLOps Coffee Sessions #105 https://anchor.fm/mlops/episodes/Cleanlab-Labeled- Datasets-that-Correct-Themselves-Automatically--Curtis-Northcutt--MLOps-Coffee- Sessions-105-e1k777l/a-a850eq6

論文の内容 Confident Learning という手法を提案多クラス分類において、既存の手法よりも効率的にラベルの誤りを発見 MNIST, ImageNet
などのデータセットにラベルの誤りを実際に発見した Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749

手法データセットを用いてモデルを訓練 & 推論 (k-fold) 推論結果に Confident Learning を適用し、誤りが
疑われるデータの一覧を作成 Amazon Mechanical Turk で改めてアノテーション Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749

結果: データセットの誤り率 Pervasive Label Errors in Test Sets Destabilize Machine
Learning Benchmarks https://arxiv.org/abs/2103.14749

結果: 提案のワークフローで発生する見逃し Pervasive Label Errors in Test Sets Destabilize Machine
Learning Benchmarks https://arxiv.org/abs/2103.14749

どうしようもない例右の画像は ImageNet で tick (ダニ) とラベル付けされたものクラウドソーシングで scorpion とラ
ベルが振り直された実際は Solifugae (ヒヨケムシ、クモやサソリではない)

TOC Data-centric AI 振り返り Confident Learning 概要実践 Confident Learning
<-

背景画像から疾病の陽性/陰性を判定する機械学習モデルを構築中陽性/陰性の判定には高い専門性が必要なため、少数の専門家 (医療業務従事者) が画像をアノテーション構築したデータセットをもとに画像から陽性/陰性を判定するモデルを構築テストデータにおいてモデルが誤った画像について、専門家に念のための再確認したところ、機械学習モデルの判断のほうが正しかったという
結果に

問題構築した画像データセットに誤りがどの程度含まれているのか不明データセットに含まれる画像が 4,000 件あり、今後も増える予定専門家が全件チェックするのは現実的でないし、全件チェックした結果を信用してよいのかどうかも不明

目標 1. アノテーションの結果がどの程度信用できるのか見積もること 2. データセットに含まれる誤りを効率的に修正するための手法を確立すること

Clean Lab Confident Learning の OSS 実装 Python から利用可能 cleanlab/cleanlab
https://github.com/cleanlab/cleanlab

コードアルゴリズムはモデルの出力のみを用いるため、幅広い分類モデルを利用可能 from cleanlab.filter import find_label_issues ordered_label_issues = find_label_issues(
labels=labels, pred_probs=pred_probs, return_indices_ranked_by='self_confidence', )

結果画像 4000 枚から40件の誤りを特定、修正できた種別枚数割合全画像 4000 枚
100% Confident Learning により抽出した画像 250 枚 6.25% 再レビューの結果、陽性/陰性が修正された件数 40 枚 1%

考察アノテーションの誤りは概ね正しく抽出できていると思われる今回のデータセットにおいて検出できた誤りは 1% 程度これは公開されている品質の高いデータセットとほとんど同じアノテーションの誤りを効率的に修正する手法は確立できたレビュー対象を 4,000 枚から
250 枚 (6%) に集約できた見逃しもあると思われるため、データの収集と修正を繰り返し実施する必要性も明らかになった

まとめ Confident Learning はラベルの誤りを発見することでデータの品質向上に取り組むアルゴリズム ImageNet などのデータセットに対してアルゴリズムを適用することで実際に誤りを発見アルゴリズムを実際のデータセットに適用してみたところ、誤りを発見し、修正できた

実用 Confident Learning

実用 Confident Learning

Asei Sugiyama

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript

Confident Learning Asei Sugiyama

TOC Data-centric AI 振り返り <- Confident Learning 概要実践 Confident

Data-centric AI 振り返り Data-centric AI Confident Learning Data Perf

Data-centric AI データの改善に着目したムーブメントモデルよりもデータの改善のほうが効果的という Andrew Ng の過去の経験に基づく

Confident Learning ワークショップの中で紹介された取り組みの 1 つデータセットに含まれるラベルの誤りを検出詳細は後述

Data Perf ML Perf: 機械学習アルゴリズムのベンチマーク Data Perf: データセットのベンチマーク

TOC Data-centric AI 振り返り Confident Learning 概要 <- 実践 Confident

Confident Learning 概要背景論文の内容手法結果 Pervasive Label Errors

背景 Hinton が MNIST (LeCun が作成) の誤り 1 件を見つけて喜んでいるのを

論文の内容 Confident Learning という手法を提案多クラス分類において、既存の手法よりも効率的にラベルの誤りを発見 MNIST, ImageNet

手法データセットを用いてモデルを訓練 & 推論 (k-fold) 推論結果に Confident Learning を適用し、誤りが

結果: データセットの誤り率 Pervasive Label Errors in Test Sets Destabilize Machine

結果: 提案のワークフローで発生する見逃し Pervasive Label Errors in Test Sets Destabilize Machine

どうしようもない例右の画像は ImageNet で tick (ダニ) とラベル付けされたものクラウドソーシングで scorpion とラ

TOC Data-centric AI 振り返り Confident Learning 概要実践 Confident Learning

目標 1. アノテーションの結果がどの程度信用できるのか見積もること 2. データセットに含まれる誤りを効率的に修正するための手法を確立すること

Clean Lab Confident Learning の OSS 実装 Python から利用可能 cleanlab/cleanlab

コードアルゴリズムはモデルの出力のみを用いるため、幅広い分類モデルを利用可能 from cleanlab.filter import find_label_issues ordered_label_issues = find_label_issues(

結果画像 4000 枚から40件の誤りを特定、修正できた種別枚数割合全画像 4000 枚