Confident Learning

Confident Learning Asei Sugiyama

TOC Data-centric AI 振り返り <- Confident Learning 概要 Confident Learning
実装: Clean Lab

Data-centric AI 振り返り Data-centric AI Confident Learning Data Perf

Data-centric AI データの改善に着目したムーブメントモデルよりもデータの改善のほうが効果的という Andrew Ng の過去の経験に基づく
2021 年 12 月に大きなワークショップが行われた

Confident Learning ワークショップの中で紹介された取り組みの 1 つデータセットに含まれるラベルの誤りを検出詳細は後述

Data Perf ML Perf: 機械学習アルゴリズムのベンチマーク Data Perf: データセットのベンチマーク
いずれはアルゴリズム - テスト - データセットをすべてインクリメンタルに改善するフレームワークを提供するという野心的な提案

TOC Data-centric AI 振り返り Confident Learning 概要 <- Confident Learning
実装: Clean Lab

Confident Learning 概要背景論文の内容手法結果 Pervasive Label Errors
in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749

背景 Hinton が MNIST (LeCun が作成) の誤り 1 件を見つけて喜んでいるのを
見ていた「こんなに有名な人がこんなに喜んでいるのならこれは価値があるのでは」と思ったのがきっかけ Cleanlab: Labeled Datasets that Correct Themselves Automatically // Curtis Northcutt // MLOps Coffee Sessions #105 https://anchor.fm/mlops/episodes/Cleanlab-Labeled- Datasets-that-Correct-Themselves-Automatically--Curtis-Northcutt--MLOps-Coffee- Sessions-105-e1k777l/a-a850eq6

論文の内容 Confident Learning という手法を提案多クラス分類において、既存の手法よりも効率的にラベルの誤りを発見 MNIST, ImageNet
などのデータセットにラベルの誤りを実際に発見した Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749

手法データセットを用いてモデルを訓練 & 推論 (k-fold) 推論結果に Confident Learning を適用し、誤りが
疑われるデータの一覧を作成 Amazon Mechanical Turk で改めてアノテーション Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749

結果: データセットの誤り率 Pervasive Label Errors in Test Sets Destabilize Machine
Learning Benchmarks https://arxiv.org/abs/2103.14749

結果: 提案のワークフローで発生する見逃し Pervasive Label Errors in Test Sets Destabilize Machine
Learning Benchmarks https://arxiv.org/abs/2103.14749

どうしようもない例右の画像は ImageNet で tick (ダニ) とラベル付けされたものクラウドソーシングで scorpion とラ
ベルが振り直された実際は Solifugae (ヒヨケムシ、クモやサソリではない)

TOC Data-centric AI 振り返り Confident Learning 概要 Confident Learning 実装:
Clean Lab <-

Confident Learning 実装: Clean Lab 解決したい問題アルゴリズム概要 Clean Lab 特徴
実用例 Confident Learning: Estimating Uncertainty in Dataset Labels https://arxiv.org/abs/1911.00068

解決したい問題ラベルの誤りを検出するためには normalized margin を用いてデータを並び替えれば良いことは既知それぞれの誤り方に対して何件を抽出するのが良いのか決定する手段は未解決しきい値をもとにクラスを判断し Confusion
Matrix を作成する手法ではデータが不均衡なときに少数派のデータに対して望ましくない振る舞いをする

Normalized margin

アルゴリズム概要 k-fold を行い、データセット全体に対してスコアを計算ラベルの値ごとにしきい値を調整 (式は次ページ) し Confusion
Matrix を作成 Confusion Matrix の対角成分以外の総和を各ラベルの誤りの件数とする Confident Learning: Estimating Uncertainty in Dataset Labels https://arxiv.org/abs/1911.00068

しきい値の調整しきい値はモデルの出力の平均を用いる Confident Learning: Estimating Uncertainty in Dataset Labels https://arxiv.org/abs/1911.00068

Clean Lab Confident Learning の OSS 実装 Python から利用可能 cleanlab/cleanlab
https://github.com/cleanlab/cleanlab

コードアルゴリズムはモデルの出力のみを用いるため、幅広い分類モデルを利用可能 from cleanlab.filter import find_label_issues ordered_label_issues = find_label_issues(
labels=labels, pred_probs=pred_probs, return_indices_ranked_by='self_confidence', )

特徴必要なのは k-fold で推論した結果のみであり、モデルに非依存 (モデルを共有する必要すらない) アルゴリズムが平易なため、再実装も容易 Python ライブラリがかなり使いやすい

まとめ Confident Learning はラベルの誤りを発見することでデータの品質向上に取り組むアルゴリズム ImageNet などのデータセットに対してアルゴリズムを適用することで実際に誤りを発見 cleanlab という
OSS 実装もあり利用しやすい (Citadel Lens に組み込み済)

Confident Learning

Confident Learning

Asei Sugiyama

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript