$30 off During Our Annual Pro Sale. View Details »

実用 Confident Learning

Asei Sugiyama
October 13, 2022

実用 Confident Learning

みんなのPython勉強会#86 での発表資料です
https://speakerdeck.com/asei/confident-learning よりも事例の紹介に注力しています

Asei Sugiyama

October 13, 2022
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. Confident Learning
    Asei Sugiyama

    View Slide

  2. TOC
    Data-centric AI 振り返り <-
    Confident Learning 概要
    実践 Confident Learning

    View Slide

  3. Data-centric AI 振り返り
    Data-centric AI
    Confident Learning
    Data Perf

    View Slide

  4. Data-centric AI
    データの改善に着目したム
    ーブメント
    モデルよりもデータの改善
    のほうが効果的という
    Andrew Ng の過去の経験に
    基づく
    2021 年 12 月に大きなワー
    クショップが行われた

    View Slide

  5. Confident Learning
    ワークショップの中で紹介
    された取り組みの 1 つ
    データセットに含まれるラ
    ベルの誤りを検出
    詳細は後述

    View Slide

  6. Data Perf
    ML Perf: 機械学習アルゴリ
    ズムのベンチマーク
    Data Perf: データセットのベ
    ンチマーク
    いずれはアルゴリズム - テ
    スト - データセットをすべ
    てインクリメンタルに改善
    するフレームワークを提供
    するという野心的な提案

    View Slide

  7. TOC
    Data-centric AI 振り返り
    Confident Learning 概要 <-
    実践 Confident Learning

    View Slide

  8. Confident Learning 概要
    背景
    論文の内容
    手法
    結果
    Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks
    https://arxiv.org/abs/2103.14749

    View Slide

  9. 背景
    Hinton が MNIST (LeCun が作成) の
    誤り 1 件を見つけて喜んでいるのを
    見ていた
    「こんなに有名な人がこんなに喜ん
    でいるのならこれは価値があるので
    は」と思ったのがきっかけ
    Cleanlab: Labeled Datasets that Correct Themselves Automatically // Curtis Northcutt //
    MLOps Coffee Sessions #105 https://anchor.fm/mlops/episodes/Cleanlab-Labeled-
    Datasets-that-Correct-Themselves-Automatically--Curtis-Northcutt--MLOps-Coffee-
    Sessions-105-e1k777l/a-a850eq6

    View Slide

  10. 論文の内容
    Confident Learning という
    手法を提案
    多クラス分類において、既
    存の手法よりも効率的にラ
    ベルの誤りを発見
    MNIST, ImageNet などのデ
    ータセットにラベルの誤り
    を実際に発見した
    Pervasive Label Errors in Test Sets Destabilize Machine Learning
    Benchmarks https://arxiv.org/abs/2103.14749

    View Slide

  11. 手法
    データセットを用いてモデ
    ルを訓練 & 推論 (k-fold)
    推論結果に Confident
    Learning を適用し、誤りが
    疑われるデータの一覧を作

    Amazon Mechanical Turk
    で改めてアノテーション
    Pervasive Label Errors in Test Sets Destabilize Machine Learning
    Benchmarks https://arxiv.org/abs/2103.14749

    View Slide

  12. 結果: データセットの誤り率
    Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749

    View Slide

  13. 結果: 提案のワークフローで発生する見逃し
    Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks https://arxiv.org/abs/2103.14749

    View Slide

  14. どうしようもない例
    右の画像は ImageNet で tick (ダニ)
    とラベル付けされたもの
    クラウドソーシングで scorpion とラ
    ベルが振り直された
    実際は Solifugae (ヒヨケムシ、クモ
    やサソリではない)

    View Slide

  15. TOC
    Data-centric AI 振り返り
    Confident Learning 概要
    実践 Confident Learning <-

    View Slide

  16. 背景
    画像から疾病の陽性/陰性を判定する機械学習モデルを構築中
    陽性/陰性の判定には高い専門性が必要なため、少数の専門家 (医療業務
    従事者) が画像をアノテーション
    構築したデータセットをもとに画像から陽性/陰性を判定するモデルを構

    テストデータにおいてモデルが誤った画像について、専門家に念のため
    の再確認したところ、機械学習モデルの判断のほうが正しかったという
    結果に

    View Slide

  17. 問題
    構築した画像データセットに誤りがどの程度含まれているのか不明
    データセットに含まれる画像が 4,000 件あり、今後も増える予定
    専門家が全件チェックするのは現実的でないし、全件チェックした結果
    を信用してよいのかどうかも不明

    View Slide

  18. 目標
    1. アノテーションの結果がどの程度信用できるのか見積もること
    2. データセットに含まれる誤りを効率的に修正するための手法を確立する
    こと

    View Slide

  19. Clean Lab
    Confident Learning の OSS
    実装
    Python から利用可能
    cleanlab/cleanlab https://github.com/cleanlab/cleanlab

    View Slide

  20. コード
    アルゴリズムはモデルの出力のみを用いるため、幅広い分類モデルを利
    用可能
    from cleanlab.filter import find_label_issues

    ordered_label_issues = find_label_issues(

    labels=labels,

    pred_probs=pred_probs,

    return_indices_ranked_by='self_confidence',

    )

    View Slide

  21. 結果
    画像 4000 枚から40件の誤りを特定、修正できた
    種別 枚数 割合
    全画像 4000 枚 100%
    Confident Learning により抽出した画像 250 枚 6.25%
    再レビューの結果、陽性/陰性が修正された件数 40 枚 1%

    View Slide

  22. 考察
    アノテーションの誤りは概ね正しく抽出できていると思われる
    今回のデータセットにおいて検出できた誤りは 1% 程度
    これは公開されている品質の高いデータセットとほとんど同じ
    アノテーションの誤りを効率的に修正する手法は確立できた
    レビュー対象を 4,000 枚から 250 枚 (6%) に集約できた
    見逃しもあると思われるため、データの収集と修正を繰り返し実施する
    必要性も明らかになった

    View Slide

  23. まとめ
    Confident Learning はラベルの誤りを発見することでデータの品質向上
    に取り組むアルゴリズム
    ImageNet などのデータセットに対してアルゴリズムを適用することで
    実際に誤りを発見
    アルゴリズムを実際のデータセットに適用してみたところ、誤りを発見
    し、修正できた

    View Slide