Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NeurIPS Data-Centric AI Workshop

Asei Sugiyama
February 13, 2022

NeurIPS Data-Centric AI Workshop

2021−12-14 に開かれた Data Centric AI Workshop の要約と感想です。気になった方はこちらから原典にあたってみてください。 https://datacentricai.org/

Asei Sugiyama

February 13, 2022
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. NeurIPS Data-Centric AI Workshop
    Asei Sugiyama

    View Slide

  2. 主旨
    NeurIPS Data-Centric AI Workshop の内容とその感想を共有します

    View Slide

  3. TOC
    Data Centric AI HCI and Crowdsourcing for DCAI
    DataPerf (pp. 347-)
    Technical Debt in ML: A Data-Centric View (pp. 761-)
    Finding millions of label errors with Cleanlab (pp. 972-)
    Lightning Talks
    所感

    View Slide

  4. Data Centric AI
    A Chat with Andrew on MLOps
    Introduction to Machine Learning in Production
    Data-Centric AI Competition
    NeurIPS Data Centric AI Workshop
    Topics of Interest
    Invited Talks

    View Slide

  5. A Chat with Andrew on
    MLOps
    Andrew Ng が開催したオン
    ラインイベント
    アルゴリズムの変更より
    も、データの更新を行った
    ほうがモデルの性能が高ま
    った事例の共有
    Q&A でモデルに関する議論
    が発生
    A Chat with Andrew on MLOps: From Model-centric to Data-centric AI

    View Slide

  6. Introduction to
    Machine Learning in
    Production
    DeepLearning.AI による
    Coursera のコース
    機械学習プロジェクトにお
    けるデータ管理について、
    Andrew Ng の経験を共有
    非常に良いコース
    Introduction to Machine Learning in Production

    View Slide

  7. Data-Centric AI
    Competition
    モデルを固定しデータを更
    新することでモデルの性能
    更新を行うコンペ
    個人やチームも参加
    Google Dialogflow の
    「Spreadshee で全部目視
    した」アプローチが好き
    Data-Centric AI Competition

    View Slide

  8. NeurIPS Data Centric
    AI Workshop
    Andrew Ng らによるオンラ
    インワークショップ
    2021-Dec-14 開催
    NeurIPS Data-Centric AI Workshop

    View Slide

  9. Topics of Interest
    New Datasets in areas
    Tools & methodologies
    Algorithms for working with limited labeled data and improving label
    efficiency
    Responsible AI development

    View Slide

  10. Invited Talks
    HCI and Crowdsourcing for DCAI
    Past/Future of data centric AI
    DataPerf - Benchmarking Data Centric AI
    FAIR Dynabench
    The Future of Data Centric AI
    Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab

    View Slide

  11. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI DataPerf
    Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab
    Lightning Talks
    所感

    View Slide

  12. HCI and Crowdsourcing for DCAI

    View Slide

  13. きれいなデータを
    どう手に入れる?
    きれいなデータは3
    倍程度効果的
    クラウドソーシン
    グで手に入ると思
    い込みがち
    API 経由で手に入
    ると思い込みがち

    View Slide

  14. アノテーターの訓練が必

    クラウドソーシングするよ
    りも雇用して訓練したほう
    が安上がりになる
    フィードバックすることが
    重要

    View Slide

  15. メンタルモデル
    システム開発とは異なる
    アノテーターに非があると
    考えるのではだめ
    アノテーターに説明が不足
    していると考えるべき

    View Slide

  16. 多数決ではだめ
    「有害だ」というラベルは
    38% の割合でアノテーター
    間で一致しない
    マイノリティの意見が覆い
    隠されてしまう

    View Slide

  17. アノテーターは評価されるべき

    View Slide

  18. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI
    DataPerf Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab
    Lightning Talks
    所感

    View Slide

  19. Data Perf

    View Slide

  20. MLPerf
    機械学習システムのベンチ
    マーク
    2021-12-01 に v1.1 の結果
    が公開

    View Slide

  21. Data Perf
    ML Commons のワーキング
    グループの1つ
    さまざまな組織が参加して
    いる

    View Slide

  22. Daggle is
    missing
    機械学習
    コンペは
    ある
    データセ
    ットコン
    ペはない

    View Slide

  23. Data Perf の目標
    データについてのベンチマ
    ークの提供

    View Slide

  24. 野望 (1/3)
    学習データとテス
    トデータを固定
    モデルを改善する
    のが現在のパラダ
    イム

    View Slide

  25. 野望 (2/3)
    モデルとテストデータを固
    定し学習データを改善 (上
    図)
    学習データとモデルを固定
    しテストデータを改善 (下
    図)

    View Slide

  26. 野望 (3/3)
    これらすべてを一
    気に改善できるよ
    うにしたい
    2023年辺りにはパ
    ラダイムを作って
    いきたい

    View Slide

  27. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI
    DataPerf
    Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab
    Lightning Talks
    所感

    View Slide

  28. Technical Debt in ML: A Data-Centric View

    View Slide

  29. 通常の意味で技術的負債を増加/減少させる要因

    View Slide

  30. 機械学習は複雑
    通常の問題に加えて、機械
    学習に固有の問題が現れる
    抽象化された境界や振る舞
    いが定義されていない
    リファクタリング、テス
    ト、検証がすべて困難また
    は不可能

    View Slide

  31. Behavior Debt
    データによって増える負債
    がある
    不都合でまれな挙動
    リーク
    過去の修正の対応
    etc.
    Train/Test を一様に分割して
    もこれらの挙動は検出でき
    ない

    View Slide

  32. どうすべきか (1/2)
    Human Data Interaction
    データの品質の監査
    Data sheets / Data cards の
    作成
    あるべき振る舞いの明確化
    とその検証
    信頼できる人にモデルを攻
    撃し、壊してみるよう依頼

    View Slide

  33. どうすべきか (2/2)
    因果関係の利用
    ストレステストのためのデ
    ータの作成と適用
    Counterfactual
    特定の目的のためのデ
    ータ
    適切に分割した
    Train/Test データ

    View Slide

  34. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI
    DataPerf
    Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab Lightning Talks
    所感

    View Slide

  35. Finding millions of label errors with Cleanlab

    View Slide

  36. Preserve Label Errors in
    Test Sets Destabilize
    Machine Learning
    Benchmarks
    MNIST のラベルの誤りを見
    つける
    5 (3)

    View Slide

  37. MNIST には誤りが存在
    しないと扱われがち
    学習用データセットには誤
    りが含まれるのは既知
    テスト用データセットも怪
    しい

    View Slide

  38. View Slide

  39. labelerrors.com
    いろいろなデータセットを
    見てみるとテスト用データ
    セットにも怪しいものが見
    つかる
    ImageNet
    QuickDraw
    Amazon Review
    etc.

    View Slide

  40. 手法 & 結果
    1. Confident Leraning で怪し
    そうなものの候補を見つけ

    2. Amazon Mechanical Turk
    で人手で検証
    平均して 3.4% のエラーが
    見つかった

    View Slide

  41. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI
    DataPerf
    Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab
    Lightning Talks 所感

    View Slide

  42. Lightning Talks
    Highly Efficient Representation and Active Learning Framework and Its
    Application to Imbalanced Medical Image Classification
    Sim2Real Docs: Domain Randomization for Documents in Natural
    Scenes using Ray-traced Rendering

    View Slide

  43. Highly Efficient
    Representation and Active
    Learning Framework and Its
    Application to Imbalanced
    Medical Image
    Classification
    ResNet-50 で作成した埋め
    込みをもとに Gaussian
    Process で Active Learning
    COVID 患者の X 線写真デー
    タセットに適用
    Highly Efficient Representation and Active Learning Framework and Its
    Application to Imbalanced Medical Image Classification

    View Slide

  44. Sim2Real Docs: Domain
    Randomization for
    Documents in Natural
    Scenes using Ray-traced
    Rendering
    紙の撮影画像をシミュレー
    ションによって生成
    Blender によりレイトレー
    スした画像を生成する
    Python ライブラリを提供

    View Slide

  45. TOC
    Data Centric AI
    HCI and Crowdsourcing for DCAI
    DataPerf
    Technical Debt in ML: A Data-Centric View
    Finding millions of label errors with Cleanlab
    Lightning Talks
    所感

    View Slide

  46. 所感
    Data-Centric AI は新しいものではない
    データセットの品質を図る手法の欠如
    もっと多様な現場の話を聞きたい

    View Slide

  47. Data-Centric AI は新しいものではない
    Data-Centric AI のコンペ参加者の感想「いつも仕事でやっていることと
    同じだった」
    問題設定としても Human in the Loop, Active Learning でやっているこ
    とにほぼ同じ
    よく使われているデータセットのラベルに誤りが含まれているのは既知

    View Slide

  48. データセットの品質を図る手法の欠如
    データセットそのものの品質を測る手段がない
    非構造化データの validation の手段も相変わらずない
    モデルを用いる方法はあるものの (Confident Learning) データセットの
    品質を測る方法はモデルと独立であってほしい
    Gaussian Process のように別のモデルを使うのは手ではあるものの、か
    んたんではない

    View Slide

  49. もっと多様な現場の話を聞きたい
    「大規模データセットをクラウドソーシングにより構築する」という問
    題意識が多いように感じる
    身の回りを見渡すと結構そうじゃない
    Public なデータセットと、産業特化のデータセットの中間の話を聞きた

    View Slide

  50. いろいろな話を聞くための活動をしていきます

    View Slide