Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NeurIPS Data-Centric AI Workshop

Asei Sugiyama
February 13, 2022

NeurIPS Data-Centric AI Workshop

2021−12-14 に開かれた Data Centric AI Workshop の要約と感想です。気になった方はこちらから原典にあたってみてください。 https://datacentricai.org/

Asei Sugiyama

February 13, 2022
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. TOC Data Centric AI <- HCI and Crowdsourcing for DCAI

    DataPerf (pp. 347-) Technical Debt in ML: A Data-Centric View (pp. 761-) Finding millions of label errors with Cleanlab (pp. 972-) Lightning Talks 所感
  2. Data Centric AI A Chat with Andrew on MLOps Introduction

    to Machine Learning in Production Data-Centric AI Competition NeurIPS Data Centric AI Workshop Topics of Interest Invited Talks
  3. A Chat with Andrew on MLOps Andrew Ng が開催したオン ラインイベント

    アルゴリズムの変更より も、データの更新を行った ほうがモデルの性能が高ま った事例の共有 Q&A でモデルに関する議論 が発生 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI
  4. Introduction to Machine Learning in Production DeepLearning.AI による Coursera のコース

    機械学習プロジェクトにお けるデータ管理について、 Andrew Ng の経験を共有 非常に良いコース Introduction to Machine Learning in Production
  5. Topics of Interest New Datasets in areas Tools & methodologies

    Algorithms for working with limited labeled data and improving label efficiency Responsible AI development
  6. Invited Talks HCI and Crowdsourcing for DCAI Past/Future of data

    centric AI DataPerf - Benchmarking Data Centric AI FAIR Dynabench The Future of Data Centric AI Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab
  7. TOC Data Centric AI HCI and Crowdsourcing for DCAI <-

    DataPerf Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks 所感
  8. TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf

    <- Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks 所感
  9. TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf

    Technical Debt in ML: A Data-Centric View <- Finding millions of label errors with Cleanlab Lightning Talks 所感
  10. どうすべきか (1/2) Human Data Interaction データの品質の監査 Data sheets / Data

    cards の 作成 あるべき振る舞いの明確化 とその検証 信頼できる人にモデルを攻 撃し、壊してみるよう依頼
  11. TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf

    Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab <- Lightning Talks 所感
  12. Preserve Label Errors in Test Sets Destabilize Machine Learning Benchmarks

    MNIST のラベルの誤りを見 つける 5 (3)
  13. 手法 & 結果 1. Confident Leraning で怪し そうなものの候補を見つけ る 2.

    Amazon Mechanical Turk で人手で検証 平均して 3.4% のエラーが 見つかった
  14. TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf

    Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks <- 所感
  15. Lightning Talks Highly Efficient Representation and Active Learning Framework and

    Its Application to Imbalanced Medical Image Classification Sim2Real Docs: Domain Randomization for Documents in Natural Scenes using Ray-traced Rendering
  16. Highly Efficient Representation and Active Learning Framework and Its Application

    to Imbalanced Medical Image Classification ResNet-50 で作成した埋め 込みをもとに Gaussian Process で Active Learning COVID 患者の X 線写真デー タセットに適用 Highly Efficient Representation and Active Learning Framework and Its Application to Imbalanced Medical Image Classification
  17. Sim2Real Docs: Domain Randomization for Documents in Natural Scenes using

    Ray-traced Rendering 紙の撮影画像をシミュレー ションによって生成 Blender によりレイトレー スした画像を生成する Python ライブラリを提供
  18. TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf

    Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks 所感 <-
  19. Data-Centric AI は新しいものではない Data-Centric AI のコンペ参加者の感想「いつも仕事でやっていることと 同じだった」 問題設定としても Human in

    the Loop, Active Learning でやっているこ とにほぼ同じ よく使われているデータセットのラベルに誤りが含まれているのは既知