NeurIPS Data-Centric AI Workshop

by Asei Sugiyama

Slide 1

Slide 1 text

NeurIPS Data-Centric AI Workshop Asei Sugiyama

Slide 2

Slide 2 text

主旨 NeurIPS Data-Centric AI Workshop の内容とその感想を共有します

Slide 3

Slide 3 text

TOC Data Centric AI <- HCI and Crowdsourcing for DCAI DataPerf (pp. 347-) Technical Debt in ML: A Data-Centric View (pp. 761-) Finding millions of label errors with Cleanlab (pp. 972-) Lightning Talks 所感

Slide 4

Slide 4 text

Data Centric AI A Chat with Andrew on MLOps Introduction to Machine Learning in Production Data-Centric AI Competition NeurIPS Data Centric AI Workshop Topics of Interest Invited Talks

Slide 5

Slide 5 text

A Chat with Andrew on MLOps Andrew Ng が開催したオンラインイベントアルゴリズムの変更よりも、データの更新を行ったほうがモデルの性能が高まった事例の共有 Q&A でモデルに関する議論が発生 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI

Slide 6

Slide 6 text

Introduction to Machine Learning in Production DeepLearning.AI による Coursera のコース機械学習プロジェクトにおけるデータ管理について、 Andrew Ng の経験を共有非常に良いコース Introduction to Machine Learning in Production

Slide 7

Slide 7 text

Data-Centric AI Competition モデルを固定しデータを更新することでモデルの性能更新を行うコンペ個人やチームも参加 Google Dialogflow の「Spreadshee で全部目視した」アプローチが好き Data-Centric AI Competition

Slide 8

Slide 8 text

NeurIPS Data Centric AI Workshop Andrew Ng らによるオンラインワークショップ 2021-Dec-14 開催 NeurIPS Data-Centric AI Workshop

Slide 9

Slide 9 text

Topics of Interest New Datasets in areas Tools & methodologies Algorithms for working with limited labeled data and improving label efficiency Responsible AI development

Slide 10

Slide 10 text

Invited Talks HCI and Crowdsourcing for DCAI Past/Future of data centric AI DataPerf - Benchmarking Data Centric AI FAIR Dynabench The Future of Data Centric AI Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab

Slide 11

Slide 11 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI <- DataPerf Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks 所感

Slide 12

Slide 12 text

HCI and Crowdsourcing for DCAI

Slide 13

Slide 13 text

きれいなデータをどう手に入れる？きれいなデータは3 倍程度効果的クラウドソーシングで手に入ると思い込みがち API 経由で手に入ると思い込みがち

Slide 14

Slide 14 text

アノテーターの訓練が必要クラウドソーシングするよりも雇用して訓練したほうが安上がりになるフィードバックすることが重要

Slide 15

Slide 15 text

メンタルモデルシステム開発とは異なるアノテーターに非があると考えるのではだめアノテーターに説明が不足していると考えるべき

Slide 16

Slide 16 text

多数決ではだめ「有害だ」というラベルは 38% の割合でアノテーター間で一致しないマイノリティの意見が覆い隠されてしまう

Slide 17

Slide 17 text

アノテーターは評価されるべき

Slide 18

Slide 18 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf <- Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks 所感

Slide 19

Slide 19 text

Data Perf

Slide 20

Slide 20 text

MLPerf 機械学習システムのベンチマーク 2021-12-01 に v1.1 の結果が公開

Slide 21

Slide 21 text

Data Perf ML Commons のワーキンググループの1つさまざまな組織が参加している

Slide 22

Slide 22 text

Daggle is missing 機械学習コンペはあるデータセットコンペはない

Slide 23

Slide 23 text

Data Perf の目標データについてのベンチマークの提供

Slide 24

Slide 24 text

野望 (1/3) 学習データとテストデータを固定モデルを改善するのが現在のパラダイム

Slide 25

Slide 25 text

野望 (2/3) モデルとテストデータを固定し学習データを改善 (上図) 学習データとモデルを固定しテストデータを改善 (下図)

Slide 26

Slide 26 text

野望 (3/3) これらすべてを一気に改善できるようにしたい 2023年辺りにはパラダイムを作っていきたい

Slide 27

Slide 27 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf Technical Debt in ML: A Data-Centric View <- Finding millions of label errors with Cleanlab Lightning Talks 所感

Slide 28

Slide 28 text

Technical Debt in ML: A Data-Centric View

Slide 29

Slide 29 text

通常の意味で技術的負債を増加/減少させる要因

Slide 30

Slide 30 text

機械学習は複雑通常の問題に加えて、機械学習に固有の問題が現れる抽象化された境界や振る舞いが定義されていないリファクタリング、テスト、検証がすべて困難または不可能

Slide 31

Slide 31 text

Behavior Debt データによって増える負債がある不都合でまれな挙動リーク過去の修正の対応 etc. Train/Test を一様に分割してもこれらの挙動は検出できない

Slide 32

Slide 32 text

どうすべきか (1/2) Human Data Interaction データの品質の監査 Data sheets / Data cards の作成あるべき振る舞いの明確化とその検証信頼できる人にモデルを攻撃し、壊してみるよう依頼

Slide 33

Slide 33 text

どうすべきか (2/2) 因果関係の利用ストレステストのためのデータの作成と適用 Counterfactual 特定の目的のためのデータ適切に分割した Train/Test データ

Slide 34

Slide 34 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab <- Lightning Talks 所感

Slide 35

Slide 35 text

Finding millions of label errors with Cleanlab

Slide 36

Slide 36 text

Preserve Label Errors in Test Sets Destabilize Machine Learning Benchmarks MNIST のラベルの誤りを見つける 5 (3)

Slide 37

Slide 37 text

MNIST には誤りが存在しないと扱われがち学習用データセットには誤りが含まれるのは既知テスト用データセットも怪しい

Slide 38

Slide 38 text

No content

Slide 39

Slide 39 text

labelerrors.com いろいろなデータセットを見てみるとテスト用データセットにも怪しいものが見つかる ImageNet QuickDraw Amazon Review etc.

Slide 40

Slide 40 text

手法 & 結果 1. Confident Leraning で怪しそうなものの候補を見つける 2. Amazon Mechanical Turk で人手で検証平均して 3.4% のエラーが見つかった

Slide 41

Slide 41 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks <- 所感

Slide 42

Slide 42 text

Lightning Talks Highly Efficient Representation and Active Learning Framework and Its Application to Imbalanced Medical Image Classification Sim2Real Docs: Domain Randomization for Documents in Natural Scenes using Ray-traced Rendering

Slide 43

Slide 43 text

Highly Efficient Representation and Active Learning Framework and Its Application to Imbalanced Medical Image Classification ResNet-50 で作成した埋め込みをもとに Gaussian Process で Active Learning COVID 患者の X 線写真データセットに適用 Highly Efficient Representation and Active Learning Framework and Its Application to Imbalanced Medical Image Classification

Slide 44

Slide 44 text

Sim2Real Docs: Domain Randomization for Documents in Natural Scenes using Ray-traced Rendering 紙の撮影画像をシミュレーションによって生成 Blender によりレイトレースした画像を生成する Python ライブラリを提供

Slide 45

Slide 45 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks 所感 <-

Slide 46

Slide 46 text

所感 Data-Centric AI は新しいものではないデータセットの品質を図る手法の欠如もっと多様な現場の話を聞きたい

Slide 47

Slide 47 text

Data-Centric AI は新しいものではない Data-Centric AI のコンペ参加者の感想「いつも仕事でやっていることと同じだった」問題設定としても Human in the Loop, Active Learning でやっていることにほぼ同じよく使われているデータセットのラベルに誤りが含まれているのは既知

Slide 48

Slide 48 text

データセットの品質を図る手法の欠如データセットそのものの品質を測る手段がない非構造化データの validation の手段も相変わらずないモデルを用いる方法はあるものの (Confident Learning) データセットの品質を測る方法はモデルと独立であってほしい Gaussian Process のように別のモデルを使うのは手ではあるものの、かんたんではない

Slide 49

Slide 49 text

もっと多様な現場の話を聞きたい「大規模データセットをクラウドソーシングにより構築する」という問題意識が多いように感じる身の回りを見渡すと結構そうじゃない Public なデータセットと、産業特化のデータセットの中間の話を聞きたい

Slide 50

Slide 50 text

いろいろな話を聞くための活動をしていきます