Slide 1

Slide 1 text

NeurIPS Data-Centric AI Workshop Asei Sugiyama

Slide 2

Slide 2 text

主旨 NeurIPS Data-Centric AI Workshop の内容とその感想を共有します

Slide 3

Slide 3 text

TOC Data Centric AI <- HCI and Crowdsourcing for DCAI DataPerf (pp. 347-) Technical Debt in ML: A Data-Centric View (pp. 761-) Finding millions of label errors with Cleanlab (pp. 972-) Lightning Talks 所感

Slide 4

Slide 4 text

Data Centric AI A Chat with Andrew on MLOps Introduction to Machine Learning in Production Data-Centric AI Competition NeurIPS Data Centric AI Workshop Topics of Interest Invited Talks

Slide 5

Slide 5 text

A Chat with Andrew on MLOps Andrew Ng が開催したオン ラインイベント アルゴリズムの変更より も、データの更新を行った ほうがモデルの性能が高ま った事例の共有 Q&A でモデルに関する議論 が発生 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI

Slide 6

Slide 6 text

Introduction to Machine Learning in Production DeepLearning.AI による Coursera のコース 機械学習プロジェクトにお けるデータ管理について、 Andrew Ng の経験を共有 非常に良いコース Introduction to Machine Learning in Production

Slide 7

Slide 7 text

Data-Centric AI Competition モデルを固定しデータを更 新することでモデルの性能 更新を行うコンペ 個人やチームも参加 Google Dialogflow の 「Spreadshee で全部目視 した」アプローチが好き Data-Centric AI Competition

Slide 8

Slide 8 text

NeurIPS Data Centric AI Workshop Andrew Ng らによるオンラ インワークショップ 2021-Dec-14 開催 NeurIPS Data-Centric AI Workshop

Slide 9

Slide 9 text

Topics of Interest New Datasets in areas Tools & methodologies Algorithms for working with limited labeled data and improving label efficiency Responsible AI development

Slide 10

Slide 10 text

Invited Talks HCI and Crowdsourcing for DCAI Past/Future of data centric AI DataPerf - Benchmarking Data Centric AI FAIR Dynabench The Future of Data Centric AI Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab

Slide 11

Slide 11 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI <- DataPerf Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks 所感

Slide 12

Slide 12 text

HCI and Crowdsourcing for DCAI

Slide 13

Slide 13 text

きれいなデータを どう手に入れる? きれいなデータは3 倍程度効果的 クラウドソーシン グで手に入ると思 い込みがち API 経由で手に入 ると思い込みがち

Slide 14

Slide 14 text

アノテーターの訓練が必 要 クラウドソーシングするよ りも雇用して訓練したほう が安上がりになる フィードバックすることが 重要

Slide 15

Slide 15 text

メンタルモデル システム開発とは異なる アノテーターに非があると 考えるのではだめ アノテーターに説明が不足 していると考えるべき

Slide 16

Slide 16 text

多数決ではだめ 「有害だ」というラベルは 38% の割合でアノテーター 間で一致しない マイノリティの意見が覆い 隠されてしまう

Slide 17

Slide 17 text

アノテーターは評価されるべき

Slide 18

Slide 18 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf <- Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks 所感

Slide 19

Slide 19 text

Data Perf

Slide 20

Slide 20 text

MLPerf 機械学習システムのベンチ マーク 2021-12-01 に v1.1 の結果 が公開

Slide 21

Slide 21 text

Data Perf ML Commons のワーキング グループの1つ さまざまな組織が参加して いる

Slide 22

Slide 22 text

Daggle is missing 機械学習 コンペは ある データセ ットコン ペはない

Slide 23

Slide 23 text

Data Perf の目標 データについてのベンチマ ークの提供

Slide 24

Slide 24 text

野望 (1/3) 学習データとテス トデータを固定 モデルを改善する のが現在のパラダ イム

Slide 25

Slide 25 text

野望 (2/3) モデルとテストデータを固 定し学習データを改善 (上 図) 学習データとモデルを固定 しテストデータを改善 (下 図)

Slide 26

Slide 26 text

野望 (3/3) これらすべてを一 気に改善できるよ うにしたい 2023年辺りにはパ ラダイムを作って いきたい

Slide 27

Slide 27 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf Technical Debt in ML: A Data-Centric View <- Finding millions of label errors with Cleanlab Lightning Talks 所感

Slide 28

Slide 28 text

Technical Debt in ML: A Data-Centric View

Slide 29

Slide 29 text

通常の意味で技術的負債を増加/減少させる要因

Slide 30

Slide 30 text

機械学習は複雑 通常の問題に加えて、機械 学習に固有の問題が現れる 抽象化された境界や振る舞 いが定義されていない リファクタリング、テス ト、検証がすべて困難また は不可能

Slide 31

Slide 31 text

Behavior Debt データによって増える負債 がある 不都合でまれな挙動 リーク 過去の修正の対応 etc. Train/Test を一様に分割して もこれらの挙動は検出でき ない

Slide 32

Slide 32 text

どうすべきか (1/2) Human Data Interaction データの品質の監査 Data sheets / Data cards の 作成 あるべき振る舞いの明確化 とその検証 信頼できる人にモデルを攻 撃し、壊してみるよう依頼

Slide 33

Slide 33 text

どうすべきか (2/2) 因果関係の利用 ストレステストのためのデ ータの作成と適用 Counterfactual 特定の目的のためのデ ータ 適切に分割した Train/Test データ

Slide 34

Slide 34 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab <- Lightning Talks 所感

Slide 35

Slide 35 text

Finding millions of label errors with Cleanlab

Slide 36

Slide 36 text

Preserve Label Errors in Test Sets Destabilize Machine Learning Benchmarks MNIST のラベルの誤りを見 つける 5 (3)

Slide 37

Slide 37 text

MNIST には誤りが存在 しないと扱われがち 学習用データセットには誤 りが含まれるのは既知 テスト用データセットも怪 しい

Slide 38

Slide 38 text

No content

Slide 39

Slide 39 text

labelerrors.com いろいろなデータセットを 見てみるとテスト用データ セットにも怪しいものが見 つかる ImageNet QuickDraw Amazon Review etc.

Slide 40

Slide 40 text

手法 & 結果 1. Confident Leraning で怪し そうなものの候補を見つけ る 2. Amazon Mechanical Turk で人手で検証 平均して 3.4% のエラーが 見つかった

Slide 41

Slide 41 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks <- 所感

Slide 42

Slide 42 text

Lightning Talks Highly Efficient Representation and Active Learning Framework and Its Application to Imbalanced Medical Image Classification Sim2Real Docs: Domain Randomization for Documents in Natural Scenes using Ray-traced Rendering

Slide 43

Slide 43 text

Highly Efficient Representation and Active Learning Framework and Its Application to Imbalanced Medical Image Classification ResNet-50 で作成した埋め 込みをもとに Gaussian Process で Active Learning COVID 患者の X 線写真デー タセットに適用 Highly Efficient Representation and Active Learning Framework and Its Application to Imbalanced Medical Image Classification

Slide 44

Slide 44 text

Sim2Real Docs: Domain Randomization for Documents in Natural Scenes using Ray-traced Rendering 紙の撮影画像をシミュレー ションによって生成 Blender によりレイトレー スした画像を生成する Python ライブラリを提供

Slide 45

Slide 45 text

TOC Data Centric AI HCI and Crowdsourcing for DCAI DataPerf Technical Debt in ML: A Data-Centric View Finding millions of label errors with Cleanlab Lightning Talks 所感 <-

Slide 46

Slide 46 text

所感 Data-Centric AI は新しいものではない データセットの品質を図る手法の欠如 もっと多様な現場の話を聞きたい

Slide 47

Slide 47 text

Data-Centric AI は新しいものではない Data-Centric AI のコンペ参加者の感想「いつも仕事でやっていることと 同じだった」 問題設定としても Human in the Loop, Active Learning でやっているこ とにほぼ同じ よく使われているデータセットのラベルに誤りが含まれているのは既知

Slide 48

Slide 48 text

データセットの品質を図る手法の欠如 データセットそのものの品質を測る手段がない 非構造化データの validation の手段も相変わらずない モデルを用いる方法はあるものの (Confident Learning) データセットの 品質を測る方法はモデルと独立であってほしい Gaussian Process のように別のモデルを使うのは手ではあるものの、か んたんではない

Slide 49

Slide 49 text

もっと多様な現場の話を聞きたい 「大規模データセットをクラウドソーシングにより構築する」という問 題意識が多いように感じる 身の回りを見渡すと結構そうじゃない Public なデータセットと、産業特化のデータセットの中間の話を聞きた い

Slide 50

Slide 50 text

いろいろな話を聞くための活動をしていきます