データの品質が低いと何が困るのか

第1章 Data-centric AIの概要データの品質が低いと何が困るのか第13回 Data-Centric AI勉強会 ~Data-centric AI入門著者LT大会~

自己紹介 2 宮澤一之 GO株式会社 AI技術開発部 AI研究開発第二グループグループマネージャー経歴 April
2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 @kzykmyzw

第1章 Data-centric AIの概要 1.1　Data-centric AIとは ……………………………………… 1.1.1　Model-centric AIとData-centric AI 1.1.2　ラベルの一貫性
1.1.3　データセットサイズとデータ品質との関係 1.1.4　MLOpsの役割 1.1.5　ビッグデータからグッドデータへ 1.1.6　まとめ 1.2　データセットのサイズとモデルの性能の関係 …………… 1.3　データの品質の重要性 ……………………………………… 1.3.1　AIシステムにおける品質特性 1.3.2　データの品質が与える影響 1.4　おわりに 3 Data-centric AIという考え方を世に広めるきっかけとなった2021年3月のAndrew Ng先生による講演を基に Data-centric AIの概要を説明 https://www.youtube.com/live/06-AZXmwHjo ニューラルネットワークのスケーリング則を通してデータセットのサイズの重要性について説明 AI開発のための標準的なガイドラインを参照してAI開発におけるデータの品質について説明し、データの品質に関する研究例を挙げて品質の重要性についてより具体的に理解

データの品質が低いと何が困るのか 4 データの品質が低いと、AIの開発や運用においてさまざまな問題が発生します。以下に主要な点を挙げます。モデルの精度低下ノイズが多い、あるいは誤ったラベルが付与されたデータで学習すると、AIモデルは正確なパターンを捉えることが難しくなり、結果として予測精度や分類精度が大幅に低下します。バイアスの導入偏ったデータや不均衡なデータセットを使用すると、特定のグループに対するバイアスがモデルに反映され、結果として不公平な判断や偏見を含む出力が生成されるリスクが高まります。過学習または未学習のリスク
データの質が低いと、モデルが一部の誤ったパターンに過度に適応してしまう「過学習」が発生したり、必要な情報を十分に学習できずに「未学習」の状態になる可能性があります。どちらも実際のデータに対して適切な予測を行う妨げとなります。汎用性の低下トレーニングデータが現実世界の多様な状況を十分に反映していない場合、実運用時に遭遇するデータに対してうまく対応できず、性能が大きく低下する可能性があります。エラーや誤判断のリスク増大欠損値やエラーの多いデータで学習を行うと、AIシステムが誤った判断を下すリスクが高まり、特に医療、金融、交通などのクリティカルな分野では深刻な問題を引き起こす可能性があります。これらの理由から、AI開発においてはデータの収集段階から品質管理、前処理、クリーニングを徹底することが極めて重要となります。高品質なデータを用いることで、モデルの信頼性や汎用性が向上し、実際の応用においても安全かつ効果的なパフォーマンスが期待できます。 AIの開発において、データの品質が低いと何が困りますか？ ChatGPT o3-mini-high

データの品質が低いと何が困るのか 5 データの品質が低いと、AIの開発や運用においてさまざまな問題が発生します。以下に主要な点を挙げます。モデルの精度低下ノイズが多い、あるいは誤ったラベルが付与されたデータで学習すると、AIモデルは正確なパターンを捉えることが難しくなり、結果として予測精度や分類精度が大幅に低下します。バイアスの導入偏ったデータや不均衡なデータセットを使用すると、特定のグループに対するバイアスがモデルに反映され、結果として不公平な判断や偏見を含む出力が生成されるリスクが高まります。過学習または未学習のリスク
データの質が低いと、モデルが一部の誤ったパターンに過度に適応してしまう「過学習」が発生したり、必要な情報を十分に学習できずに「未学習」の状態になる可能性があります。どちらも実際のデータに対して適切な予測を行う妨げとなります。汎用性の低下トレーニングデータが現実世界の多様な状況を十分に反映していない場合、実運用時に遭遇するデータに対してうまく対応できず、性能が大きく低下する可能性があります。エラーや誤判断のリスク増大欠損値やエラーの多いデータで学習を行うと、AIシステムが誤った判断を下すリスクが高まり、特に医療、金融、交通などのクリティカルな分野では深刻な問題を引き起こす可能性があります。これらの理由から、AI開発においてはデータの収集段階から品質管理、前処理、クリーニングを徹底することが極めて重要となります。高品質なデータを用いることで、モデルの信頼性や汎用性が向上し、実際の応用においても安全かつ効果的なパフォーマンスが期待できます。 AIの開発において、データの品質が低いと何が困りますか？ ChatGPT o3-mini-high CIFAR-10データセット（10クラス）学習データのラベルの一部をランダムに他クラスに置き換えてノイズを加えるノイズ割合テストデータのエラー率当てずっぽう C. Zhang+, Understanding deep learning requires rethinking generalization, ICLR 2017 https://www.cs.toronto.edu/~kriz/cifar.html 図表は論文からの引用（一部編集を含む）です

テストデータの品質に着目した研究 6 テストデータにおけるラベルミスの蔓延による機械学習ベンチマークの不安定化 NeurIPS 2021 Paper Code • 10種類の機械学習ベンチマークのテストデータに広くラベルミスが存在することを発見 •
テストデータのラベルミスがベンチマーク結果に与える影響を分析し、高性能なモデルほど誤ったラベルを持つデータに対して高い精度を示す一方、ラベルを修正すると精度が低下することを発見 • 低品質なテストデータが誤ったモデル選択や無意味な性能改善への投資につながる可能性を示唆

機械学習ベンチマークにおけるラベルミスの特定 7 • 10種類の機械学習ベンチマークデータセットのテストデータにおけるラベルミスを特定 • 研究目的で広く一般に使われてきたベンチマークのテストデータに平均3.3%のラベルミスが存在 • 予算や時間の制約が厳しい実応用のデータセット構築ではラベルミスはさらに混入しやすくなる 1. Confident
Learning*でラベルミスの可能性が高いサンプルを候補として特定 2. 全て or 一部の候補に対して実際にラベルミスかどうかをクラウドソーシングにより人間が確認 3. 2. の結果を基に各ベンチマークのテストデータにおけるラベルミスの割合を計算特定されたラベルミスの例各ベンチマークのテストデータにおけるラベルミスの割合 * C. Northcutt+, Confident learning: Estimating uncertainty in dataset labels, Journal of Artificial Intelligence Research, 2021 図表は論文からの引用（一部編集を含む）です

ラベルミスの修正によるベンチマーク結果の変化 8 画像分類ベンチマーク（ImageNet、CIFAR-10）でパラメータ数の異なる複数のモデルを比較した結果 A vs. B C vs. C’ C
vs. C’ • A vs. B：オリジナルのテストデータではキャパシティ（≒ パラメータ数）が大きいモデルほど高い性能を示し、テストデータからラベルミスを取り除いてもその傾向は維持される • C vs. C’：ラベルが誤ったままの状態ではキャパシティが大きいモデルほど高い性能を示すが、正しいラベルに修正すると傾向が逆転する（Nasnetは34モデル中1位→29位に転落）約12M 約88M 図表は論文からの引用（一部編集を含む）ですラベルミスなし: B ラベルミスあり: C テストデータ（オリジナル）: A ラベルミスなし: C’ ミスを修正

考察と課題提起 9 • 一般的に性能が高いとされているキャパシティが大きいモデルは、テストデータにおける誤ったラベルを誤ったまま予測してしまう傾向にある • 統一的なプロセスで構築されたデータセットから学習データとテストデータを分離する場合、元のデータセットにシステマティックなノイズがあるとそれが両データに伝搬する • キャパシティが大きいモデルは、学習データに存在するノイズパターンを学習してしまい、結果と
してテストデータに同様に存在するノイズパターンも予測できるようになるノイズの割合が大きい低品質なデータセットではこの傾向がさらに強くなり、ノイズへの過適合と本質的な性能改善を区別できず、前者は不適切なモデルのデプロイや無意味な性能改善への投資につながる

まとめ 10 • 広く一般に使われている10種類の機械学習ベンチマークのテストデータにおいて、平均して3.3%のラベルミスが存在 • ベンチマークにおいて高い性能を示すように見えるキャパシティの大きいモデルは、データセット全体に存在するノイズパターンを学習してしまっている可能性がある • テストデータの品質低下は、複数のモデルから最適な（最も汎化性能が高いと思われる）モデルを
選ぶ際に誤ったモデルの選択や、ベンチマーク結果だけを頼りにModel-centricなアプローチを続けた際に無意味な投資につながる • Conﬁdent Learningなどの利用により誤ったラベルを持つサンプルを特定して修正するほか、あらかじめテストデータ構築のためのリソースを大きく確保しておき（学習データよりも）高品質なテストデータを準備するなどの解決策が考えられる他の事例や話題など、AI開発におけるデータ品質の重要性に関してより詳しく知りたい方はぜひ書籍をご参照ください！

データの品質が低いと何が困るのか

データの品質が低いと何が困るのか

Kazuyuki Miyazawa

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Featured

Transcript

第1章 Data-centric AIの概要データの品質が低いと何が困るのか第13回 Data-Centric AI勉強会 ~Data-centric AI入門著者LT大会~

自己紹介 2 宮澤一之 GO株式会社 AI技術開発部 AI研究開発第二グループグループマネージャー経歴 April

第1章 Data-centric AIの概要 1.1　Data-centric AIとは ……………………………………… 1.1.1　Model-centric AIとData-centric AI 1.1.2　ラベルの一貫性

ラベルミスの修正によるベンチマーク結果の変化 8 画像分類ベンチマーク（ImageNet、CIFAR-10）でパラメータ数の異なる複数のモデルを比較した結果 A vs. B C vs. C’ C