Slide 6
Slide 6 text
データの品質改善のためのCleanlab
概要
2021年創業の米国スタートアップが提供するサービス。
Confident Learning[1]の技術がベース。
やれること
アノテーション済みデータのラベル誤りを自動で検出。
Confident Learningとは
学習済みモデルの高信頼度の推論結果を「真のラベル」とみなし、
アノテーションされたラベルとの混同行列を算出。
誤ったラベルの可能性が高いデータを特定。
事例
スペインのBBVA銀行の例では、取引内容を説明するテキストの
分類タスクにおいて、ラベルクリーニングにより精度が28%改善。
6
有償版のCleanlab Studio
修正まで一貫して行える
https://cleanlab.ai/
オープンソース版のcleanlab
テーブル・画像・テキストなど各種対応
https://github.com/cleanlab/cleanlab
[1] Curtisa Northcutt, Jiang Lu, and Chuang Isaac. “Confident Learning: Estimating
Uncertainty in Dataset Labels”. In: Journal of Artificial Intelligence Research 70 (2021).