$30 off During Our Annual Pro Sale. View Details »

高品質な教師データ作成のポイント

eisuke-ueta
September 30, 2022

 高品質な教師データ作成のポイント

eisuke-ueta

September 30, 2022
Tweet

More Decks by eisuke-ueta

Other Decks in Technology

Transcript

  1. © 2022 FastLabel Inc. All Rights Reserved. ⾼品質な教師データ作成のポイント テキストアノテーションウェビナー 2022.09.30,

    FastLabel Inc. 1
  2. © 2022 FastLabel Inc. All Rights Reserved. 1. ファストラベルについて 1.

    企業情報 2. 沿⾰ 3. AI開発における課題 4. 実績推移 2. サービス紹介 1. サービススコープ 2. 対応データ 3. データセントリックな開発⼿法 1. データセントリックとは︖ 2. データセントリックのメリット 3. 具体例 4. 事例紹介 1. 商談システム会社様 5. 最後に アジェンダ 2
  3. © 2022 FastLabel Inc. All Rights Reserved. ファストラベルについて 3

  4. © 2022 FastLabel Inc. All Rights Reserved. ファストラベルについて 4 企業情報

    AI⾰命の インフラになる - Infrastructure for AI Innovations - Our Mission 社名 ︓ FastLabel株式会社 / FastLabel Inc. 代表者 ︓ 上⽥ 英介 / Eisuke Ueta 設⽴⽇ ︓ 2020年1⽉23⽇ 従業員 ︓ 20名(うち役員、正社員14名) 株主 ︓ ジャフコグループ株式会社、 Sony Innovation Fund 株式会社NTTドコモ・ベンチャーズ 他 資本⾦ ︓ 2.4億円 事業 ︓ アノテーションサービス代⾏、アノテーション プラットフォーム等の開発・提供 「AI⾰命のインフラになる」をミッションに、AIエンジニアが⽴ち上げたスタートアップになります。
  5. © 2022 FastLabel Inc. All Rights Reserved. 2020年1⽉の創業以降、ソニー様・NTTドコモ様のアクセラレータプログラムに参加しながら、プロダクトを開発。 AI ×

    SaaS スタートアップとして⾼い評価を頂戴しています。 5 創業 2020年 01⽉ Incubate Camp 13th 決勝ラウンド進出 2020年 10⽉ シードラウンド6,500万円 資⾦調達 2021年 02⽉ NTTドコモ・ベンチャーズ インキュベーションプログラム採択 2021年 07⽉ ICCサミット KYOTO2021 スタートアップ・カタパルト⼊賞 2021年 09⽉ SSAP Startup Switch2021 ソニー賞準グランプリ 2021年 10⽉ TechCrunch Tokyo 2021 スタートアップバトルBMW賞 2021年 12⽉ シリーズAラウンド4.6億円資⾦調達 2022年 08⽉ ファストラベルについて 沿⾰
  6. © 2022 FastLabel Inc. All Rights Reserved. アルゴリズムのコモディティ化が進む反⾯、教師データ作成プロセス(=アノテーション)におけるイノベーションは発⽣して いないのが実情です。 6

    AI開発プロセス 最新アルゴリズムが OSSで公開 AWS や GCP などクラウドサービスの機能が 急激に拡充 イノベーションの不在 AI 開発全体の 80% の時間が費やされているにもかかわらず効率化が⾏われていない… 推論 学習・評価 アルゴリズム 開発 教師データ作成 (アノテーション) 出展︓https://forbesjapan.com/articles/detail/42149 ファストラベルについて AI開発における課題
  7. © 2022 FastLabel Inc. All Rights Reserved. 累計で1,000万件以上のアノテーション代⾏実績を有しており、画像・動画・⾳声・テキスト・3D等、全てのアノテー ション種類に対応させて頂いております。 7

    1,000万件 500万件 0件 2021年 1Q 2021年 2Q 2021年 3Q 2021年 4Q 2022 1Q 2022 2Q 1,200万件 前年度⽐40倍のアノテーション実績 ファストラベルについて 実績推移
  8. © 2022 FastLabel Inc. All Rights Reserved. サービス紹介 8

  9. © 2022 FastLabel Inc. All Rights Reserved. サービス紹介 データセントリックなAI開発における、データ収集・⽣成〜アノテーション〜学習・評価の全プロセスをカバー可能な、 各種サービスを御提供しています。

    9 サービススコープ 収集 ⽣成・加⼯ アノテーション ⾃動化 学習・評価 Data-Centric ML Pipeline 合成データ (Coming Soon) マスキング (Coming Soon) データ収集 データ販売 アノテーション 代⾏ ⾃動 アノテーション モデル学習 モデル評価 アノテーションツール FastLabel Service Scope
  10. © 2022 FastLabel Inc. All Rights Reserved. サービス紹介 2021年10⽉に画像・動画データに対応したツールを正式リリース。2022年に⼊ってからは、テキスト・⾳声・3Dデー タに対応し、様々なデータを扱うことが可能です。

    10 対応データ 画像 動画 3D (点群) テキスト ⾳声 ü JPEG ü PNG ü TIFF ü BMP ü DCM ü PDF ü MP4(H.264) ü MOV ü AVI ü PCD ü PLY ü TXT ü CSV ü MP3 ü WAV ü M4A ※ 上記機能は2022年8⽉時点の内容となり、随時追加・変更の可能性がございます。
  11. © 2022 FastLabel Inc. All Rights Reserved. サービス紹介 テキストアノテーションでは、テキスト分類、固有表現抽出、AI-OCRなど様々なアノテーションに対応しています。 11

    対応データ テキスト分類 固有表現抽出 会話コーパス AI-OCR
  12. © 2022 FastLabel Inc. All Rights Reserved. データセントリックな開発⼿法 12

  13. © 2022 FastLabel Inc. All Rights Reserved. データセントリックな開発⼿法 スタンフォード⼤学のアンドリュー教授が提唱する「データセントリック」なAI開発がアメリカでは主流になりつつある。アノ テーションするだけでAI開発が可能で、現場主導でAI導⼊を推進。

    13 データセントリックとは︖ Andrew Ng Google Brainの共同設 ⽴者、Baiduの元副社⻑ 兼チーフサイエンティスト、ス タンフォード⼤学教授。 従来のAI開発 (モデルセントリック) これからのAI開発 (データセントリック) アルゴリズムを変更して AIの精度を改善 Big Dataが必要 (⼤量のデータ) データを変更して AIの精度を改善 Good Dataが必要 (質の⾼い少量のデータ) AIエンジニアが主導 業務知識のある⼈材が主導
  14. © 2022 FastLabel Inc. All Rights Reserved. データセントリックな開発⼿法 鉄鋼製品の⽋陥を検知するプロジェクト(⽬標精度90%)の事例をもとに、データセントリックなAI開発のメリットを ご紹介します。

    14 データセントリックのメリット
  15. © 2022 FastLabel Inc. All Rights Reserved. データセントリックな開発⼿法 ベースラインは76.2%の精度(⽬標90%)でモデルセントリックとデータセントリックの2つチームをわけて3ヶ⽉改善 実施した結果。データセントリックなアプローチをしたチームは約17%の精度改善に成功

    15 データセントリックのメリット 100% 50% 0% ベースライン 76.2% 93.1% 76.2% モデルセントリック データセントリック +0% +16.9%
  16. © 2022 FastLabel Inc. All Rights Reserved. データセントリックな開発⼿法 アノテーションの基準が、作業者間でズレてしまうと、AIの精度が⼤幅に下がる。データセットに対して12%ノイズが含 まれると、精度がおよそ10%低下する。

    16 具体例 元データ 作業者A 作業者B 作業者C
  17. © 2022 FastLabel Inc. All Rights Reserved. データセントリックな開発⼿法 質の⾼いデータセットを作ることで少ないデータでも良い精度の実現が可能。 17

    具体例 クリーンなデータは500件に対し てノイズのあるデータでは、約3倍 の1500件データが必要でコスト がかかる。 FastLabelではクリーンなデータ を作るための機能やサービスが充 実。
  18. © 2022 FastLabel Inc. All Rights Reserved. 事例紹介 18

  19. © 2022 FastLabel Inc. All Rights Reserved. 事例紹介 オンライン商談システム開発会社様で、商談時の顧客の反応がポジティブかネガティブを解析するAIを開発(会話の ⾳声データを⽂字に書き起こして⾃然⾔語で解析)。

    19 オンライン商談システム会社様 商談 会話内容 営業担当者︓XX製品ですが、貴社でご導⼊頂けそうでしょうか︖ お客様︓ご説明ありがとうございます。社内で検討させて頂きます。 お客様の反応がポジティブかネガティブかの判断が⼈によっ て異なっており、AIの精度が低くなるという課題があった。 社内でアルバイトを雇ってアノテーションを実施していたが、エ ンジニアによる管理⼯数も確保できない。 • データ数︓20,000⽂章 • クラス︓ポジティブ、ネガティブ、不明の3つ • 期間︓1ヶ⽉
  20. © 2022 FastLabel Inc. All Rights Reserved. 事例紹介 FastLabelがアノテーション作業をまるっと代⾏。オンボーディング機能によって、作業者がアノテーションを開始する前 に事前にテストを実施し、合格した作業者だけを実プロジェクトにアサインすることでデータ品質の均⼀化を実現。

    20 オンライン商談システム会社様 要件定義 アノテーション 納品 オンボーディング レビュー Aさん Bさん Cさん マニュアルを作成し、事前に 正解ラベルを定義したタスク を登録 登録した正解ラベルをもとに テストを実施し、全て正解 した⼈だけ実作業が可能。 実際のデータに対してアノ テーションを実施。 QAチームがアノテーション データが品質基準を満たし ているかチェック。 プラットフォーム上でデータを 納品、顧客が内容をチェッ ク。 Aさん Bさん 合格 合格 不合格 再度研修・オンボーディ ングを実施し、合格で きるまでアサイン不可 アノテーションフロー
  21. © 2022 FastLabel Inc. All Rights Reserved. 事例紹介 アノテーションルールを定義し、データ品質基準を統⼀することで、少ないデータでも⼤幅な精度向上に成功。 21

    オンライン商談システム会社様 再現率 作業期間 Before After 62% 1ヶ⽉ 80% 2週間 74% 88% 適合率 約16% 精度改善 & 2週間早期化
  22. © 2022 FastLabel Inc. All Rights Reserved. 最後に 22

  23. © 2022 FastLabel Inc. All Rights Reserved. 最後に テキスト分類の⾃動アノテーション機能をリリースしました。クリーンなデータを作る機能だけでなく、より⾼速にアノテー ションデータが作れるようになります。

    23 機能紹介 ①画⾯上でクラスを設定 ②⾃動アノテーション実⾏ ③結果を確認
  24. © 2022 FastLabel Inc. All Rights Reserved. 最後に 24 Model

    Assisted Label Pre-trained提供リスト ※ 上記ラインナップは2022年8⽉時点の内容となり、随時追加・変更の可能性がございます。
  25. © 2022 FastLabel Inc. All Rights Reserved. ご清聴ありがとうございました。 25 https://fastlabel.ai/

  26. © 2022 FastLabel Inc. All Rights Reserved. End of File

    26 本資料に関する問合せ先は下記にお願いします。 FastLabel株式会社 https://fastlabel.ai/