Upgrade to Pro — share decks privately, control downloads, hide ads and more …

高品質な教師データ作成のポイント

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for FastLabel FastLabel
September 30, 2022

 高品質な教師データ作成のポイント

Avatar for FastLabel

FastLabel

September 30, 2022
Tweet

More Decks by FastLabel

Other Decks in Technology

Transcript

  1. © 2022 FastLabel Inc. All Rights Reserved. 1. ファストラベルについて 1.

    企業情報 2. 沿⾰ 3. AI開発における課題 4. 実績推移 2. サービス紹介 1. サービススコープ 2. 対応データ 3. データセントリックな開発⼿法 1. データセントリックとは︖ 2. データセントリックのメリット 3. 具体例 4. 事例紹介 1. 商談システム会社様 5. 最後に アジェンダ 2
  2. © 2022 FastLabel Inc. All Rights Reserved. ファストラベルについて 4 企業情報

    AI⾰命の インフラになる - Infrastructure for AI Innovations - Our Mission 社名 ︓ FastLabel株式会社 / FastLabel Inc. 代表者 ︓ 上⽥ 英介 / Eisuke Ueta 設⽴⽇ ︓ 2020年1⽉23⽇ 従業員 ︓ 20名(うち役員、正社員14名) 株主 ︓ ジャフコグループ株式会社、 Sony Innovation Fund 株式会社NTTドコモ・ベンチャーズ 他 資本⾦ ︓ 2.4億円 事業 ︓ アノテーションサービス代⾏、アノテーション プラットフォーム等の開発・提供 「AI⾰命のインフラになる」をミッションに、AIエンジニアが⽴ち上げたスタートアップになります。
  3. © 2022 FastLabel Inc. All Rights Reserved. 2020年1⽉の創業以降、ソニー様・NTTドコモ様のアクセラレータプログラムに参加しながら、プロダクトを開発。 AI ×

    SaaS スタートアップとして⾼い評価を頂戴しています。 5 創業 2020年 01⽉ Incubate Camp 13th 決勝ラウンド進出 2020年 10⽉ シードラウンド6,500万円 資⾦調達 2021年 02⽉ NTTドコモ・ベンチャーズ インキュベーションプログラム採択 2021年 07⽉ ICCサミット KYOTO2021 スタートアップ・カタパルト⼊賞 2021年 09⽉ SSAP Startup Switch2021 ソニー賞準グランプリ 2021年 10⽉ TechCrunch Tokyo 2021 スタートアップバトルBMW賞 2021年 12⽉ シリーズAラウンド4.6億円資⾦調達 2022年 08⽉ ファストラベルについて 沿⾰
  4. © 2022 FastLabel Inc. All Rights Reserved. アルゴリズムのコモディティ化が進む反⾯、教師データ作成プロセス(=アノテーション)におけるイノベーションは発⽣して いないのが実情です。 6

    AI開発プロセス 最新アルゴリズムが OSSで公開 AWS や GCP などクラウドサービスの機能が 急激に拡充 イノベーションの不在 AI 開発全体の 80% の時間が費やされているにもかかわらず効率化が⾏われていない… 推論 学習・評価 アルゴリズム 開発 教師データ作成 (アノテーション) 出展︓https://forbesjapan.com/articles/detail/42149 ファストラベルについて AI開発における課題
  5. © 2022 FastLabel Inc. All Rights Reserved. 累計で1,000万件以上のアノテーション代⾏実績を有しており、画像・動画・⾳声・テキスト・3D等、全てのアノテー ション種類に対応させて頂いております。 7

    1,000万件 500万件 0件 2021年 1Q 2021年 2Q 2021年 3Q 2021年 4Q 2022 1Q 2022 2Q 1,200万件 前年度⽐40倍のアノテーション実績 ファストラベルについて 実績推移
  6. © 2022 FastLabel Inc. All Rights Reserved. サービス紹介 データセントリックなAI開発における、データ収集・⽣成〜アノテーション〜学習・評価の全プロセスをカバー可能な、 各種サービスを御提供しています。

    9 サービススコープ 収集 ⽣成・加⼯ アノテーション ⾃動化 学習・評価 Data-Centric ML Pipeline 合成データ (Coming Soon) マスキング (Coming Soon) データ収集 データ販売 アノテーション 代⾏ ⾃動 アノテーション モデル学習 モデル評価 アノテーションツール FastLabel Service Scope
  7. © 2022 FastLabel Inc. All Rights Reserved. サービス紹介 2021年10⽉に画像・動画データに対応したツールを正式リリース。2022年に⼊ってからは、テキスト・⾳声・3Dデー タに対応し、様々なデータを扱うことが可能です。

    10 対応データ 画像 動画 3D (点群) テキスト ⾳声 ü JPEG ü PNG ü TIFF ü BMP ü DCM ü PDF ü MP4(H.264) ü MOV ü AVI ü PCD ü PLY ü TXT ü CSV ü MP3 ü WAV ü M4A ※ 上記機能は2022年8⽉時点の内容となり、随時追加・変更の可能性がございます。
  8. © 2022 FastLabel Inc. All Rights Reserved. データセントリックな開発⼿法 スタンフォード⼤学のアンドリュー教授が提唱する「データセントリック」なAI開発がアメリカでは主流になりつつある。アノ テーションするだけでAI開発が可能で、現場主導でAI導⼊を推進。

    13 データセントリックとは︖ Andrew Ng Google Brainの共同設 ⽴者、Baiduの元副社⻑ 兼チーフサイエンティスト、ス タンフォード⼤学教授。 従来のAI開発 (モデルセントリック) これからのAI開発 (データセントリック) アルゴリズムを変更して AIの精度を改善 Big Dataが必要 (⼤量のデータ) データを変更して AIの精度を改善 Good Dataが必要 (質の⾼い少量のデータ) AIエンジニアが主導 業務知識のある⼈材が主導
  9. © 2022 FastLabel Inc. All Rights Reserved. データセントリックな開発⼿法 質の⾼いデータセットを作ることで少ないデータでも良い精度の実現が可能。 17

    具体例 クリーンなデータは500件に対し てノイズのあるデータでは、約3倍 の1500件データが必要でコスト がかかる。 FastLabelではクリーンなデータ を作るための機能やサービスが充 実。
  10. © 2022 FastLabel Inc. All Rights Reserved. 事例紹介 オンライン商談システム開発会社様で、商談時の顧客の反応がポジティブかネガティブを解析するAIを開発(会話の ⾳声データを⽂字に書き起こして⾃然⾔語で解析)。

    19 オンライン商談システム会社様 商談 会話内容 営業担当者︓XX製品ですが、貴社でご導⼊頂けそうでしょうか︖ お客様︓ご説明ありがとうございます。社内で検討させて頂きます。 お客様の反応がポジティブかネガティブかの判断が⼈によっ て異なっており、AIの精度が低くなるという課題があった。 社内でアルバイトを雇ってアノテーションを実施していたが、エ ンジニアによる管理⼯数も確保できない。 • データ数︓20,000⽂章 • クラス︓ポジティブ、ネガティブ、不明の3つ • 期間︓1ヶ⽉
  11. © 2022 FastLabel Inc. All Rights Reserved. 事例紹介 FastLabelがアノテーション作業をまるっと代⾏。オンボーディング機能によって、作業者がアノテーションを開始する前 に事前にテストを実施し、合格した作業者だけを実プロジェクトにアサインすることでデータ品質の均⼀化を実現。

    20 オンライン商談システム会社様 要件定義 アノテーション 納品 オンボーディング レビュー Aさん Bさん Cさん マニュアルを作成し、事前に 正解ラベルを定義したタスク を登録 登録した正解ラベルをもとに テストを実施し、全て正解 した⼈だけ実作業が可能。 実際のデータに対してアノ テーションを実施。 QAチームがアノテーション データが品質基準を満たし ているかチェック。 プラットフォーム上でデータを 納品、顧客が内容をチェッ ク。 Aさん Bさん 合格 合格 不合格 再度研修・オンボーディ ングを実施し、合格で きるまでアサイン不可 アノテーションフロー
  12. © 2022 FastLabel Inc. All Rights Reserved. 事例紹介 アノテーションルールを定義し、データ品質基準を統⼀することで、少ないデータでも⼤幅な精度向上に成功。 21

    オンライン商談システム会社様 再現率 作業期間 Before After 62% 1ヶ⽉ 80% 2週間 74% 88% 適合率 約16% 精度改善 & 2週間早期化
  13. © 2022 FastLabel Inc. All Rights Reserved. 最後に 24 Model

    Assisted Label Pre-trained提供リスト ※ 上記ラインナップは2022年8⽉時点の内容となり、随時追加・変更の可能性がございます。
  14. © 2022 FastLabel Inc. All Rights Reserved. End of File

    26 本資料に関する問合せ先は下記にお願いします。 FastLabel株式会社 https://fastlabel.ai/