Upgrade to Pro — share decks privately, control downloads, hide ads and more …

高品質な教師データ作成のポイント

eisuke-ueta
September 30, 2022

 高品質な教師データ作成のポイント

eisuke-ueta

September 30, 2022
Tweet

More Decks by eisuke-ueta

Other Decks in Technology

Transcript

  1. © 2022 FastLabel Inc. All Rights Reserved.
    ⾼品質な教師データ作成のポイント
    テキストアノテーションウェビナー
    2022.09.30, FastLabel Inc.
    1

    View Slide

  2. © 2022 FastLabel Inc. All Rights Reserved.
    1. ファストラベルについて
    1. 企業情報
    2. 沿⾰
    3. AI開発における課題
    4. 実績推移
    2. サービス紹介
    1. サービススコープ
    2. 対応データ
    3. データセントリックな開発⼿法
    1. データセントリックとは︖
    2. データセントリックのメリット
    3. 具体例
    4. 事例紹介
    1. 商談システム会社様
    5. 最後に
    アジェンダ
    2

    View Slide

  3. © 2022 FastLabel Inc. All Rights Reserved.
    ファストラベルについて
    3

    View Slide

  4. © 2022 FastLabel Inc. All Rights Reserved.
    ファストラベルについて
    4
    企業情報
    AI⾰命の
    インフラになる
    - Infrastructure for AI Innovations -
    Our Mission
    社名 ︓ FastLabel株式会社 / FastLabel Inc.
    代表者 ︓ 上⽥ 英介 / Eisuke Ueta
    設⽴⽇ ︓ 2020年1⽉23⽇
    従業員 ︓ 20名(うち役員、正社員14名)
    株主 ︓ ジャフコグループ株式会社、
    Sony Innovation Fund
    株式会社NTTドコモ・ベンチャーズ 他
    資本⾦ ︓ 2.4億円
    事業 ︓ アノテーションサービス代⾏、アノテーション
    プラットフォーム等の開発・提供
    「AI⾰命のインフラになる」をミッションに、AIエンジニアが⽴ち上げたスタートアップになります。

    View Slide

  5. © 2022 FastLabel Inc. All Rights Reserved.
    2020年1⽉の創業以降、ソニー様・NTTドコモ様のアクセラレータプログラムに参加しながら、プロダクトを開発。
    AI × SaaS スタートアップとして⾼い評価を頂戴しています。
    5
    創業
    2020年 01⽉
    Incubate Camp 13th
    決勝ラウンド進出
    2020年 10⽉
    シードラウンド6,500万円
    資⾦調達
    2021年 02⽉
    NTTドコモ・ベンチャーズ
    インキュベーションプログラム採択
    2021年 07⽉
    ICCサミット KYOTO2021
    スタートアップ・カタパルト⼊賞
    2021年 09⽉
    SSAP Startup Switch2021
    ソニー賞準グランプリ
    2021年 10⽉
    TechCrunch Tokyo 2021
    スタートアップバトルBMW賞
    2021年 12⽉
    シリーズAラウンド4.6億円資⾦調達
    2022年 08⽉
    ファストラベルについて 沿⾰

    View Slide

  6. © 2022 FastLabel Inc. All Rights Reserved.
    アルゴリズムのコモディティ化が進む反⾯、教師データ作成プロセス(=アノテーション)におけるイノベーションは発⽣して
    いないのが実情です。
    6
    AI開発プロセス
    最新アルゴリズムが
    OSSで公開
    AWS や GCP などクラウドサービスの機能が
    急激に拡充
    イノベーションの不在
    AI 開発全体の 80% の時間が費やされているにもかかわらず効率化が⾏われていない…
    推論
    学習・評価
    アルゴリズム
    開発
    教師データ作成
    (アノテーション)
    出展︓https://forbesjapan.com/articles/detail/42149
    ファストラベルについて AI開発における課題

    View Slide

  7. © 2022 FastLabel Inc. All Rights Reserved.
    累計で1,000万件以上のアノテーション代⾏実績を有しており、画像・動画・⾳声・テキスト・3D等、全てのアノテー
    ション種類に対応させて頂いております。
    7
    1,000万件
    500万件
    0件
    2021年 1Q 2021年 2Q 2021年 3Q 2021年 4Q 2022 1Q 2022 2Q
    1,200万件
    前年度⽐40倍のアノテーション実績
    ファストラベルについて 実績推移

    View Slide

  8. © 2022 FastLabel Inc. All Rights Reserved.
    サービス紹介
    8

    View Slide

  9. © 2022 FastLabel Inc. All Rights Reserved.
    サービス紹介
    データセントリックなAI開発における、データ収集・⽣成〜アノテーション〜学習・評価の全プロセスをカバー可能な、
    各種サービスを御提供しています。
    9
    サービススコープ
    収集 ⽣成・加⼯ アノテーション ⾃動化 学習・評価
    Data-Centric
    ML Pipeline
    合成データ
    (Coming Soon)
    マスキング
    (Coming Soon)
    データ収集
    データ販売
    アノテーション
    代⾏
    ⾃動
    アノテーション
    モデル学習
    モデル評価
    アノテーションツール
    FastLabel
    Service
    Scope

    View Slide

  10. © 2022 FastLabel Inc. All Rights Reserved.
    サービス紹介
    2021年10⽉に画像・動画データに対応したツールを正式リリース。2022年に⼊ってからは、テキスト・⾳声・3Dデー
    タに対応し、様々なデータを扱うことが可能です。
    10
    対応データ
    画像 動画 3D (点群) テキスト ⾳声
    ü JPEG
    ü PNG
    ü TIFF
    ü BMP
    ü DCM
    ü PDF
    ü MP4(H.264)
    ü MOV
    ü AVI
    ü PCD
    ü PLY
    ü TXT
    ü CSV
    ü MP3
    ü WAV
    ü M4A
    ※ 上記機能は2022年8⽉時点の内容となり、随時追加・変更の可能性がございます。

    View Slide

  11. © 2022 FastLabel Inc. All Rights Reserved.
    サービス紹介
    テキストアノテーションでは、テキスト分類、固有表現抽出、AI-OCRなど様々なアノテーションに対応しています。
    11
    対応データ
    テキスト分類 固有表現抽出 会話コーパス AI-OCR

    View Slide

  12. © 2022 FastLabel Inc. All Rights Reserved.
    データセントリックな開発⼿法
    12

    View Slide

  13. © 2022 FastLabel Inc. All Rights Reserved.
    データセントリックな開発⼿法
    スタンフォード⼤学のアンドリュー教授が提唱する「データセントリック」なAI開発がアメリカでは主流になりつつある。アノ
    テーションするだけでAI開発が可能で、現場主導でAI導⼊を推進。
    13
    データセントリックとは︖
    Andrew Ng
    Google Brainの共同設
    ⽴者、Baiduの元副社⻑
    兼チーフサイエンティスト、ス
    タンフォード⼤学教授。
    従来のAI開発
    (モデルセントリック)
    これからのAI開発
    (データセントリック)
    アルゴリズムを変更して
    AIの精度を改善
    Big Dataが必要
    (⼤量のデータ)
    データを変更して
    AIの精度を改善
    Good Dataが必要
    (質の⾼い少量のデータ)
    AIエンジニアが主導 業務知識のある⼈材が主導

    View Slide

  14. © 2022 FastLabel Inc. All Rights Reserved.
    データセントリックな開発⼿法
    鉄鋼製品の⽋陥を検知するプロジェクト(⽬標精度90%)の事例をもとに、データセントリックなAI開発のメリットを
    ご紹介します。
    14
    データセントリックのメリット

    View Slide

  15. © 2022 FastLabel Inc. All Rights Reserved.
    データセントリックな開発⼿法
    ベースラインは76.2%の精度(⽬標90%)でモデルセントリックとデータセントリックの2つチームをわけて3ヶ⽉改善
    実施した結果。データセントリックなアプローチをしたチームは約17%の精度改善に成功
    15
    データセントリックのメリット
    100%
    50%
    0%
    ベースライン
    76.2%
    93.1%
    76.2%
    モデルセントリック データセントリック
    +0%
    +16.9%

    View Slide

  16. © 2022 FastLabel Inc. All Rights Reserved.
    データセントリックな開発⼿法
    アノテーションの基準が、作業者間でズレてしまうと、AIの精度が⼤幅に下がる。データセットに対して12%ノイズが含
    まれると、精度がおよそ10%低下する。
    16
    具体例
    元データ 作業者A 作業者B
    作業者C

    View Slide

  17. © 2022 FastLabel Inc. All Rights Reserved.
    データセントリックな開発⼿法
    質の⾼いデータセットを作ることで少ないデータでも良い精度の実現が可能。
    17
    具体例
    クリーンなデータは500件に対し
    てノイズのあるデータでは、約3倍
    の1500件データが必要でコスト
    がかかる。
    FastLabelではクリーンなデータ
    を作るための機能やサービスが充
    実。

    View Slide

  18. © 2022 FastLabel Inc. All Rights Reserved.
    事例紹介
    18

    View Slide

  19. © 2022 FastLabel Inc. All Rights Reserved.
    事例紹介
    オンライン商談システム開発会社様で、商談時の顧客の反応がポジティブかネガティブを解析するAIを開発(会話の
    ⾳声データを⽂字に書き起こして⾃然⾔語で解析)。
    19
    オンライン商談システム会社様
    商談 会話内容
    営業担当者︓XX製品ですが、貴社でご導⼊頂けそうでしょうか︖
    お客様︓ご説明ありがとうございます。社内で検討させて頂きます。
    お客様の反応がポジティブかネガティブかの判断が⼈によっ
    て異なっており、AIの精度が低くなるという課題があった。
    社内でアルバイトを雇ってアノテーションを実施していたが、エ
    ンジニアによる管理⼯数も確保できない。
    ● データ数︓20,000⽂章
    ● クラス︓ポジティブ、ネガティブ、不明の3つ
    ● 期間︓1ヶ⽉

    View Slide

  20. © 2022 FastLabel Inc. All Rights Reserved.
    事例紹介
    FastLabelがアノテーション作業をまるっと代⾏。オンボーディング機能によって、作業者がアノテーションを開始する前
    に事前にテストを実施し、合格した作業者だけを実プロジェクトにアサインすることでデータ品質の均⼀化を実現。
    20
    オンライン商談システム会社様
    要件定義 アノテーション 納品
    オンボーディング レビュー
    Aさん
    Bさん
    Cさん
    マニュアルを作成し、事前に
    正解ラベルを定義したタスク
    を登録
    登録した正解ラベルをもとに
    テストを実施し、全て正解
    した⼈だけ実作業が可能。
    実際のデータに対してアノ
    テーションを実施。
    QAチームがアノテーション
    データが品質基準を満たし
    ているかチェック。
    プラットフォーム上でデータを
    納品、顧客が内容をチェッ
    ク。
    Aさん
    Bさん
    合格
    合格
    不合格
    再度研修・オンボーディ
    ングを実施し、合格で
    きるまでアサイン不可
    アノテーションフロー

    View Slide

  21. © 2022 FastLabel Inc. All Rights Reserved.
    事例紹介
    アノテーションルールを定義し、データ品質基準を統⼀することで、少ないデータでも⼤幅な精度向上に成功。
    21
    オンライン商談システム会社様
    再現率
    作業期間
    Before After
    62%
    1ヶ⽉
    80%
    2週間
    74% 88%
    適合率
    約16%
    精度改善
    &
    2週間早期化

    View Slide

  22. © 2022 FastLabel Inc. All Rights Reserved.
    最後に
    22

    View Slide

  23. © 2022 FastLabel Inc. All Rights Reserved.
    最後に
    テキスト分類の⾃動アノテーション機能をリリースしました。クリーンなデータを作る機能だけでなく、より⾼速にアノテー
    ションデータが作れるようになります。
    23
    機能紹介
    ①画⾯上でクラスを設定
    ②⾃動アノテーション実⾏
    ③結果を確認

    View Slide

  24. © 2022 FastLabel Inc. All Rights Reserved.
    最後に
    24
    Model Assisted Label Pre-trained提供リスト
    ※ 上記ラインナップは2022年8⽉時点の内容となり、随時追加・変更の可能性がございます。

    View Slide

  25. © 2022 FastLabel Inc. All Rights Reserved.
    ご清聴ありがとうございました。
    25
    https://fastlabel.ai/

    View Slide

  26. © 2022 FastLabel Inc. All Rights Reserved.
    End of File
    26
    本資料に関する問合せ先は下記にお願いします。
    FastLabel株式会社
    https://fastlabel.ai/

    View Slide