© 2022 FastLabel Inc. All Rights Reserved.⾼品質な教師データ作成のポイントテキストアノテーションウェビナー2022.09.30, FastLabel Inc.1
View Slide
© 2022 FastLabel Inc. All Rights Reserved.1. ファストラベルについて1. 企業情報2. 沿⾰3. AI開発における課題4. 実績推移2. サービス紹介1. サービススコープ2. 対応データ3. データセントリックな開発⼿法1. データセントリックとは︖2. データセントリックのメリット3. 具体例4. 事例紹介1. 商談システム会社様5. 最後にアジェンダ2
© 2022 FastLabel Inc. All Rights Reserved.ファストラベルについて3
© 2022 FastLabel Inc. All Rights Reserved.ファストラベルについて4企業情報AI⾰命のインフラになる- Infrastructure for AI Innovations -Our Mission社名 ︓ FastLabel株式会社 / FastLabel Inc.代表者 ︓ 上⽥ 英介 / Eisuke Ueta設⽴⽇ ︓ 2020年1⽉23⽇従業員 ︓ 20名(うち役員、正社員14名)株主 ︓ ジャフコグループ株式会社、Sony Innovation Fund株式会社NTTドコモ・ベンチャーズ 他資本⾦ ︓ 2.4億円事業 ︓ アノテーションサービス代⾏、アノテーションプラットフォーム等の開発・提供「AI⾰命のインフラになる」をミッションに、AIエンジニアが⽴ち上げたスタートアップになります。
© 2022 FastLabel Inc. All Rights Reserved.2020年1⽉の創業以降、ソニー様・NTTドコモ様のアクセラレータプログラムに参加しながら、プロダクトを開発。AI × SaaS スタートアップとして⾼い評価を頂戴しています。5創業2020年 01⽉Incubate Camp 13th決勝ラウンド進出2020年 10⽉シードラウンド6,500万円資⾦調達2021年 02⽉NTTドコモ・ベンチャーズインキュベーションプログラム採択2021年 07⽉ICCサミット KYOTO2021スタートアップ・カタパルト⼊賞2021年 09⽉SSAP Startup Switch2021ソニー賞準グランプリ2021年 10⽉TechCrunch Tokyo 2021スタートアップバトルBMW賞2021年 12⽉シリーズAラウンド4.6億円資⾦調達2022年 08⽉ファストラベルについて 沿⾰
© 2022 FastLabel Inc. All Rights Reserved.アルゴリズムのコモディティ化が進む反⾯、教師データ作成プロセス(=アノテーション)におけるイノベーションは発⽣していないのが実情です。6AI開発プロセス最新アルゴリズムがOSSで公開AWS や GCP などクラウドサービスの機能が急激に拡充イノベーションの不在AI 開発全体の 80% の時間が費やされているにもかかわらず効率化が⾏われていない…推論学習・評価アルゴリズム開発教師データ作成(アノテーション)出展︓https://forbesjapan.com/articles/detail/42149ファストラベルについて AI開発における課題
© 2022 FastLabel Inc. All Rights Reserved.累計で1,000万件以上のアノテーション代⾏実績を有しており、画像・動画・⾳声・テキスト・3D等、全てのアノテーション種類に対応させて頂いております。71,000万件500万件0件2021年 1Q 2021年 2Q 2021年 3Q 2021年 4Q 2022 1Q 2022 2Q1,200万件前年度⽐40倍のアノテーション実績ファストラベルについて 実績推移
© 2022 FastLabel Inc. All Rights Reserved.サービス紹介8
© 2022 FastLabel Inc. All Rights Reserved.サービス紹介データセントリックなAI開発における、データ収集・⽣成〜アノテーション〜学習・評価の全プロセスをカバー可能な、各種サービスを御提供しています。9サービススコープ収集 ⽣成・加⼯ アノテーション ⾃動化 学習・評価Data-CentricML Pipeline合成データ(Coming Soon)マスキング(Coming Soon)データ収集データ販売アノテーション代⾏⾃動アノテーションモデル学習モデル評価アノテーションツールFastLabelServiceScope
© 2022 FastLabel Inc. All Rights Reserved.サービス紹介2021年10⽉に画像・動画データに対応したツールを正式リリース。2022年に⼊ってからは、テキスト・⾳声・3Dデータに対応し、様々なデータを扱うことが可能です。10対応データ画像 動画 3D (点群) テキスト ⾳声ü JPEGü PNGü TIFFü BMPü DCMü PDFü MP4(H.264)ü MOVü AVIü PCDü PLYü TXTü CSVü MP3ü WAVü M4A※ 上記機能は2022年8⽉時点の内容となり、随時追加・変更の可能性がございます。
© 2022 FastLabel Inc. All Rights Reserved.サービス紹介テキストアノテーションでは、テキスト分類、固有表現抽出、AI-OCRなど様々なアノテーションに対応しています。11対応データテキスト分類 固有表現抽出 会話コーパス AI-OCR
© 2022 FastLabel Inc. All Rights Reserved.データセントリックな開発⼿法12
© 2022 FastLabel Inc. All Rights Reserved.データセントリックな開発⼿法スタンフォード⼤学のアンドリュー教授が提唱する「データセントリック」なAI開発がアメリカでは主流になりつつある。アノテーションするだけでAI開発が可能で、現場主導でAI導⼊を推進。13データセントリックとは︖Andrew NgGoogle Brainの共同設⽴者、Baiduの元副社⻑兼チーフサイエンティスト、スタンフォード⼤学教授。従来のAI開発(モデルセントリック)これからのAI開発(データセントリック)アルゴリズムを変更してAIの精度を改善Big Dataが必要(⼤量のデータ)データを変更してAIの精度を改善Good Dataが必要(質の⾼い少量のデータ)AIエンジニアが主導 業務知識のある⼈材が主導
© 2022 FastLabel Inc. All Rights Reserved.データセントリックな開発⼿法鉄鋼製品の⽋陥を検知するプロジェクト(⽬標精度90%)の事例をもとに、データセントリックなAI開発のメリットをご紹介します。14データセントリックのメリット
© 2022 FastLabel Inc. All Rights Reserved.データセントリックな開発⼿法ベースラインは76.2%の精度(⽬標90%)でモデルセントリックとデータセントリックの2つチームをわけて3ヶ⽉改善実施した結果。データセントリックなアプローチをしたチームは約17%の精度改善に成功15データセントリックのメリット100%50%0%ベースライン76.2%93.1%76.2%モデルセントリック データセントリック+0%+16.9%
© 2022 FastLabel Inc. All Rights Reserved.データセントリックな開発⼿法アノテーションの基準が、作業者間でズレてしまうと、AIの精度が⼤幅に下がる。データセットに対して12%ノイズが含まれると、精度がおよそ10%低下する。16具体例元データ 作業者A 作業者B作業者C
© 2022 FastLabel Inc. All Rights Reserved.データセントリックな開発⼿法質の⾼いデータセットを作ることで少ないデータでも良い精度の実現が可能。17具体例クリーンなデータは500件に対してノイズのあるデータでは、約3倍の1500件データが必要でコストがかかる。FastLabelではクリーンなデータを作るための機能やサービスが充実。
© 2022 FastLabel Inc. All Rights Reserved.事例紹介18
© 2022 FastLabel Inc. All Rights Reserved.事例紹介オンライン商談システム開発会社様で、商談時の顧客の反応がポジティブかネガティブを解析するAIを開発(会話の⾳声データを⽂字に書き起こして⾃然⾔語で解析)。19オンライン商談システム会社様商談 会話内容営業担当者︓XX製品ですが、貴社でご導⼊頂けそうでしょうか︖お客様︓ご説明ありがとうございます。社内で検討させて頂きます。お客様の反応がポジティブかネガティブかの判断が⼈によって異なっており、AIの精度が低くなるという課題があった。社内でアルバイトを雇ってアノテーションを実施していたが、エンジニアによる管理⼯数も確保できない。● データ数︓20,000⽂章● クラス︓ポジティブ、ネガティブ、不明の3つ● 期間︓1ヶ⽉
© 2022 FastLabel Inc. All Rights Reserved.事例紹介FastLabelがアノテーション作業をまるっと代⾏。オンボーディング機能によって、作業者がアノテーションを開始する前に事前にテストを実施し、合格した作業者だけを実プロジェクトにアサインすることでデータ品質の均⼀化を実現。20オンライン商談システム会社様要件定義 アノテーション 納品オンボーディング レビューAさんBさんCさんマニュアルを作成し、事前に正解ラベルを定義したタスクを登録登録した正解ラベルをもとにテストを実施し、全て正解した⼈だけ実作業が可能。実際のデータに対してアノテーションを実施。QAチームがアノテーションデータが品質基準を満たしているかチェック。プラットフォーム上でデータを納品、顧客が内容をチェック。AさんBさん合格合格不合格再度研修・オンボーディングを実施し、合格できるまでアサイン不可アノテーションフロー
© 2022 FastLabel Inc. All Rights Reserved.事例紹介アノテーションルールを定義し、データ品質基準を統⼀することで、少ないデータでも⼤幅な精度向上に成功。21オンライン商談システム会社様再現率作業期間Before After62%1ヶ⽉80%2週間74% 88%適合率約16%精度改善&2週間早期化
© 2022 FastLabel Inc. All Rights Reserved.最後に22
© 2022 FastLabel Inc. All Rights Reserved.最後にテキスト分類の⾃動アノテーション機能をリリースしました。クリーンなデータを作る機能だけでなく、より⾼速にアノテーションデータが作れるようになります。23機能紹介①画⾯上でクラスを設定②⾃動アノテーション実⾏③結果を確認
© 2022 FastLabel Inc. All Rights Reserved.最後に24Model Assisted Label Pre-trained提供リスト※ 上記ラインナップは2022年8⽉時点の内容となり、随時追加・変更の可能性がございます。
© 2022 FastLabel Inc. All Rights Reserved.ご清聴ありがとうございました。25https://fastlabel.ai/
© 2022 FastLabel Inc. All Rights Reserved.End of File26本資料に関する問合せ先は下記にお願いします。FastLabel株式会社https://fastlabel.ai/