株式会社ABEJA_アノテーションにおける運用上のノウハウの紹介

E9569fac53a9e81210c9622964478307?s=47 Go
April 30, 2020
990

 株式会社ABEJA_アノテーションにおける運用上のノウハウの紹介

株式会社ABEJAでは、200社以上の導入実績を誇るディープラーニングのリーディングカンパニーとして豊富なAI活用の知見・ノウハウをもとにお客様の状況やニーズに合わせてAI導入・活用まで一気通貫で支援しております。 様々な業界のお客様と共にAIの社会実装に取り組む中で溜まったアノテーションのノウハウと、高品質なデータセットを作成する為に、ABEJA Platform Annotationのサービスにおけるアノテーション作業から品質チェック、管理進行までの業務プロセスの課題と対策を紹介します。

E9569fac53a9e81210c9622964478307?s=128

Go

April 30, 2020
Tweet

Transcript

  1. ML@Loft_Annotation

  2. 会社概要

  3. ABEJAは「ABEJA Platform」、「ABEJA Insight」の2つのサービスを提供、AIの社会実装をEnd-to-Endで推し進める、AIスタートアップ です。 ABEJAが提供するサービス 3 AIの導入支援及びコンサルティングも行っております。詳細は個別にお問合せください。 AI・機械学習、特にディープラーニングにおける実装、 運用プロセスを効率化するプラットフォームを提供して います。

    データ取得から解析まで、 ABEJA Platformを利用して各 業界の変革をサポートするサービスブランド。 現在は小売業向けの ABEJA Insight for Retailを提供して います。
  4. 帰納的アプローチをとるAIモデルの設計・学習過程では、相対的に試行錯誤を繰り返すことが多いため、 ノウハウが重要です。ABEJAは2012年創業以降、200社以上の業界を牽引する企業へAIを導入して参りました。 ABEJAの強み 4 業界を牽引する 各社からの評価 NVIDIA、Googleなど世界的企業から国内優良 事業会社まで様々な企業が ABEJAへ出資。 AWSより技術力を評価され

    Machine Learning コ ンピテンシーを国内初で認定。 出資企業 開発・運用を加速する PLATFORMの提供 AI実装におけるフルマネージドなプラットフォーム であるABEJA Platformを提供。運用までトータル でサポート。 200社以上の導入・運用実績 2012年から7年間で小売・流通、製造業、物流業 など、150 社以上の様々な業界で導入。 AI、IoT、ビッグデータ周りのノウハウを蓄積。 取引実績企業
  5. ABEJA Platform Annotationは、アノテーション委託サービス、アノテーションツールの2つのサービスを提供しており、いずれも精度 の高い教師データを高速に作成・提供することに特化しています。 ABEJA Platform Annotationが提供するサービス 5 2 アノテーションツール

    直感的な操作のもと、均一化された品質のデータを効率的に作成できるツールです。 1 アノテーション委託サービス 10万件のデータを1週間で作成できるリソースで、高品質なデータを提供します。
  6. 多種多様なデータが公開・取得されるようになりつつある中で、いかにして 大量かつ良質な データを効率的に得ることができるかは,機械学習をするうえでの喫緊の課題の一つになっています。 Abstract 実際の現場におけるデータ収集やアノテーションにおいて起こっている課題やそれに対するアプローチ方 法を精度・速度面での効率化を行う方法を紹介します。 前提 本日のテーマ

  7. 機械学習を社会実装するプロセスは主に1.データ取得(収集) 2.蓄積(アノテーション)3.学習 4.デプロイ(評価)5.運用という流れとなり ます。 データセット作成工程は上流工程となり,その品質は学習や評価,運用などの下流工程において大きな影響を及ぼすため慎重な設計 や検討が必要となります。 運用までのプロセスとデータ収集とアノテーションの重要性 04 デプロイ 01

    取得 05 推論・再学習 03 学習 02 蓄積 AIの継続的 インテグレーションを実現 01 取得 システムや多数の IoTデバイスとABEJA Platformが接続 し、自動的に負荷分散を行いながらデータの取得を行うこ とができます。 02 蓄積 取得したデータをスケーラブルに Datalakeへ格納し、蓄積 したデータのバリデーションを実行します。 教師付きデータ 作成(アノテーション)を効率的に実現する ツールの提供 や、作成代行を行います。 03 学習 GPUを使った学習環境が用意されており効率的にモデル の開発ができます。チューニング時の学習データ、モデル などのバージョンを GUIツールで管理することにより、開発 の時間短縮を図れます。 04 デプロイ 学習ごとに自動的に精度評価を行うことができます。評価 後モデルを選択するだけで、 IoTデバイスを含めた本番環 境へ自動的にデプロイを行うことができます。 05 推論・再学習 システムの監視機能が標準装備され、デバイスの故障や 異常を検知します。スケジュール機能により、ユーザの任 意のタイミングでモデルの再学習が可能です。
  8. 適用される際の入力となるデータと同様の品質のデータをなるべく大量に収集することが重要です。 現実的には,(1)データソースドメインの偏り,(2)データの分布の偏り,(3)データのトレンド変化,(4)プライバシー情報の取り扱い(生体 情報など)などの課題が存在し,個別的に解決策を検討する必要があります。 データ収集におけるポイント 2 データの分布の偏り 異常検知における異常データの頻度が少ないなど 1 データソースドメインの偏り データ収集環境と運用環境に無視できない差異があるなど

    3 データのトレンド変化 広告やファッション領域におけるデータの更新性など 4 プライバシー情報 生体情報等の個人情報の取り扱いなど
  9. アノテーションにおける理想は,収集されたデータに対して,そこから学習されるモデルの学習効率が最大化されるような情報をなるべ く効率的に付与することです。 アノテーションにおいても,(1)アノテーション定義の曖昧さ,(2)アノテーション実施者の感性,(3)エキスパートの必要性(e.g. 医療画像 の疾患判定),(4)認知容量を超える規模のほか,必然的に生じる(5)ケアレスミスへの対処も必要となる アノテーションにおけるポイント 課題 アノテーション実施者の感性 アノテーション定義の曖昧さ エキスパートの必要性

    認知容量を超える規模 ケアレスミス 具体例 美しさのような感性情報や、テキスト情報から受ける印象のポジティ ブ・ネガティブ判定 衣服のカテゴリにおけるカットソーとスウェットの違い 医療画像の疾患判定 カテゴリ数が1000を超えるアノテーション 作業者のミスタッチ 解決策 判断軸とサンプル の提示 アサインメントの調整 アウトソーシングによるスケール レビュー体制 機械的なチェック 作業精度の明確化
  10. レビュー機能、スキップ機能により当初のマニュアル作成時には想定しきれなかったルールを見出し、作業フェーズにおいてもルール設 計およびマニュアルの精度向上に寄与できるサイクルを構築し、アノテーション作業を行なっております。 品質管理について レビュー機能による マニュアルの精緻化 スキップ機能による ルールの再構築 ルール設計 マニュアル作成 データの前処理

    作成された データの確認 教師データの 作成 データの アップロード レビュー スキップ アノテーションツールの機能面での工夫 運用面での工夫
  11. プロジェクト毎に実績豊富な担当者が作業の進捗・データの品質等を管理する体制をとり、納品物の品質担保を行なっております。 レビュー体制について 発注者 project ABEJA 担当者 ABEJA 担当者 納品物 発注者

    ※作業の一部をパートナー企業様に再委託する場合もございます 専任のPMが 要件定義 専門アノテーターを アサイン ABEJA Platformで 作業を実施 PMが 作業結果を確認 品質に問題がない ことを確認して納品
  12. 【導入事例】FiNC Technologies 株式会社 導入内容 導入背景 成果 会社名 株式会社FiNC Technologies 事業内容

    ヘルスケアアプリの運営、法人向けウェルネス経営事業など 詳細URL(※) https://abejainc.com/platform/ja/dataset/successstory/c ase/finc/ 「食事の画像から栄養価を特定したい。料理の写真から使われている食材を推定 し、その量も同時に推定し、詳細なカロリー計算ができるようなレベルのものを」と いう無茶振りとも言えるプロジェクトが立ち上がった。 FiNCは食事の画像のデータはあれど、そこにどの程度の食材が含まれているか まではわからない。教師データをどう作るか悩んでいた。 自分たちで一から調理し、食材の使用量データをとるとともに、できあがった料理 の画像から食材を分類していくアノテーション方法を採用。ABEJAの担当者と共 に、アノテーション作業に加え、調理や料理の撮影などのオペレーション支援にも 取り組んだ。
 一連の試行錯誤(※)の末、3ヶ月で2,000品の調理を実施し、必要な教師データを 作成することができた。 
 1人だった機械学習プロジェクトも、 ABEJAの担当者が伴走することでチームのプ ロジェクトになった。 技術面だけでなく、精神面も支えられ、無事にプロジェクトを成功することができ た。 この成果を元に FiNCではユーザーに提供する、新たなサービスとして開発を進め ている。
  13. 【導入事例】株式会社LIFULL 導入内容 導入背景 成果 会社名 株式会社LIFULL 事業内容 不動産ポータルサイト「 LIFULL HOME’S」の運営

    詳細URL https://abejainc.com/platform/ja/dataset/succ essstory/case/lifull/ 物件情報を活用した不動産情報の「見える化」に取り組む LIFULLは、機械学習の技術を 使って、物件のスペック情報や画像、間取り図をもとにした新しいシステムを開発している。そ の中の1つのプロジェクトが「物件のスペック情報や間取り図を利用した」新サービスの開発。 開発者の工数はかけずに数万件の間取り図のデータを教師データにしたい、と考えていた。 過去にクラウドソーシングを活用した経緯はあったがその際に発生するプロジェクト管理コス トに課題を感じており、その点も解決可能な ABEJA Platform Annotation 委託サービスの 導 入を決定。 Object Detectionテンプレートを使用し、 1万件のデータを教師データ化するプロジェクトが始 まった。 ABEJAの委託サービスでは、データ作成の途中にデータを納品し、アノテーションの品質の チェックなどを行うプロセスがある。 LIFULLのプロジェクトでは 1,000枚のデータを途中納品し たタイミングで、 もともと1万件のデータで得られると期待していた精度が 1,000枚で達成され るという驚くべき成果が得られた。 品質の高い教師データを使えば、少量のデータでも十分な結果を得られることがわかるプロ ジェクトとなり、 LIFULLでは新規サービスの開発を行っている。
  14. 【導入事例】株式会社トプコン 委託サービス IT企業 導入内容 導入背景 成果 会社名 株式会社トプコン 事業内容 医療機器、測量機器等の製造販売

    詳細URL https://abejainc.com/platform/ja/dataset/successstory/c ase/topcon/ 眼底検査のさらなる進歩のために検査用の画像データから眼の異常を検出する AIモデ ルを構築したいと考えていた。 企業のAI化に向けた実装ノウハウをプラットフォームとして提供していることや、 AI普及に 向けたビジョンなどを説明を受け、その内容も非常に腑に落ちるものがあった。 コンペの結果、技術力や知見が高く評価され学習データづくりの段階で ABEJA Platfrom Annotation を利用した。 画像データのアノテーションは医師が通常業務の傍ら作業することになる為、負担が少な いものが求められるがアノテーションの範囲指定や種類分けなども非常に簡単に変えら れることなどが画期的だった。 また、作業の設定の際に少し使いづらい点をフィードバックしたところ、すぐに改善しても らえた。 "Healthcare through the eye"を中期経営計画に盛り込み、クラウドを活用した遠隔スク リーニングシステムで、眼を通じてヘルスケアに貢献するというミッションのもと、眼の画 像の異常検出の AIモデルをクラウドにつなげるシステムを構築を進めいてる。
  15. Summary (1)データソースドメインの偏り,(2)データの分布の偏り,(3)データのトレンド変化,(4)プライバシー情報の取り扱いなどの課題 が存在する為、個別的に解決策を検討する必要があります。 データに偏りがないか、利活用可能なものか否かを慎重に検討する 作業品質の担保の為、作業マニュアルの精緻化を徹底的に行い(適宜修正)、判断基準や作業品質にブレが発生しないよう なルール設計とオペレーションが必要があります。また、場合によっては専門分野に詳しいエキスパートのアサインの検討も必 要です。 判断基準、作業精度の品質を統一する 作業体制をスケールする際は特に品質が低下しやすい為、ミスの最小化や、作業中の判断基準のブレが発生しないようにレ ビュー仕様を深く理解したレビュー体制を構築する必要があります。

    レビュー体制を構築する
  16. Appendix

  17. Image Classificationでは画像を分類できます。 画像にあらかじめ設定したタグをつけていきます。ラベルは複数のカテゴリを設定することができ、1枚の画像に対して 異なる切り口から複数のラベル付けが可能です。 【参考】ABEJA Platform Annotation テンプレート Image Classification

  18. Object Detectionでは、静止画上の対象物を、バウンディングボックス(矩形)で囲み、ラベル付けを行うことが可能で す。 ラベルは自由に設定可能で、バウンディングボックスのサイズ変更、事前のアノテーション情報を維持したまま次のタ スクに移動することができるキープ機能などを備えており、大量のタスク処理にも適しています。 【参考】ABEJA Platform Annotation テンプレート Object Detection

  19. Image Segmentationでは、静止画上の対象物に対し、筆ペンを利用してドット単位でのアノテーションを実施すること が可能です。 筆ペンのサイズ変更、消しゴム機能、ズーム機能を備えており、比較的負荷の大きいセグメンテーションにおいてもス ムーズな作業ができるような機能を提供します。 【参考】ABEJA Platform Annotation テンプレート Image Segmentation

  20. Polygon Segmentationでは、静止画上の対象物に対し、点を使ってドット単位でのアノテーションを実施することが可 能です。 Detectionテンプレートのような、バウンディングボックス(四角形)ではうまく抽出ができない範囲も容易かつ適切に抽 出でき、座標データの出力が可能になります。 【参考】ABEJA Platform Annotation テンプレート Polygon Segmentation

  21. Video scene Labelingでは、動画のアクションへのラベル付けを行うことができます。 開始時間と終了時間を選択し、その時間帯に何を行ったかラベルをつけるものです。 動画の高速再生機能、停止機能、リピート再生機能を設けており複雑な動画へのアノテーションもスムーズに実施す ることができます。 【参考】ABEJA Platform Annotation テンプレート Video scene

    Labeling 21
  22. Voice to Textでは、音声からの文字情報を抽出してフリーテキストで情報付与が可能です。 音声の高速再生機能、停止機能、リピート再生機能を設けておりスムーズに作業を実施することができます。 【参考】ABEJA Platform Annotation テンプレート Voice to Text

  23. Image to Textでは、画像から文字情報を抽出しラベル付けを行うことができます。 画像に対してフリーテキストで情報を付与することができ、また、1つの画像に複数のラベルを付与することが可能で す。 【参考】ABEJA Platform Annotation テンプレート Image to Text

  24. Text Classificationでは、テキスト全文に対してラベル付けを行うことができます。 複数のラベルを付与が可能です。 【参考】ABEJA Platform Annotation テンプレート Text Classification

  25. 【参考】ABEJA Platform Annotation テンプレート Text Extraction Text Extractionでは、テキスト内の文章や単語を抽出し、ラベル付けを行うことができます。 1つの単語に複数のラベルを付与したり、文章に意味付けを行うことで単語抽出はもちろん、1つの文章から様々な構造データを生成 することが可能になります。

  26. あらゆるデータが価値をまとい、世の中を動かすエネルギーになる。 ABEJAは、アノテーションという、存在するデータに価値をつけることを支援するだけでなく、あらゆる手段を講じ、存在しなかったデータも生 み出してきました。 様々な人の手を経て価値をまとったデータが、社会を変え、また新たな価値をまとう。 ABEJAはその循環を支えたいと考えています。 データを集めたい。増やしたい。作りたい。価値を知りたい。そんなときは、私たちに相談してください。

  27. 【本資料問い合わせ先】 株式会社ABEJA E-mail : platform@abejainc.com https://abejainc.com/platform/ja/dataset/ ご静聴いただきありがとうございました。 ご不明な点があれば、ぜひお問い合わせください。