Upgrade to Pro — share decks privately, control downloads, hide ads and more …

株式会社ABEJA_アノテーションにおける運用上のノウハウの紹介

Go
April 30, 2020
1.9k

 株式会社ABEJA_アノテーションにおける運用上のノウハウの紹介

株式会社ABEJAでは、200社以上の導入実績を誇るディープラーニングのリーディングカンパニーとして豊富なAI活用の知見・ノウハウをもとにお客様の状況やニーズに合わせてAI導入・活用まで一気通貫で支援しております。 様々な業界のお客様と共にAIの社会実装に取り組む中で溜まったアノテーションのノウハウと、高品質なデータセットを作成する為に、ABEJA Platform Annotationのサービスにおけるアノテーション作業から品質チェック、管理進行までの業務プロセスの課題と対策を紹介します。

Go

April 30, 2020
Tweet

Transcript

  1. 帰納的アプローチをとるAIモデルの設計・学習過程では、相対的に試行錯誤を繰り返すことが多いため、 ノウハウが重要です。ABEJAは2012年創業以降、200社以上の業界を牽引する企業へAIを導入して参りました。 ABEJAの強み 4 業界を牽引する 各社からの評価 NVIDIA、Googleなど世界的企業から国内優良 事業会社まで様々な企業が ABEJAへ出資。 AWSより技術力を評価され

    Machine Learning コ ンピテンシーを国内初で認定。 出資企業 開発・運用を加速する PLATFORMの提供 AI実装におけるフルマネージドなプラットフォーム であるABEJA Platformを提供。運用までトータル でサポート。 200社以上の導入・運用実績 2012年から7年間で小売・流通、製造業、物流業 など、150 社以上の様々な業界で導入。 AI、IoT、ビッグデータ周りのノウハウを蓄積。 取引実績企業
  2. ABEJA Platform Annotationは、アノテーション委託サービス、アノテーションツールの2つのサービスを提供しており、いずれも精度 の高い教師データを高速に作成・提供することに特化しています。 ABEJA Platform Annotationが提供するサービス 5 2 アノテーションツール

    直感的な操作のもと、均一化された品質のデータを効率的に作成できるツールです。 1 アノテーション委託サービス 10万件のデータを1週間で作成できるリソースで、高品質なデータを提供します。
  3. 機械学習を社会実装するプロセスは主に1.データ取得(収集) 2.蓄積(アノテーション)3.学習 4.デプロイ(評価)5.運用という流れとなり ます。 データセット作成工程は上流工程となり,その品質は学習や評価,運用などの下流工程において大きな影響を及ぼすため慎重な設計 や検討が必要となります。 運用までのプロセスとデータ収集とアノテーションの重要性 04 デプロイ 01

    取得 05 推論・再学習 03 学習 02 蓄積 AIの継続的 インテグレーションを実現 01 取得 システムや多数の IoTデバイスとABEJA Platformが接続 し、自動的に負荷分散を行いながらデータの取得を行うこ とができます。 02 蓄積 取得したデータをスケーラブルに Datalakeへ格納し、蓄積 したデータのバリデーションを実行します。 教師付きデータ 作成(アノテーション)を効率的に実現する ツールの提供 や、作成代行を行います。 03 学習 GPUを使った学習環境が用意されており効率的にモデル の開発ができます。チューニング時の学習データ、モデル などのバージョンを GUIツールで管理することにより、開発 の時間短縮を図れます。 04 デプロイ 学習ごとに自動的に精度評価を行うことができます。評価 後モデルを選択するだけで、 IoTデバイスを含めた本番環 境へ自動的にデプロイを行うことができます。 05 推論・再学習 システムの監視機能が標準装備され、デバイスの故障や 異常を検知します。スケジュール機能により、ユーザの任 意のタイミングでモデルの再学習が可能です。
  4. アノテーションにおける理想は,収集されたデータに対して,そこから学習されるモデルの学習効率が最大化されるような情報をなるべ く効率的に付与することです。 アノテーションにおいても,(1)アノテーション定義の曖昧さ,(2)アノテーション実施者の感性,(3)エキスパートの必要性(e.g. 医療画像 の疾患判定),(4)認知容量を超える規模のほか,必然的に生じる(5)ケアレスミスへの対処も必要となる アノテーションにおけるポイント 課題 アノテーション実施者の感性 アノテーション定義の曖昧さ エキスパートの必要性

    認知容量を超える規模 ケアレスミス 具体例 美しさのような感性情報や、テキスト情報から受ける印象のポジティ ブ・ネガティブ判定 衣服のカテゴリにおけるカットソーとスウェットの違い 医療画像の疾患判定 カテゴリ数が1000を超えるアノテーション 作業者のミスタッチ 解決策 判断軸とサンプル の提示 アサインメントの調整 アウトソーシングによるスケール レビュー体制 機械的なチェック 作業精度の明確化
  5. プロジェクト毎に実績豊富な担当者が作業の進捗・データの品質等を管理する体制をとり、納品物の品質担保を行なっております。 レビュー体制について 発注者 project ABEJA 担当者 ABEJA 担当者 納品物 発注者

    ※作業の一部をパートナー企業様に再委託する場合もございます 専任のPMが 要件定義 専門アノテーターを アサイン ABEJA Platformで 作業を実施 PMが 作業結果を確認 品質に問題がない ことを確認して納品
  6. 【導入事例】FiNC Technologies 株式会社 導入内容 導入背景 成果 会社名 株式会社FiNC Technologies 事業内容

    ヘルスケアアプリの運営、法人向けウェルネス経営事業など 詳細URL(※) https://abejainc.com/platform/ja/dataset/successstory/c ase/finc/ 「食事の画像から栄養価を特定したい。料理の写真から使われている食材を推定 し、その量も同時に推定し、詳細なカロリー計算ができるようなレベルのものを」と いう無茶振りとも言えるプロジェクトが立ち上がった。 FiNCは食事の画像のデータはあれど、そこにどの程度の食材が含まれているか まではわからない。教師データをどう作るか悩んでいた。 自分たちで一から調理し、食材の使用量データをとるとともに、できあがった料理 の画像から食材を分類していくアノテーション方法を採用。ABEJAの担当者と共 に、アノテーション作業に加え、調理や料理の撮影などのオペレーション支援にも 取り組んだ。
 一連の試行錯誤(※)の末、3ヶ月で2,000品の調理を実施し、必要な教師データを 作成することができた。 
 1人だった機械学習プロジェクトも、 ABEJAの担当者が伴走することでチームのプ ロジェクトになった。 技術面だけでなく、精神面も支えられ、無事にプロジェクトを成功することができ た。 この成果を元に FiNCではユーザーに提供する、新たなサービスとして開発を進め ている。
  7. 【導入事例】株式会社LIFULL 導入内容 導入背景 成果 会社名 株式会社LIFULL 事業内容 不動産ポータルサイト「 LIFULL HOME’S」の運営

    詳細URL https://abejainc.com/platform/ja/dataset/succ essstory/case/lifull/ 物件情報を活用した不動産情報の「見える化」に取り組む LIFULLは、機械学習の技術を 使って、物件のスペック情報や画像、間取り図をもとにした新しいシステムを開発している。そ の中の1つのプロジェクトが「物件のスペック情報や間取り図を利用した」新サービスの開発。 開発者の工数はかけずに数万件の間取り図のデータを教師データにしたい、と考えていた。 過去にクラウドソーシングを活用した経緯はあったがその際に発生するプロジェクト管理コス トに課題を感じており、その点も解決可能な ABEJA Platform Annotation 委託サービスの 導 入を決定。 Object Detectionテンプレートを使用し、 1万件のデータを教師データ化するプロジェクトが始 まった。 ABEJAの委託サービスでは、データ作成の途中にデータを納品し、アノテーションの品質の チェックなどを行うプロセスがある。 LIFULLのプロジェクトでは 1,000枚のデータを途中納品し たタイミングで、 もともと1万件のデータで得られると期待していた精度が 1,000枚で達成され るという驚くべき成果が得られた。 品質の高い教師データを使えば、少量のデータでも十分な結果を得られることがわかるプロ ジェクトとなり、 LIFULLでは新規サービスの開発を行っている。
  8. 【導入事例】株式会社トプコン 委託サービス IT企業 導入内容 導入背景 成果 会社名 株式会社トプコン 事業内容 医療機器、測量機器等の製造販売

    詳細URL https://abejainc.com/platform/ja/dataset/successstory/c ase/topcon/ 眼底検査のさらなる進歩のために検査用の画像データから眼の異常を検出する AIモデ ルを構築したいと考えていた。 企業のAI化に向けた実装ノウハウをプラットフォームとして提供していることや、 AI普及に 向けたビジョンなどを説明を受け、その内容も非常に腑に落ちるものがあった。 コンペの結果、技術力や知見が高く評価され学習データづくりの段階で ABEJA Platfrom Annotation を利用した。 画像データのアノテーションは医師が通常業務の傍ら作業することになる為、負担が少な いものが求められるがアノテーションの範囲指定や種類分けなども非常に簡単に変えら れることなどが画期的だった。 また、作業の設定の際に少し使いづらい点をフィードバックしたところ、すぐに改善しても らえた。 "Healthcare through the eye"を中期経営計画に盛り込み、クラウドを活用した遠隔スク リーニングシステムで、眼を通じてヘルスケアに貢献するというミッションのもと、眼の画 像の異常検出の AIモデルをクラウドにつなげるシステムを構築を進めいてる。