SIX 2019 dev-e-4 Kazunari Izumi @ABEJA, Inc.
「数百万件を超えるアノテーション実績から伝える、アノテーションマネージメントの重要性とそのノウハウ」
200万件を超えるデータの取扱実績のあるABEJAにおいて重要視しているアノテーションにおけるマネージメントのノウハウをアノテータマネージャーの視点でお伝えしました。
DAY 1 “技” Developer Day数百万件を超えるアノテーション実績から伝える、アノテーションマネージメントの重要性とそのノウハウ泉 和成 株式会社ABEJA
View Slide
Introduction泉 和成略歴2010年University of Nevada, Reno卒業米国就労後にスタートアップ2社経験その後、ABEJAにジョインABEJAでは事業部横断型にて、ソリューションのフロントセールスを行う。
機械学習/深層学習とは?
機械学習/深層学習
コールセンター自動化顧客セグメント/パターン分析在庫配分最適化設備投資予測不良品検知自動化人員数最適化蓄積データを活用し、機械学習/深層学習のモデルを用いた発展的な活用
機械学習/深層学習のモデルを開発する為には、教師データが必要※教師あり学習・半教師あり学習の研究分野おいて
大量のデータがあるので、機械学習/深層学習のAIモデル開発につかいたい。多様なディバイスやシステム情報情報生データ データベース モデル
大量のデータがあるので、機械学習/深層学習のAIモデル開発につかいたい。多様なディバイスやシステム情報情報生データ データベース モデル大量のデータがあるだけではダメ。
教師データ「猫」データAIモデル開発には大量のデータでなく、教師データが必要です。
で・・・アノテーションとは何のか?
ラベル付け人が「このデータは猫だよ」と言うように、「ラベル付け」を行うことです。生データ データベース モデル「猫」アノテーション
なぜアノテーションは大事?
GOOD教師データGOODモデル高い精度のモデル開発には、高品質の教師データを用意することが大事。「猫」
アノテーションの成功とは?
ビジネスインパクとの高いモデル開発の為に必要なデータ量を正確にアノテーションし、品質の高い教師データを生成すること。QUALITY QUANTITYアノテーションの成功とは・・・
アノテーション成功へのチップス
高品質な教師データ作成の要因は3つ。
高品質の教師データ作成
高品質の教師データ作成要件定義(マニュアル)
高品質の教師データ作成要件定義(マニュアル)ワーカーの精度管理
高品質の教師データ作成要件定義(マニュアル)ワーカーの精度管理生データの質と量
で、どうやったら成功できるの??
The Answer is・・・
“アノテーションマネージャー”The Answer is・・・
なぜなら・・・
優れたアノテーションMGは詳細な要件定義を用いて明確な指示をメンバーにし、成功へ導く船頭だから。
アノテーションMGが関わる点は?
高品質の教師データ作成要件定義(マニュアル)ワーカーの精度管理生データの質と量アノテーションMGがマネージ関わる点
・判断基準(判定基準)が十分に明記されているか?・懸念点の洗い出しは十分か?要件定義(マニュアル)で気を付ける点
正解が曖昧なまま作成されてしまった教師データを学習にかけると、モデルの精度が下がってしまう可能性がある判定基準は明記されているか?
個人個人の判断のブレや作業中の疑問を極力減らし、統一の判断軸による要件定義が必要判定基準は明記されているか?
枚数 : 100枚程度ラベル : 全種類<トライアル実施後のQ>・子犬の定義は?・子猫か成猫か分からない写真は?・ウサギは子供か見分けがつき難い。・Bouning Boxのサイズはどこまで?・知らない犬種はいないか?懸念点は洗い出されているか?
ワーカーの精度管理で気を付ける点・運用ルール・最適なアノテーターの選択
運用ルール朝礼Q&Aレポートラインアノテーターの認識・意識統一MGによる回答基準の統一レビュー体制Dailyレビューによる品質向上
国・文化が影響するアノテーションはアノテーターを限定する。最適なアノテーターの選択
専門的知識が必要なアノテーションも人を選ぶ。最適なアノテーターの選択
優秀なアノテーションマネージャーは・アノテーターが困らない、悩まない、迷わない、「要件定義(マニュアル)」の作成・アノテーターとの認識統一を図る環境・フローの構築・生データに対して最適なワーカーを選択するつまり・・・高品質な教師データ作成
生データはアノテーション実施前に確認する
高品質の教師データ作成要件定義(マニュアル)ワーカーの精度管理生データの質・量アノテーション実施決定する前に確認すること
アノテーション実施前に確認する点・数量と種類:生データ量は足りているか?・品質:精度に関わるノイズが入っていないか?
数量と種類数量精度正確な教師データセットが少ない場合正確な教師データセットが多くなった場合正確な教師データ量 モデル精度
数量と種類特定のラベルのデータが多かったり少なかったりすると、データが少ないものがほとんど検出できない
なので、少ないと・・・チワワ?なんてことが・・・
品質・輝度(きど)、明暗‐判断がぶれるノイズ(実用時に環境変化がある場合は必要)・背景‐停止物は背景がノイズノイズ
過去事例
過去事例①対象データ:見取図数量:1,000枚ラベル数:18種(大分類2種、中分類各9種)アノテーション:Bounding BoxによるDetection納期:約2週間
例1Before After
例2Before After
1枚やってみましょう。
Almost there …
Done!Finish!
見えた課題時間がかかる高いレビューコスト
時間がかかる高いレビューコストレビューから間違いやすいラベル・手順の洗い出し間違いがやすい点を随時マニュアルにアップデートアノテーターへの共有・振返りの強化課題に対する解決
過去事例②対象データ:料理画像数量:10,000枚ラベル数:50種(大分類6種、小分類各8~9種)アノテーション:Bounding BoxによるDetection納期:約3週間
例1
例2
見えた課題基準が曖昧で言語化しづらい野菜炒めもやし炒め野菜炒め豚肉炒め人により答えがバラバラ
課題に対する解決人による曖昧な判断基準多数のアンカリング(判定基準)の作成野菜炒め もやし炒め 豚肉炒めチームリーダーを設定し、随時Q&Aに応えれる環境を設定
振り返り・高品質の教師データ=精度の高いモデル・優秀なアノテーションマネージャー・要件定義(マニュアル)・ワーカー管理・データの質・量の確認
ABEJAが提供するソリューションABEJA Annotation ツール‐ 多種多様なテンプレートを用意している。‐ 品質管理できるようになっている。‐ 機能追加をゴリゴリしている。ABEJA Annotation(受託)‐ 国内最大級のアノテーション受託量。‐ 成功へのチップスを理解している。‐ 優秀なアノテーションMGを抱えている。アノテーションを外注したい自社でアノテーションを行っていきたい
ABEJAが提供するソリューションABEJA Annotation ツールツール試用に関するお問い合わせはこちらhttps://abejainc.com/platform/ja/demoaccount_annotation/ABEJA Annotation 委託サービスお問い合わせはこちらhttps://abejainc.com/platform/ja/contact/委託して自社で
After the lecture is over, we are waiting at the Ask the Speaker section of the exhibition area.If you have any questions, please come to this corner after the session ends.See you Ask the Speaker !!
Thank you for listening.Enjoy ABEJA SIX2019.