Save 37% off PRO during our Black Friday Sale! »

数百万件を超えるアノテーション実績から伝える、アノテーションマネージメントの重要性とそのノウハウ

Ade0cb4143c001fef8ca5aa320c2eb1d?s=47 ABEJA
March 04, 2019

 数百万件を超えるアノテーション実績から伝える、アノテーションマネージメントの重要性とそのノウハウ

SIX 2019 dev-e-4
Kazunari Izumi @ABEJA, Inc.

「数百万件を超えるアノテーション実績から伝える、アノテーションマネージメントの重要性とそのノウハウ」

200万件を超えるデータの取扱実績のあるABEJAにおいて重要視しているアノテーションにおけるマネージメントのノウハウをアノテータマネージャーの視点でお伝えしました。

Ade0cb4143c001fef8ca5aa320c2eb1d?s=128

ABEJA

March 04, 2019
Tweet

Transcript

  1. DAY 1 “技” Developer Day 数百万件を超えるアノテーション実績から伝 える、アノテーションマネージメントの重要 性とそのノウハウ 泉 和成

    株式会社ABEJA
  2. Introduction 泉 和成 略歴 2010年University of Nevada, Reno卒業 米国就労後にスタートアップ2社経験 その後、ABEJAにジョイン

    ABEJAでは事業部横断型にて、 ソリューションのフロントセールスを行う。
  3. 機械学習/深層学習とは?

  4. 機械学習/深層学習

  5. コールセンター自動化 顧客セグメント/パターン分析 在庫配分最適化 設備投資予測 不良品検知自動化 人員数最適化 蓄積データを活用し、 機械学習/深層学習のモデルを用いた発展的な活用

  6. 機械学習/深層学習のモデルを 開発する為には、教師データが必要 ※教師あり学習・半教師あり学習の研究分野おいて

  7. 大量のデータがあるので、 機械学習/深層学習のAIモデル開発につかいたい。 多様なディバイスや システム情報情報 生データ データベース モデル

  8. 大量のデータがあるので、 機械学習/深層学習のAIモデル開発につかいたい。 多様なディバイスや システム情報情報 生データ データベース モデル 大量のデータがあるだけではダメ。

  9. 教師データ 「猫」 データ AIモデル開発には大量のデータでなく、 教師データが必要です。

  10. で・・・アノテーションとは何のか?

  11. ラベル 付け 人が「このデータは猫だよ」と言うように、 「ラベル付け」を行うことです。 生データ データベース モデル 「猫」 アノテーション

  12. なぜアノテーションは大事?

  13. GOOD 教師データ GOOD モデル 高い精度のモデル開発には、 高品質の教師データを用意することが大事。 「猫」

  14. アノテーションの成功とは?

  15. ビジネスインパクとの高いモデル開発の為に必要なデータ量を 正確にアノテーションし、品質の高い教師データを生成すること。 QUALITY QUANTITY アノテーションの成功とは・・・

  16. アノテーション成功へのチップス

  17. 高品質な教師データ作成の 要因は3つ。

  18. 高品質の 教師データ作成

  19. 高品質の 教師データ作成 要件定義 (マニュアル)

  20. 高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理

  21. 高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理 生データの質と量

  22. で、どうやったら成功できるの??

  23. The Answer is・・・

  24. “アノテーションマネージャー” The Answer is・・・

  25. なぜなら・・・

  26. 優れたアノテーションMGは詳細な要件定義を用いて 明確な指示をメンバーにし、成功へ導く船頭だから。

  27. アノテーションMGが関わる点は?

  28. 高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理 生データの質と量 アノテーションMGがマネージ関わる点

  29. ・判断基準(判定基準)が十分に明記されているか? ・懸念点の洗い出しは十分か? 要件定義(マニュアル)で気を付ける点

  30. 正解が曖昧なまま作成されてしまった教師データを 学習にかけると、モデルの精度が下がってしまう可能性がある 判定基準は明記されているか?

  31. 個人個人の判断のブレや作業中の疑問を極力減らし、 統一の判断軸による要件定義が必要 判定基準は明記されているか?

  32. 枚数 : 100枚程度 ラベル : 全種類 <トライアル実施後のQ> ・子犬の定義は? ・子猫か成猫か分からない写真は? ・ウサギは子供か見分けがつき難い。

    ・Bouning Boxのサイズはどこまで? ・知らない犬種はいないか? 懸念点は洗い出されているか?
  33. ワーカーの精度管理で気を付ける点 ・運用ルール ・最適なアノテーターの選択

  34. 運用ルール 朝礼 Q&A レポートライン アノテーターの 認識・意識統一 MGによる 回答基準の統一 レビュー体制 Dailyレビューによ

    る品質向上
  35. 国・文化が影響するアノテーション はアノテーターを限定する。 最適なアノテーターの選択

  36. 専門的知識が必要なアノテーション も人を選ぶ。 最適なアノテーターの選択

  37. 優秀なアノテーションマネージャーは ・アノテーターが困らない、悩まない、迷わない、 「要件定義(マニュアル)」の作成 ・アノテーターとの認識統一を図る環境・フローの構築 ・生データに対して最適なワーカーを選択する つまり・・・ 高品質な教師データ作成

  38. 生データはアノテーション実施前に確認する

  39. 高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理 生データの質・量 アノテーション実施決定する前に確認すること

  40. アノテーション実施前に確認する点 ・数量と種類:生データ量は足りているか? ・品質:精度に関わるノイズが入っていないか?

  41. 数量と種類 数量 精度 正確な 教師データセットが 少ない場合 正確な教師データセットが 多くなった場合 正確な教師データ量 モデル精度

  42. 数量と種類 特定のラベルのデータが多かったり少なかったりすると、 データが少ないものがほとんど検出できない

  43. なので、少ないと・・・ チワワ? なんてことが・・・

  44. 品質 ・輝度(きど)、明暗 ‐判断がぶれるノイズ (実用時に環境変化がある場合は必要) ・背景 ‐停止物は背景がノイズ ノイズ

  45. 過去事例

  46. 過去事例① 対象データ:見取図 数量:1,000枚 ラベル数:18種(大分類2種、中分類各9種) アノテーション:Bounding BoxによるDetection 納期:約2週間

  47. 例1 Before After

  48. 例2 Before After

  49. 1枚やってみましょう。

  50. None
  51. None
  52. None
  53. Almost there …

  54. None
  55. Done!Finish!

  56. 見えた課題 時間がかかる 高いレビューコスト

  57. 時間がかかる 高いレビューコスト レビューから 間違いやすいラベル・手順の洗 い出し 間違いがやすい点を随時 マニュアルにアップデート アノテーターへの共有・振返り の強化 課題に対する解決

  58. 過去事例② 対象データ:料理画像 数量:10,000枚 ラベル数:50種(大分類6種、小分類各8~9種) アノテーション:Bounding BoxによるDetection 納期:約3週間

  59. 例1

  60. 例2

  61. 見えた課題 基準が曖昧で言語化しづらい 野菜炒め もやし炒め 野菜炒め 豚肉炒め 人により答えがバラバラ

  62. 課題に対する解決 人による曖昧 な判断基準 多数のアンカリング(判定基準)の作成 野菜炒め もやし炒め 豚肉炒め チームリーダーを設定し、 随時Q&Aに応えれる環境を設定

  63. 振り返り ・高品質の教師データ=精度の高いモデル ・優秀なアノテーションマネージャー ・要件定義(マニュアル) ・ワーカー管理 ・データの質・量の確認

  64. ABEJAが提供するソリューション ABEJA Annotation ツール ‐ 多種多様なテンプレートを用意している。 ‐ 品質管理できるようになっている。 ‐ 機能追加をゴリゴリしている。

    ABEJA Annotation(受託) ‐ 国内最大級のアノテーション受託量。 ‐ 成功へのチップスを理解している。 ‐ 優秀なアノテーションMGを抱えている。 アノテーションを 外注したい 自社でアノテーションを 行っていきたい
  65. ABEJAが提供するソリューション ABEJA Annotation ツール ツール試用に関するお問い合わせはこちら https://abejainc.com/platform/ja/demoaccount_annotation/ ABEJA Annotation 委託サービス お問い合わせはこちら

    https://abejainc.com/platform/ja/contact/ 委託して 自社で
  66. After the lecture is over, we are waiting at the

    Ask the Speaker section of the exhibition area. If you have any questions, please come to this corner after the session ends. See you Ask the Speaker !!
  67. Thank you for listening. Enjoy ABEJA SIX2019.