Upgrade to Pro — share decks privately, control downloads, hide ads and more …

数百万件を超えるアノテーション実績から伝える、アノテーションマネージメントの重要性とそのノウハウ

ABEJA
March 04, 2019

 数百万件を超えるアノテーション実績から伝える、アノテーションマネージメントの重要性とそのノウハウ

SIX 2019 dev-e-4
Kazunari Izumi @ABEJA, Inc.

「数百万件を超えるアノテーション実績から伝える、アノテーションマネージメントの重要性とそのノウハウ」

200万件を超えるデータの取扱実績のあるABEJAにおいて重要視しているアノテーションにおけるマネージメントのノウハウをアノテータマネージャーの視点でお伝えしました。

ABEJA

March 04, 2019
Tweet

More Decks by ABEJA

Other Decks in Technology

Transcript

  1. DAY 1 “技” Developer Day
    数百万件を超えるアノテーション実績から伝
    える、アノテーションマネージメントの重要
    性とそのノウハウ
    泉 和成 株式会社ABEJA

    View Slide

  2. Introduction
    泉 和成
    略歴
    2010年University of Nevada, Reno卒業
    米国就労後にスタートアップ2社経験
    その後、ABEJAにジョイン
    ABEJAでは事業部横断型にて、
    ソリューションのフロントセールスを行う。

    View Slide

  3. 機械学習/深層学習とは?

    View Slide

  4. 機械学習/深層学習

    View Slide

  5. コールセンター自動化
    顧客セグメント/パターン分析
    在庫配分最適化
    設備投資予測
    不良品検知自動化
    人員数最適化
    蓄積データを活用し、
    機械学習/深層学習のモデルを用いた発展的な活用

    View Slide

  6. 機械学習/深層学習のモデルを
    開発する為には、教師データが必要
    ※教師あり学習・半教師あり学習の研究分野おいて

    View Slide

  7. 大量のデータがあるので、
    機械学習/深層学習のAIモデル開発につかいたい。
    多様なディバイスや
    システム情報情報
    生データ データベース モデル

    View Slide

  8. 大量のデータがあるので、
    機械学習/深層学習のAIモデル開発につかいたい。
    多様なディバイスや
    システム情報情報
    生データ データベース モデル
    大量のデータがあるだけではダメ。

    View Slide

  9. 教師データ
    「猫」
    データ
    AIモデル開発には大量のデータでなく、
    教師データが必要です。

    View Slide

  10. で・・・アノテーションとは何のか?

    View Slide

  11. ラベル
    付け
    人が「このデータは猫だよ」と言うように、
    「ラベル付け」を行うことです。
    生データ データベース モデル
    「猫」
    アノテーション

    View Slide

  12. なぜアノテーションは大事?

    View Slide

  13. GOOD
    教師データ
    GOOD
    モデル
    高い精度のモデル開発には、
    高品質の教師データを用意することが大事。
    「猫」

    View Slide

  14. アノテーションの成功とは?

    View Slide

  15. ビジネスインパクとの高いモデル開発の為に必要なデータ量を
    正確にアノテーションし、品質の高い教師データを生成すること。
    QUALITY QUANTITY
    アノテーションの成功とは・・・

    View Slide

  16. アノテーション成功へのチップス

    View Slide

  17. 高品質な教師データ作成の
    要因は3つ。

    View Slide

  18. 高品質の
    教師データ作成

    View Slide

  19. 高品質の
    教師データ作成
    要件定義
    (マニュアル)

    View Slide

  20. 高品質の
    教師データ作成
    要件定義
    (マニュアル)
    ワーカーの精度管理

    View Slide

  21. 高品質の
    教師データ作成
    要件定義
    (マニュアル)
    ワーカーの精度管理
    生データの質と量

    View Slide

  22. で、どうやったら成功できるの??

    View Slide

  23. The Answer is・・・

    View Slide

  24. “アノテーションマネージャー”
    The Answer is・・・

    View Slide

  25. なぜなら・・・

    View Slide

  26. 優れたアノテーションMGは詳細な要件定義を用いて
    明確な指示をメンバーにし、成功へ導く船頭だから。

    View Slide

  27. アノテーションMGが関わる点は?

    View Slide

  28. 高品質の
    教師データ作成
    要件定義
    (マニュアル)
    ワーカーの精度管理
    生データの質と量
    アノテーションMGがマネージ関わる点

    View Slide

  29. ・判断基準(判定基準)が十分に明記されているか?
    ・懸念点の洗い出しは十分か?
    要件定義(マニュアル)で気を付ける点

    View Slide

  30. 正解が曖昧なまま作成されてしまった教師データを
    学習にかけると、モデルの精度が下がってしまう可能性がある
    判定基準は明記されているか?

    View Slide

  31. 個人個人の判断のブレや作業中の疑問を極力減らし、
    統一の判断軸による要件定義が必要
    判定基準は明記されているか?

    View Slide

  32. 枚数 : 100枚程度
    ラベル : 全種類
    <トライアル実施後のQ>
    ・子犬の定義は?
    ・子猫か成猫か分からない写真は?
    ・ウサギは子供か見分けがつき難い。
    ・Bouning Boxのサイズはどこまで?
    ・知らない犬種はいないか?
    懸念点は洗い出されているか?

    View Slide

  33. ワーカーの精度管理で気を付ける点
    ・運用ルール
    ・最適なアノテーターの選択

    View Slide

  34. 運用ルール
    朝礼
    Q&A
    レポートライン
    アノテーターの
    認識・意識統一
    MGによる
    回答基準の統一
    レビュー体制
    Dailyレビューによ
    る品質向上

    View Slide

  35. 国・文化が影響するアノテーション
    はアノテーターを限定する。
    最適なアノテーターの選択

    View Slide

  36. 専門的知識が必要なアノテーション
    も人を選ぶ。
    最適なアノテーターの選択

    View Slide

  37. 優秀なアノテーションマネージャーは
    ・アノテーターが困らない、悩まない、迷わない、
    「要件定義(マニュアル)」の作成
    ・アノテーターとの認識統一を図る環境・フローの構築
    ・生データに対して最適なワーカーを選択する
    つまり・・・
    高品質な教師データ作成

    View Slide

  38. 生データはアノテーション実施前に確認する

    View Slide

  39. 高品質の
    教師データ作成
    要件定義
    (マニュアル)
    ワーカーの精度管理
    生データの質・量
    アノテーション実施決定する前に確認すること

    View Slide

  40. アノテーション実施前に確認する点
    ・数量と種類:生データ量は足りているか?
    ・品質:精度に関わるノイズが入っていないか?

    View Slide

  41. 数量と種類
    数量
    精度
    正確な
    教師データセットが
    少ない場合
    正確な教師データセットが
    多くなった場合
    正確な教師データ量 モデル精度

    View Slide

  42. 数量と種類
    特定のラベルのデータが多かったり少なかったりすると、
    データが少ないものがほとんど検出できない

    View Slide

  43. なので、少ないと・・・
    チワワ?
    なんてことが・・・

    View Slide

  44. 品質
    ・輝度(きど)、明暗
    ‐判断がぶれるノイズ
    (実用時に環境変化がある場合は必要)
    ・背景
    ‐停止物は背景がノイズ
    ノイズ

    View Slide

  45. 過去事例

    View Slide

  46. 過去事例①
    対象データ:見取図
    数量:1,000枚
    ラベル数:18種(大分類2種、中分類各9種)
    アノテーション:Bounding BoxによるDetection
    納期:約2週間

    View Slide

  47. 例1
    Before After

    View Slide

  48. 例2
    Before After

    View Slide

  49. 1枚やってみましょう。

    View Slide

  50. View Slide

  51. View Slide

  52. View Slide

  53. Almost there …

    View Slide

  54. View Slide

  55. Done!Finish!

    View Slide

  56. 見えた課題
    時間がかかる
    高いレビューコスト

    View Slide

  57. 時間がかかる
    高いレビューコスト
    レビューから
    間違いやすいラベル・手順の洗
    い出し
    間違いがやすい点を随時
    マニュアルにアップデート
    アノテーターへの共有・振返り
    の強化
    課題に対する解決

    View Slide

  58. 過去事例②
    対象データ:料理画像
    数量:10,000枚
    ラベル数:50種(大分類6種、小分類各8~9種)
    アノテーション:Bounding BoxによるDetection
    納期:約3週間

    View Slide

  59. 例1

    View Slide

  60. 例2

    View Slide

  61. 見えた課題
    基準が曖昧で言語化しづらい
    野菜炒め
    もやし炒め
    野菜炒め
    豚肉炒め
    人により答えがバラバラ

    View Slide

  62. 課題に対する解決
    人による曖昧
    な判断基準
    多数のアンカリング(判定基準)の作成
    野菜炒め もやし炒め 豚肉炒め
    チームリーダーを設定し、
    随時Q&Aに応えれる環境を設定

    View Slide

  63. 振り返り
    ・高品質の教師データ=精度の高いモデル
    ・優秀なアノテーションマネージャー
    ・要件定義(マニュアル)
    ・ワーカー管理
    ・データの質・量の確認

    View Slide

  64. ABEJAが提供するソリューション
    ABEJA Annotation ツール
    ‐ 多種多様なテンプレートを用意している。
    ‐ 品質管理できるようになっている。
    ‐ 機能追加をゴリゴリしている。
    ABEJA Annotation(受託)
    ‐ 国内最大級のアノテーション受託量。
    ‐ 成功へのチップスを理解している。
    ‐ 優秀なアノテーションMGを抱えている。
    アノテーションを
    外注したい
    自社でアノテーションを
    行っていきたい

    View Slide

  65. ABEJAが提供するソリューション
    ABEJA Annotation ツール
    ツール試用に関するお問い合わせはこちら
    https://abejainc.com/platform/ja/demoaccount_annotation/
    ABEJA Annotation 委託サービス
    お問い合わせはこちら
    https://abejainc.com/platform/ja/contact/
    委託して
    自社で

    View Slide

  66. After the lecture is over, we are waiting at the Ask the Speaker section of the exhibition area.
    If you have any questions, please come to this corner after the session ends.
    See you Ask the Speaker !!

    View Slide

  67. Thank you for listening.
    Enjoy ABEJA SIX2019.

    View Slide