Slide 1

Slide 1 text

DAY 1 “技” Developer Day 数百万件を超えるアノテーション実績から伝 える、アノテーションマネージメントの重要 性とそのノウハウ 泉 和成 株式会社ABEJA

Slide 2

Slide 2 text

Introduction 泉 和成 略歴 2010年University of Nevada, Reno卒業 米国就労後にスタートアップ2社経験 その後、ABEJAにジョイン ABEJAでは事業部横断型にて、 ソリューションのフロントセールスを行う。

Slide 3

Slide 3 text

機械学習/深層学習とは?

Slide 4

Slide 4 text

機械学習/深層学習

Slide 5

Slide 5 text

コールセンター自動化 顧客セグメント/パターン分析 在庫配分最適化 設備投資予測 不良品検知自動化 人員数最適化 蓄積データを活用し、 機械学習/深層学習のモデルを用いた発展的な活用

Slide 6

Slide 6 text

機械学習/深層学習のモデルを 開発する為には、教師データが必要 ※教師あり学習・半教師あり学習の研究分野おいて

Slide 7

Slide 7 text

大量のデータがあるので、 機械学習/深層学習のAIモデル開発につかいたい。 多様なディバイスや システム情報情報 生データ データベース モデル

Slide 8

Slide 8 text

大量のデータがあるので、 機械学習/深層学習のAIモデル開発につかいたい。 多様なディバイスや システム情報情報 生データ データベース モデル 大量のデータがあるだけではダメ。

Slide 9

Slide 9 text

教師データ 「猫」 データ AIモデル開発には大量のデータでなく、 教師データが必要です。

Slide 10

Slide 10 text

で・・・アノテーションとは何のか?

Slide 11

Slide 11 text

ラベル 付け 人が「このデータは猫だよ」と言うように、 「ラベル付け」を行うことです。 生データ データベース モデル 「猫」 アノテーション

Slide 12

Slide 12 text

なぜアノテーションは大事?

Slide 13

Slide 13 text

GOOD 教師データ GOOD モデル 高い精度のモデル開発には、 高品質の教師データを用意することが大事。 「猫」

Slide 14

Slide 14 text

アノテーションの成功とは?

Slide 15

Slide 15 text

ビジネスインパクとの高いモデル開発の為に必要なデータ量を 正確にアノテーションし、品質の高い教師データを生成すること。 QUALITY QUANTITY アノテーションの成功とは・・・

Slide 16

Slide 16 text

アノテーション成功へのチップス

Slide 17

Slide 17 text

高品質な教師データ作成の 要因は3つ。

Slide 18

Slide 18 text

高品質の 教師データ作成

Slide 19

Slide 19 text

高品質の 教師データ作成 要件定義 (マニュアル)

Slide 20

Slide 20 text

高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理

Slide 21

Slide 21 text

高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理 生データの質と量

Slide 22

Slide 22 text

で、どうやったら成功できるの??

Slide 23

Slide 23 text

The Answer is・・・

Slide 24

Slide 24 text

“アノテーションマネージャー” The Answer is・・・

Slide 25

Slide 25 text

なぜなら・・・

Slide 26

Slide 26 text

優れたアノテーションMGは詳細な要件定義を用いて 明確な指示をメンバーにし、成功へ導く船頭だから。

Slide 27

Slide 27 text

アノテーションMGが関わる点は?

Slide 28

Slide 28 text

高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理 生データの質と量 アノテーションMGがマネージ関わる点

Slide 29

Slide 29 text

・判断基準(判定基準)が十分に明記されているか? ・懸念点の洗い出しは十分か? 要件定義(マニュアル)で気を付ける点

Slide 30

Slide 30 text

正解が曖昧なまま作成されてしまった教師データを 学習にかけると、モデルの精度が下がってしまう可能性がある 判定基準は明記されているか?

Slide 31

Slide 31 text

個人個人の判断のブレや作業中の疑問を極力減らし、 統一の判断軸による要件定義が必要 判定基準は明記されているか?

Slide 32

Slide 32 text

枚数 : 100枚程度 ラベル : 全種類 <トライアル実施後のQ> ・子犬の定義は? ・子猫か成猫か分からない写真は? ・ウサギは子供か見分けがつき難い。 ・Bouning Boxのサイズはどこまで? ・知らない犬種はいないか? 懸念点は洗い出されているか?

Slide 33

Slide 33 text

ワーカーの精度管理で気を付ける点 ・運用ルール ・最適なアノテーターの選択

Slide 34

Slide 34 text

運用ルール 朝礼 Q&A レポートライン アノテーターの 認識・意識統一 MGによる 回答基準の統一 レビュー体制 Dailyレビューによ る品質向上

Slide 35

Slide 35 text

国・文化が影響するアノテーション はアノテーターを限定する。 最適なアノテーターの選択

Slide 36

Slide 36 text

専門的知識が必要なアノテーション も人を選ぶ。 最適なアノテーターの選択

Slide 37

Slide 37 text

優秀なアノテーションマネージャーは ・アノテーターが困らない、悩まない、迷わない、 「要件定義(マニュアル)」の作成 ・アノテーターとの認識統一を図る環境・フローの構築 ・生データに対して最適なワーカーを選択する つまり・・・ 高品質な教師データ作成

Slide 38

Slide 38 text

生データはアノテーション実施前に確認する

Slide 39

Slide 39 text

高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理 生データの質・量 アノテーション実施決定する前に確認すること

Slide 40

Slide 40 text

アノテーション実施前に確認する点 ・数量と種類:生データ量は足りているか? ・品質:精度に関わるノイズが入っていないか?

Slide 41

Slide 41 text

数量と種類 数量 精度 正確な 教師データセットが 少ない場合 正確な教師データセットが 多くなった場合 正確な教師データ量 モデル精度

Slide 42

Slide 42 text

数量と種類 特定のラベルのデータが多かったり少なかったりすると、 データが少ないものがほとんど検出できない

Slide 43

Slide 43 text

なので、少ないと・・・ チワワ? なんてことが・・・

Slide 44

Slide 44 text

品質 ・輝度(きど)、明暗 ‐判断がぶれるノイズ (実用時に環境変化がある場合は必要) ・背景 ‐停止物は背景がノイズ ノイズ

Slide 45

Slide 45 text

過去事例

Slide 46

Slide 46 text

過去事例① 対象データ:見取図 数量:1,000枚 ラベル数:18種(大分類2種、中分類各9種) アノテーション:Bounding BoxによるDetection 納期:約2週間

Slide 47

Slide 47 text

例1 Before After

Slide 48

Slide 48 text

例2 Before After

Slide 49

Slide 49 text

1枚やってみましょう。

Slide 50

Slide 50 text

No content

Slide 51

Slide 51 text

No content

Slide 52

Slide 52 text

No content

Slide 53

Slide 53 text

Almost there …

Slide 54

Slide 54 text

No content

Slide 55

Slide 55 text

Done!Finish!

Slide 56

Slide 56 text

見えた課題 時間がかかる 高いレビューコスト

Slide 57

Slide 57 text

時間がかかる 高いレビューコスト レビューから 間違いやすいラベル・手順の洗 い出し 間違いがやすい点を随時 マニュアルにアップデート アノテーターへの共有・振返り の強化 課題に対する解決

Slide 58

Slide 58 text

過去事例② 対象データ:料理画像 数量:10,000枚 ラベル数:50種(大分類6種、小分類各8~9種) アノテーション:Bounding BoxによるDetection 納期:約3週間

Slide 59

Slide 59 text

例1

Slide 60

Slide 60 text

例2

Slide 61

Slide 61 text

見えた課題 基準が曖昧で言語化しづらい 野菜炒め もやし炒め 野菜炒め 豚肉炒め 人により答えがバラバラ

Slide 62

Slide 62 text

課題に対する解決 人による曖昧 な判断基準 多数のアンカリング(判定基準)の作成 野菜炒め もやし炒め 豚肉炒め チームリーダーを設定し、 随時Q&Aに応えれる環境を設定

Slide 63

Slide 63 text

振り返り ・高品質の教師データ=精度の高いモデル ・優秀なアノテーションマネージャー ・要件定義(マニュアル) ・ワーカー管理 ・データの質・量の確認

Slide 64

Slide 64 text

ABEJAが提供するソリューション ABEJA Annotation ツール ‐ 多種多様なテンプレートを用意している。 ‐ 品質管理できるようになっている。 ‐ 機能追加をゴリゴリしている。 ABEJA Annotation(受託) ‐ 国内最大級のアノテーション受託量。 ‐ 成功へのチップスを理解している。 ‐ 優秀なアノテーションMGを抱えている。 アノテーションを 外注したい 自社でアノテーションを 行っていきたい

Slide 65

Slide 65 text

ABEJAが提供するソリューション ABEJA Annotation ツール ツール試用に関するお問い合わせはこちら https://abejainc.com/platform/ja/demoaccount_annotation/ ABEJA Annotation 委託サービス お問い合わせはこちら https://abejainc.com/platform/ja/contact/ 委託して 自社で

Slide 66

Slide 66 text

After the lecture is over, we are waiting at the Ask the Speaker section of the exhibition area. If you have any questions, please come to this corner after the session ends. See you Ask the Speaker !!

Slide 67

Slide 67 text

Thank you for listening. Enjoy ABEJA SIX2019.