Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
DAY 1 “技” Developer Day 数百万件を超えるアノテーション実績から伝 える、アノテーションマネージメントの重要 性とそのノウハウ 泉 和成 株式会社ABEJA
Slide 2
Slide 2 text
Introduction 泉 和成 略歴 2010年University of Nevada, Reno卒業 米国就労後にスタートアップ2社経験 その後、ABEJAにジョイン ABEJAでは事業部横断型にて、 ソリューションのフロントセールスを行う。
Slide 3
Slide 3 text
機械学習/深層学習とは?
Slide 4
Slide 4 text
機械学習/深層学習
Slide 5
Slide 5 text
コールセンター自動化 顧客セグメント/パターン分析 在庫配分最適化 設備投資予測 不良品検知自動化 人員数最適化 蓄積データを活用し、 機械学習/深層学習のモデルを用いた発展的な活用
Slide 6
Slide 6 text
機械学習/深層学習のモデルを 開発する為には、教師データが必要 ※教師あり学習・半教師あり学習の研究分野おいて
Slide 7
Slide 7 text
大量のデータがあるので、 機械学習/深層学習のAIモデル開発につかいたい。 多様なディバイスや システム情報情報 生データ データベース モデル
Slide 8
Slide 8 text
大量のデータがあるので、 機械学習/深層学習のAIモデル開発につかいたい。 多様なディバイスや システム情報情報 生データ データベース モデル 大量のデータがあるだけではダメ。
Slide 9
Slide 9 text
教師データ 「猫」 データ AIモデル開発には大量のデータでなく、 教師データが必要です。
Slide 10
Slide 10 text
で・・・アノテーションとは何のか?
Slide 11
Slide 11 text
ラベル 付け 人が「このデータは猫だよ」と言うように、 「ラベル付け」を行うことです。 生データ データベース モデル 「猫」 アノテーション
Slide 12
Slide 12 text
なぜアノテーションは大事?
Slide 13
Slide 13 text
GOOD 教師データ GOOD モデル 高い精度のモデル開発には、 高品質の教師データを用意することが大事。 「猫」
Slide 14
Slide 14 text
アノテーションの成功とは?
Slide 15
Slide 15 text
ビジネスインパクとの高いモデル開発の為に必要なデータ量を 正確にアノテーションし、品質の高い教師データを生成すること。 QUALITY QUANTITY アノテーションの成功とは・・・
Slide 16
Slide 16 text
アノテーション成功へのチップス
Slide 17
Slide 17 text
高品質な教師データ作成の 要因は3つ。
Slide 18
Slide 18 text
高品質の 教師データ作成
Slide 19
Slide 19 text
高品質の 教師データ作成 要件定義 (マニュアル)
Slide 20
Slide 20 text
高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理
Slide 21
Slide 21 text
高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理 生データの質と量
Slide 22
Slide 22 text
で、どうやったら成功できるの??
Slide 23
Slide 23 text
The Answer is・・・
Slide 24
Slide 24 text
“アノテーションマネージャー” The Answer is・・・
Slide 25
Slide 25 text
なぜなら・・・
Slide 26
Slide 26 text
優れたアノテーションMGは詳細な要件定義を用いて 明確な指示をメンバーにし、成功へ導く船頭だから。
Slide 27
Slide 27 text
アノテーションMGが関わる点は?
Slide 28
Slide 28 text
高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理 生データの質と量 アノテーションMGがマネージ関わる点
Slide 29
Slide 29 text
・判断基準(判定基準)が十分に明記されているか? ・懸念点の洗い出しは十分か? 要件定義(マニュアル)で気を付ける点
Slide 30
Slide 30 text
正解が曖昧なまま作成されてしまった教師データを 学習にかけると、モデルの精度が下がってしまう可能性がある 判定基準は明記されているか?
Slide 31
Slide 31 text
個人個人の判断のブレや作業中の疑問を極力減らし、 統一の判断軸による要件定義が必要 判定基準は明記されているか?
Slide 32
Slide 32 text
枚数 : 100枚程度 ラベル : 全種類 <トライアル実施後のQ> ・子犬の定義は? ・子猫か成猫か分からない写真は? ・ウサギは子供か見分けがつき難い。 ・Bouning Boxのサイズはどこまで? ・知らない犬種はいないか? 懸念点は洗い出されているか?
Slide 33
Slide 33 text
ワーカーの精度管理で気を付ける点 ・運用ルール ・最適なアノテーターの選択
Slide 34
Slide 34 text
運用ルール 朝礼 Q&A レポートライン アノテーターの 認識・意識統一 MGによる 回答基準の統一 レビュー体制 Dailyレビューによ る品質向上
Slide 35
Slide 35 text
国・文化が影響するアノテーション はアノテーターを限定する。 最適なアノテーターの選択
Slide 36
Slide 36 text
専門的知識が必要なアノテーション も人を選ぶ。 最適なアノテーターの選択
Slide 37
Slide 37 text
優秀なアノテーションマネージャーは ・アノテーターが困らない、悩まない、迷わない、 「要件定義(マニュアル)」の作成 ・アノテーターとの認識統一を図る環境・フローの構築 ・生データに対して最適なワーカーを選択する つまり・・・ 高品質な教師データ作成
Slide 38
Slide 38 text
生データはアノテーション実施前に確認する
Slide 39
Slide 39 text
高品質の 教師データ作成 要件定義 (マニュアル) ワーカーの精度管理 生データの質・量 アノテーション実施決定する前に確認すること
Slide 40
Slide 40 text
アノテーション実施前に確認する点 ・数量と種類:生データ量は足りているか? ・品質:精度に関わるノイズが入っていないか?
Slide 41
Slide 41 text
数量と種類 数量 精度 正確な 教師データセットが 少ない場合 正確な教師データセットが 多くなった場合 正確な教師データ量 モデル精度
Slide 42
Slide 42 text
数量と種類 特定のラベルのデータが多かったり少なかったりすると、 データが少ないものがほとんど検出できない
Slide 43
Slide 43 text
なので、少ないと・・・ チワワ? なんてことが・・・
Slide 44
Slide 44 text
品質 ・輝度(きど)、明暗 ‐判断がぶれるノイズ (実用時に環境変化がある場合は必要) ・背景 ‐停止物は背景がノイズ ノイズ
Slide 45
Slide 45 text
過去事例
Slide 46
Slide 46 text
過去事例① 対象データ:見取図 数量:1,000枚 ラベル数:18種(大分類2種、中分類各9種) アノテーション:Bounding BoxによるDetection 納期:約2週間
Slide 47
Slide 47 text
例1 Before After
Slide 48
Slide 48 text
例2 Before After
Slide 49
Slide 49 text
1枚やってみましょう。
Slide 50
Slide 50 text
No content
Slide 51
Slide 51 text
No content
Slide 52
Slide 52 text
No content
Slide 53
Slide 53 text
Almost there …
Slide 54
Slide 54 text
No content
Slide 55
Slide 55 text
Done!Finish!
Slide 56
Slide 56 text
見えた課題 時間がかかる 高いレビューコスト
Slide 57
Slide 57 text
時間がかかる 高いレビューコスト レビューから 間違いやすいラベル・手順の洗 い出し 間違いがやすい点を随時 マニュアルにアップデート アノテーターへの共有・振返り の強化 課題に対する解決
Slide 58
Slide 58 text
過去事例② 対象データ:料理画像 数量:10,000枚 ラベル数:50種(大分類6種、小分類各8~9種) アノテーション:Bounding BoxによるDetection 納期:約3週間
Slide 59
Slide 59 text
例1
Slide 60
Slide 60 text
例2
Slide 61
Slide 61 text
見えた課題 基準が曖昧で言語化しづらい 野菜炒め もやし炒め 野菜炒め 豚肉炒め 人により答えがバラバラ
Slide 62
Slide 62 text
課題に対する解決 人による曖昧 な判断基準 多数のアンカリング(判定基準)の作成 野菜炒め もやし炒め 豚肉炒め チームリーダーを設定し、 随時Q&Aに応えれる環境を設定
Slide 63
Slide 63 text
振り返り ・高品質の教師データ=精度の高いモデル ・優秀なアノテーションマネージャー ・要件定義(マニュアル) ・ワーカー管理 ・データの質・量の確認
Slide 64
Slide 64 text
ABEJAが提供するソリューション ABEJA Annotation ツール ‐ 多種多様なテンプレートを用意している。 ‐ 品質管理できるようになっている。 ‐ 機能追加をゴリゴリしている。 ABEJA Annotation(受託) ‐ 国内最大級のアノテーション受託量。 ‐ 成功へのチップスを理解している。 ‐ 優秀なアノテーションMGを抱えている。 アノテーションを 外注したい 自社でアノテーションを 行っていきたい
Slide 65
Slide 65 text
ABEJAが提供するソリューション ABEJA Annotation ツール ツール試用に関するお問い合わせはこちら https://abejainc.com/platform/ja/demoaccount_annotation/ ABEJA Annotation 委託サービス お問い合わせはこちら https://abejainc.com/platform/ja/contact/ 委託して 自社で
Slide 66
Slide 66 text
After the lecture is over, we are waiting at the Ask the Speaker section of the exhibition area. If you have any questions, please come to this corner after the session ends. See you Ask the Speaker !!
Slide 67
Slide 67 text
Thank you for listening. Enjoy ABEJA SIX2019.