Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アノテーションで精度の高い教師データを作成する為に必要な仕組み

ABEJA
March 04, 2019

 アノテーションで精度の高い教師データを作成する為に必要な仕組み

SIX 2019 dev-a-3
Takuma Teramoto @ABEJA, Inc.

「アノテーションで精度の高い教師データを作成する為に必要な仕組み」

ABEJA Platform Annotationでは、アノテーションツールの提供と、アノテーション委託サービスの提供を行っています。2017年にサービスを開始し、現在、我々のサービス上で数百万件ものアノテーション、教師データの作成が実施されています。
本セッションでは、学習モデルの精度改善に重要となってくる、大量の高品質な教師データを効率的に作成する際に必要となってくる仕組みやポイントを実際の研究などの事例を交えて、お伝えします。

ABEJA

March 04, 2019
Tweet

More Decks by ABEJA

Other Decks in Technology

Transcript

  1. ABEJA Platform for AI Pipeline σʔλͷ औಘ σʔλͷ ஝ੵ όϦσʔ

    γϣϯ Ξϊςʔ γϣϯ Ϟσϧߏ ங ֶश ධՁ σϓϩΠ ਪ࿦ ࠶ֶश Ξϊςʔ γϣϯ ऩू ஝ੵ ֶश σϓϩΠ ܧଓత ΠϯςάϨʔγϣϯ ࣮ߦ
  2. Ξϊςʔγϣϯͱ͸ʁ ඇߏ଄σʔλ Ξϊςʔγϣϯ ߏ଄σʔλ σʔλͷ औಘ σʔλͷ ஝ੵ όϦσʔ γϣϯ

    Ξϊςʔ γϣϯ Ϟσϧߏ ங ֶश ධՁ σϓϩΠ ਪ࿦ ࠶ֶश Ξϊςʔ γϣϯ
  3. Ξϊςʔγϣϯͱ͸ʁ ▪ Ωζݕग़ ▪ ෆྑ඼ݕग़ ▪ ෦඼෼ྨ ▪ ࣗಈӡస ▪

    ةݥ෺ମೝࣝ ▪ ॻྨ෼ྨ ▪ จࣈೝࣝ Face ▪ إೝূ ▪ إͷ೥ྸ/ੑผ ▪ ਓ਺Χ΢ϯτ ▪ ද৘ݕग़ ▪ ෦԰෼ྨ ▪ Ձ֨ࣗಈࠪఆ ▪ Ի੠ೝࣝ ▪ Ի੠ͷจॻԽ ▪ ࣗಈ຋༁ ▪ ίʔϧηϯλʔͷࣗಈԠ౴ ▪ ΦϖϨʔγϣϯͷՄࢹԽ ▪ ϒϥϯυ඼෼ྨ ▪ ϑΝογϣϯݕग़ ▪ ࣗಈλά෇͚ ▪ ࣗಈࠪఆ Defective Parts Fashion Car Document Home Voice Operation σʔλͷ औಘ σʔλͷ ஝ੵ όϦσʔ γϣϯ Ξϊςʔ γϣϯ Ϟσϧߏ ங ֶश ධՁ σϓϩΠ ਪ࿦ ࠶ֶश Ξϊςʔ γϣϯ
  4. ABEJA Platform Annotation σʔλͷ औಘ σʔλͷ ஝ੵ όϦσʔ γϣϯ Ξϊςʔ

    γϣϯ Ϟσϧߏ ங ֶश ධՁ σϓϩΠ ਪ࿦ ࠶ֶश
  5. Ξϊςʔγϣϯͷछྨ σʔλͷ औಘ σʔλͷ ஝ੵ όϦσʔ γϣϯ Ξϊςʔ γϣϯ Ϟσϧߏ

    ங ֶश ධՁ σϓϩΠ ਪ࿦ ࠶ֶश ը૾ ςΩετ Ի੠ ಈը ఺܈ ࣌ܥྻ
  6. Inferring Annotators’ CMs with EM-algorithm ಉҰσʔλΛෳ਺ͷΞϊςʔλʔʹׂΓৼΓɺͦͷ݁ՌͷҰ؏ੑΛ΋ͱʹΞϊςʔλʔ͝ͱͷ Ξϊςʔγϣϯ܏޲ʢConfusion Matrix, CMʣΛਪఆ Initialize:


    ֤ΞϊςʔλʔͷCMΛ୯ҐߦྻͰॳظԽ E-step: 
 ΞϊςʔλʔͷCMΛݻఆͨ͠΋ͱͰ
 ֤σʔλͷϥϕϧΛ໬౓ਪఆ
 M-step: ϥϕϧͷ໬౓Λݻఆͨ͠΋ͱͰCMΛߋ৽ ੑผਪఆ ೥୅ਪఆ
  7. Model-based Method ίετͷ͔͔ΔॏෳΞϊςʔγϣϯͳ͠Ͱ΋ɺΞϊςʔλʔͷڍಈࣗମΛϞσϧԽ͢ Δ͜ͱͰɺΞϊςʔγϣϯͷ܏޲ΛਪఆՄೳ [3] A. Khetan+, “Learning From Noisy

    Singly-labeled Data”, 2017 p(y|x, i) = E y|z⇠p(y|z,i) [p(z|x)] Ξϊςʔγϣϯ σʔλ Ξϊςʔλʔ ਪఆϞσϧ Confusion Matrix ਅͷϥϕϧ
  8. マニュアル改善支援 ϚχϡΞϧ ࡞੒ ϚχϡΞϧͷ ਫ਼౓ݕূ ෆ໌఺ڞ༗/ ϑΟʔυόοΫ/ ΞυόΠε ϚχϡΞϧ վળ

    ϚχϡΞϧਫ਼౓: 62% ϚχϡΞϧਫ਼౓: 80% ϑΟδϏϦςΟ Ξϊςʔγϣϯ ϑΟδϏϦςΟ ݁Ռ ϨϏϡʔ ϚχϡΞϧͷ৘ใ͚ͩ ͰΞϊςʔγϣϯ ϚχϡΞϧਫ਼౓: 92%