機械学習プロジェクトの進め方

 機械学習プロジェクトの進め方

機械学習プロジェクトの進め方と各フェーズにおいてハカルスで行っていることについてのお話です。

227382dbd5e033db211c159edf32853c?s=128

Hacarus Inc.

June 17, 2019
Tweet

Transcript

  1. ػցֶशϓϩδΣΫτ ͷਐΊํ MACHINE LEARNING Meetup KANSAI #5 2019-06-17 גࣜձࣾϋΧϧε ໦ދ௚थ

  2. ࣗݾ঺հ ໦ދ ௚थ גࣜձࣾϋΧϧε CDO (Chief Data Officer) 2011೥͔ΒػցֶशϓϩδΣΫτʹؔΘΓ࢝ΊΔ
 ΋ͱ΋ͱ͸ΞϓϦέʔγϣϯΤϯδχΞɾΠϯϑϥΤϯδχΞ

  3. ࠓ೔͓࿩͍ͨ͜͠ͱ ػցֶशϓϩδΣΫτͷਐΊํͱ֤ϑΣʔζʹ͓͍ͯϋΧϧ εͰߦ͍ͬͯΔ͜ͱ

  4. ػցֶशϓϩδΣΫτ֓؍ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment

    PoC
  5. Business Understanding • ໨తɾഎܠͷཧղ • ղ͘΂͖໰୊ͷఆٛ • ධՁࢦඪɾ໨ඪ஋ͷઃఆ • ϏδωεσβΠϯɾຊ൪ಋೖΠϝʔδ

    • ϏδωεΠϯύΫτ • ֹۚ׵ࢉ
  6. TIPS • ػցֶशͷಛੑΛސ٬ʹཧղ͍ͨͩ͘ • 100% ͷਫ਼౓͸ୡ੒Ͱ͖ͳ͍ • ظ଴஋ίϯτϩʔϧ • υϝΠϯ஌ࣝͷ͋Δڠྗऀͷཁ੥

    • ༻ޠͷ౷Ұ • ϢϏΩλεݴޠ • ͦ΋ͦ΋ػցֶशඞཁ? • ܾࡋऀ΁ͷίϯλΫτ • σʔλͷ༧උݕূ
  7. Data Understanding • σʔλઃܭɾऩू • ਺஋ɾΧςΰϦΧϧɾσʔλ౳ • ෼෍΍جຊ౷ܭྔ • ஋ͷҙຯ

    • ߲໨ؒͷؔ܎ • ը૾ • ըૉ஋ͷώετάϥϜ౳ • ࡱ૾؀ڥ΍ํ๏ɺ৚݅౳ͷ֬ೝ • ը૾ʹؔ͢Δఆੑతͳཧղ
  8. TIPS • σʔλʹ޲͖߹͏ • ਺ඦ݅͘Β͍͸໨ࢹ͢Δ • σʔλʹؔ͢Δ௚ײ͕ཆΘΕΔ • ͜ͷϑΣʔζऴྃ࣌ʹސ٬ͱଧͪ߹Θͤ͢Δ

  9. ͜Μͳ͜ͱ΋ • ސ٬͕෇༩ͨ͠ϥϕϧ͕ؒҧ͍ͬͯΔ • ਓతϛε • ਓʹΑͬͯ൑அ͕ҟͳΔ • ͦ΋ͦ΋ඍົ

  10. Data Preparation • ෼ੳํ਑ࡦఆ (ɾΞϧΰϦζϜબఆ) • ֎Ε஋΍ܽଛ஋ͷѻ͍Λݕ౼ • σʔλΫϨϯδϯά •

    ॏෳɾޡهɾදهΏΕͳͲͷमਖ਼ɾਖ਼نԽ౳ • લॲཧ • σʔλ౷߹ • ϑΥʔϚοτ౷Ұ
  11. TIPS • σΟϨΫτϦߏ੒ • ࠶ݱੑΛ୲อ͢Δ data |—— external # ֎෦σʔλ

    |—— interim # தؒՃ޻σʔλ |—— processed # Ճ޻ࡁΈσʔλ |—- raw # ϩʔσʔλ Cookiecutter Data Science Λࢀߟʹఆٛ https://drivendata.github.io/cookiecutter-data-science/#directory-structure
  12. Modeling • ΞϧΰϦζϜબఆ • ֶशɾσʔλ෼ੳ

  13. TIPS • ϓϩδΣΫτ͝ͱʹ Docker ΠϝʔδΛ༻ҙ • σʔλಡΈࠐΈ༻ͷڞ༗ͷΫϥε΍ؔ਺Λ༻ҙ͢Δ • σʔλߏ଄ɾΫϥεઃܭ͸ͳΔ΂͘ૣΊʹऴ͓͑ͯ͘ •

    ୯७ͳσʔλूܭ΍૬ؔ෼ੳΛૄ͔ʹ͠ͳ͍ • ͢͹΍͘Կ౓΋ࢼߦࡨޡͰ͖ΔΑ͏ʹ • ίʔυͷύϑΥʔϚϯε (࣮ߦ଎౓) ʹ͸͋Δఔ౓ؾΛ഑Δ • ίʔυϨϏϡʔΛ࣮ࢪ͢Δ • ϖΞϓϩάϥϛϯά΋༗ޮ • ܧଓϓϩδΣΫτ΍ॏཁͳίʔυʹ͍ͭͯ͸ϢχοτςετΛॻ͘
  14. Evaluation • ධՁ • Cross Validation • Confusion Matrix •

    ROC Curve, AUC • etc. • ߟ࡯
  15. • ਫ਼౓Λ 1%pt. ্͛Δ͜ͱ͕ͲΕ͚ͩͷϏδωεΠϯύΫ τ͕͋Δ͔

  16. Deployment • γεςϜઃܭ • Ϟσϧਫ਼౓ͷϞχλϦϯά • Ϟσϧߋ৽ํ๏ͷઃܭ • Ϟσϧͷόʔδϣϯ؅ཧ •

    ಋೖ • ӡ༻
  17. TIPS • ΞϓϦέʔγϣϯΤϯδχΞ༻ͷυΩϡϝϯτ༻ҙ • API • جຊతͳར༻ํ๏ • ݱ৔ʹ೗Կʹཧղͯ͠΋Β͏͔ •

    ݱ৔ʹཧղͰ͖Δݴ༿Ͱઆ໌ • ݱ৔ͷ࣮ଶΛཧղ͢Δ
  18. Q&A