Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析プロセス/AIアプリケーションの基本設計

4aded68b3b09392b5678eac7cbf0eab9?s=47 h-fkn
July 26, 2019

 データ分析プロセス/AIアプリケーションの基本設計

DataScienceBOOTCAMP 5th day2

4aded68b3b09392b5678eac7cbf0eab9?s=128

h-fkn

July 26, 2019
Tweet

More Decks by h-fkn

Other Decks in Technology

Transcript

  1. σʔλ෼ੳϓϩηε %BUB4DJFODF#005$".1ୈظ

  2. ΧϦΩϡϥϜ %BUB4DJFODF#005$".1UI 

  3. %BUB4DJFODF#005$".1UI  ΧϦΩϡϥϜ

  4. %BUB4DJFODF#005$".1UI  ΧϦΩϡϥϜ • άϧʔϓϫʔΫ • ػցֶश • ౷ܭֶ •

    %BUBCBTF • ϏδωεޮՌ • ϓϩτλΠϓ։ൃ • ϨϙʔςΟϯά
  5. %BUB4DJFODF#005$".1UI  ίϯηϓτ શճͷߨٛͰ$3*41%.Λ࠷୹࠷଎Ͱप͠Α͏ $3*41%. $3PTT*OEVTUSZ4UBOEBSE1SPDFTTGPS%BUB.JOJOH ͸ɺ σʔλ෼ੳϓϩδΣΫτͷϓϩηεϞσϧ #VTJOFTT 6OEFSTUBOEJOH

    %FWFMPQNFOU %BUB 6OEFSTUBOEJOH &WBMVBUJPO %BUB 1SFQBSBUJPO .PEFMJOH
  6. %BUB4DJFODF#005$".1UI  ߨٛ೔ఔ શճͷߨٛͰ$3*41%.Λ࠷୹࠷଎Ͱप͠Α͏ ビジネス理解 Business Understanding データ理解 Data Understanding

    データ準備 Data Preparation モデリング Modeling 性能評価 Evaluation 開発 Development $3*41%.ʢσʔλ෼ੳϓϩηεʣ %": Ր %": ۚ %": Ր %": ۚ %": ۚ
  7. %BUB4DJFODF#005$".1UI  ߨٛ೔ఔ શճͷߨٛͰ$3*41%.Λ࠷୹࠷଎Ͱप͠Α͏ ビジネス理解 Business Understanding データ理解 Data Understanding

    データ準備 Data Preparation モデリング Modeling 性能評価 Evaluation 開発 Development $3*41%.ʢσʔλ෼ੳϓϩηεʣ %": Ր %": ۚ %": Ր %": ۚ %": ۚ
  8. %BUB4DJFODF#005$".1UI  ߨٛ೔ఔ શճͷߨٛͰ$3*41%.Λ࠷୹࠷଎Ͱप͠Α͏ ビジネス理解 Business Understanding データ理解 Data Understanding

    データ準備 Data Preparation モデリング Modeling 性能評価 Evaluation 開発 Development $3*41%.ʢσʔλ෼ੳϓϩηεʣ %": Ր %": ۚ %": Ր %": ۚ %": ۚ ؀ڥߏங
  9. %BUB4DJFODF#005$".1UI  ౸ୡ໨ඪ શճͷߨٛͰ$3*41%.Λ࠷୹࠷଎Ͱप͠Α͏ ビジネス理解 Business Understanding データ理解 Data Understanding

    データ準備 Data Preparation モデリング Modeling 性能評価 Evaluation 開発 Development $3*41%.ʢσʔλ෼ੳϓϩηεʣ %": Ր %": ۚ %": Ր %": ۚ %": ۚ
  10. %BUB4DJFODF#005$".1UI  ౸ୡ໨ඪ $3*41%. ߨٛ಺༰ ౸ୡ໨ඪ %": Ϗδωεཧղ σʔλαΠΤϯε֓࿦ اըΛϞσϧԽͰ͖Δ

    %": ୳ࡧతσʔλղੳʙ ϞσϦϯά σʔλ෼ੳϓϩηε ϞσϦϯά·Ͱͷ ྲྀΕΛཧղ͍ͯ͠Δ %": ։ൃ γϯάϧΞϓϦέʔγϣϯʹϞσϧΛ૊ΈࠐΉ ʢ'MBTLΛ࢖ͬͨ8FC"QQϓϩάϥϛϯάʣ 8FC։ൃͷͨΊͷ 1ZUIPOϓϩάϥϛϯά %": ։ൃ γϯάϧΞϓϦέʔγϣϯʹϞσϧΛ૊ΈࠐΉ ʢ'MBTLΛ࢖ͬͨ8FC"QQϓϩάϥϛϯάʣ ಉ্ %": Ϗδωεཧղ ϨϙʔςΟϯάɾ౤ࢿରޮՌܭࢉ σʔλΛద੾ʹՄࢹԽ ϏδωεཱҊͰ͖Δ
  11. %BUB4DJFODF#005$".1UI  ౸ୡ໨ඪ $3*41%. ߨٛ಺༰ ౸ୡ໨ඪ %": Ϗδωεཧղ σʔλαΠΤϯε֓࿦ اըΛϞσϧԽͰ͖Δ

    %": ୳ࡧతσʔλղੳʙ ϞσϦϯά σʔλ෼ੳϓϩηε ϞσϦϯά·Ͱͷ ྲྀΕΛཧղ͍ͯ͠Δ %": ։ൃ γϯάϧΞϓϦέʔγϣϯʹϞσϧΛ૊ΈࠐΉ ʢ'MBTLΛ࢖ͬͨ8FC"QQϓϩάϥϛϯάʣ 8FC։ൃͷͨΊͷ 1ZUIPOϓϩάϥϛϯά %": ։ൃ γϯάϧΞϓϦέʔγϣϯʹϞσϧΛ૊ΈࠐΉ ʢ'MBTLΛ࢖ͬͨ8FC"QQϓϩάϥϛϯάʣ ಉ্ %": Ϗδωεཧղ ϨϙʔςΟϯάɾ౤ࢿରޮՌܭࢉ σʔλΛద੾ʹՄࢹԽ ϏδωεཱҊͰ͖Δ
  12. લճͷৼΓฦΓ %BUB4DJFODF#005$".1UI 

  13. %BUB4DJFODF#005$".1UI  "*։ൃϓϩδΣΫτͷਐΊํ IUUQTGPSNSVO!QSPUPUZQFNPEFMJOH ࣮ݱ͍ͨ͜͠ͱΛϞσϧʹ௚ͦ͏ ԾઆͱσʔλΛඥ෇͚ͯΈΑ͏

  14. %BUB4DJFODF#005$".1UI  "*։ൃϓϩδΣΫτͷਐΊํ "*։ൃ·Ͱͷεςοϓ γεςϜ։ൃ ػցֶशɾϞσϦϯά σʔλ෼ੳ ֶश༻σʔληοτ࡞੒ ୳ࡧతσʔλղੳ σʔλऩूɾ஝ੵ

    ໨తઃఆ 45&1 45&1 45&1 45&1 45&1 45&1 45&1
  15. %BUB4DJFODF#005$".1UI  "*։ൃϓϩδΣΫτͷਐΊํ 課題 データがある データがない ⾃動化できる ⾃動化できない 判断必要な業務 判断不要な業務

    AI 取り組む 取り組まない データ収集 取り残される 取り組む 取り組まない ⼈⼒ 取り残される RPA AI 投資対効果 中 投資対効果 中 投資対効果 低 投資対効果 ⼤ PoC
  16. σʔλ෼ੳϓϩηε %BUB4DJFODF#005$".1ୈظ

  17. %BUB4DJFODF#005$".1UI  "*։ൃϓϩδΣΫτͷਐΊํ "*։ൃ·Ͱͷεςοϓ γεςϜ։ൃ ػցֶशɾϞσϦϯά σʔλ෼ੳ ֶश༻σʔληοτ࡞੒ ୳ࡧతσʔλղੳ σʔλऩूɾ஝ੵ

    ໨తઃఆ 45&1 45&1 45&1 45&1 45&1 45&1 45&1
  18. %BUB4DJFODF#005$".1UI  σʔλ෼ੳϓϩηε ୳ࡧతσʔλղੳ 㲈 هड़౷ܭʹ͍ۙ ݱঢ়ͷ೺Ѳ ෳࡶͳσʔλΛγϯϓϧͳܗʹ͢Δ͜ͱͰਓؒʹͱͬͯཧղ͠΍͘͢͢Δʢهड़౷ܭʣ σʔλ෼ੳ 㲈

    ਪ࿦౷ܭʹ͍ۙ ະདྷͷ༧ଌ Կ͔ҙࢥܾఆΛ͢Δͱ͖ͷͨΊͷϑϨʔϜϫʔΫΛɺ໨తͷ݁Ռ͕ى͜Δ֬཰Λࢉग़͢Δʢਪଌ౷ܭʣ ˝ ະདྷΛ༧ଌ͢ΔͨΊʹ͸ɺࠓͲ͏͍͏ঢ়ଶ͔Λ஌Δඞཁ͕͋Δɻ ͭ·Γɺ୳ࡧతσʔλղੳͳ͠ʹϞσϧߏங͸Ͱ͖ͳ͍
  19. %BUB4DJFODF#005$".1UI  σʔλ෼ੳϓϩηε ୳ࡧతσʔλղੳͱ͸ σʔλΛ෼ੳ͢Δલʹɺཧղ͢Δ • ूܭΛ͓͜ͳ͏ • ྻ໊ʢDPMVNOʣͷҙຯΛཧղ͢Δ •

    ߦʢJOEFYʣʹ֨ೲ͞Ε͍ͯΔ਺஋΍ςΩετͷҙຯΛཧղ͢Δ
  20. %BUB4DJFODF#005$".1UI  σʔλ෼ੳϓϩηε  ҙຯͷཧղ ྻͷҙຯΛ஌Δ  શମͷ೺Ѳ σʔλͷେ͖͞Λௐ΂Δ 

    ݸ਺ͷ೺Ѳ σʔλݸ਺Λ਺্͑͛Δ  ඼࣭ͷ೺Ѳ ܽଛ஋Λௐ΂Δ  ج४ͷൃݟ هड़౷ܭྔΛࢉग़͢Δ  ภΓͷൃݟ άϥϑʢՄࢹԽ͢Δ͜ͱʣͰཧղ͢Δ
  21. %BUB4DJFODF#005$".1UI  σʔλ෼ੳϓϩηε  ҙຯͷཧղ εϓϨουγʔτ຋༁ؔ਺  શମͷ೺Ѳ TIBQF 

    ݸ਺ͷ೺Ѳ DPVOU  ඼࣭ͷ೺Ѳ ಉ্ʢࠓճ͸εΩοϓʣ  ج४ͷൃݟ EFTDSJCF  ภΓͷൃݟ άϥϑʢՄࢹԽ͢Δ͜ͱʣͰཧղ͢Δ  σʔλܕΛௐ΂Δ EUZQFT
  22. %BUB4DJFODF#005$".1UI  σʔλ෼ੳϓϩηε ಈతܕ෇͚ݴޠ ਺஋ܭࢉ͢ΔͨΊͷϥΠϒϥϦ σʔλΛѻ͏ͨΊͷϥΠϒϥϦ ػցֶशΛ͢ΔͨΊͷϥΠϒϥϦ ՄࢹԽ͢ΔͨΊͷϥΠϒϥϦ

  23. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  σʔλ෼ੳϓϩηε • $PMBCPSBUPSZ͸ɺ׬શʹΫϥ΢υͰ࣮ߦ͞ΕΔ +VQZUFSϊʔτϒοΫ؀ڥͰ͢ɻ • ઃఆෆཁͰɺແྉͰ͝ར༻ʹͳΕ·͢ɻ

    • $PMBCPSBUPSZΛ࢖༻͢Δͱɺίʔυͷهड़ͱ࣮ߦɺղੳͷอଘ΍ڞ༗ɺڧྗͳίϯϐϡʔ ςΟϯά Ϧιʔε΁ͷΞΫηεͳͲΛϒϥ΢β͔Β͢΂ͯແྉͰߦ͑·͢ɻ
  24. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  σʔλ෼ੳϓϩηε

  25. ϞσϦϯάجૅ %BUB4DJFODF#005$".1UI 

  26. ڭࢣ͋ΓֶशͰΑ͘࢖͏ʮճؼʯͱʮ෼ྨʯ 回帰 未知のデータから連続する数値を予測する 分類 未知のデータから離散値(カテゴリ)を予測する • そのワインどれくらい美味しいかを数字で表現 • 今後、そのワインを何回買うであろうかを予測 •

    そのワインは 美味しい or 美味しくない • そのワインはどんな種類︖(ボルドー or ブルゴーニュ) 
  27. %BUB4DJFODF#005$".1UI  ϞσϦϯάجૅ ϞσϦϯάͷखॱ  σʔληοτΛ෼ׂ͢Δ  ໨తม਺ͱઆ໌ม਺  ֶशσʔλͱݕূσʔλ

     ػցֶश  ΞϧΰϦζϜબఆ  ަࠩݕূʢֶशํ๏ʣ  ਫ਼౓ݕূ  ग़ྗ
  28. %BUB4DJFODF#005$".1UI  ϞσϦϯάجૅ ࣮ࡍʹࣗ૸ͯ͠ΈΑ͏ • ໨ඪ • ࠷௿໨ඪɿσʔλͷՄࢹԽ·Ͱ • ཧ૝໨ඪɿػցֶशʙϞσϦϯά·Ͱʢୠ͠ɺਫ਼౓͸໰Θͳ͍ʣ

    • ࣌ؒɿ෼ʙ • ൃදɿ֤άϧʔϓʢʙ෼ʣ • ௐ΂Δͱ͖ͷώϯτ • ΤϥʔϝοηʔδͰάάΔʂσʔλ໊΍ؔ਺໊ͰάάΔʂ
  29. %BUB4DJFODF#005$".1UI  ϞσϦϯάجૅ ࣮ࡍʹࣗ૸ͯ͠ΈΑ͏ • ໨ඪ • ࠷௿໨ඪɿσʔλͷՄࢹԽ·Ͱ • ཧ૝໨ඪɿػցֶशʙϞσϦϯά·Ͱʢୠ͠ɺਫ਼౓͸໰Θͳ͍ʣ

    • ࣌ؒɿ෼ʙ • ൃදɿ֤άϧʔϓʢʙ෼ʣ • ௐ΂Δͱ͖ͷώϯτ • ΤϥʔϝοηʔδͰάάΔʂσʔλ໊΍ؔ਺໊ͰάάΔʂ ֤άϧʔϓͷൃදͱਐḿʹ߹Θͤͯɺ ࣍ճʮϞσϦϯάղઆ̎ʯΛ௥Ճ͢Δ͔൑அ͠·͢ʂ
  30. ΋͘΋͘λΠϜ %BUB4DJFODF#005$".1UI 

  31. %BUB4DJFODF#005$".1UI  ϞσϦϯάجૅ ΋͘΋͘ձͷςʔϚΛܾΊΑ͏ $IBJOFSνϡʔτϦΞϧͰ ॏճؼ෼ੳ·Ͱ΍ͬͯΈͨ ,BHHMFͷσʔληοτ Λ࢖ͬͯ΋͘΋͘ ಠΓͰ ΋͘΋ͯ͘͠Έ͍ͨ

    ,BHHMFͷσʔληοτ Λ࢖ͬͯ΋͘΋͘ 8JOFσʔλ PS Ұॹʹ$IBJOFSνϡʔτϦΞϧ ΈΜͳ͕ σʔλ෼ੳʙϞσϦϯά ·Ͱܦݧ͍ͯ͠Δ :&4 /0 ͪΐͬͱෆ҆ͩ ௅ઓͯ͠ΈΔʂ ࠓ ೔ ͷ ໨ ඪ
  32. %BUB4DJFODF#005$".1UI  ϞσϦϯάجૅ ·ͣ͸Ұॹʹ$IBJOFSνϡʔτϦΞϧ

  33. %BUB4DJFODF#005$".1UI  ϞσϦϯάجૅ ΋͘΋͘ձͷϧʔϧ • άϧʔϓϝϯόʔʹฉ͍ͯΈΑ͏ • εϓϨουγʔτͰͰ͖Δ͜ͱ͸ɺ΍ͬͯΈΑ͏ • ؆୯ͳूܭɺՄࢹԽ͸1ZUIPOͰ΍Βͳͯ͘΋Α͍

    • Τϥʔʹ׳ΕΑ͏ • ΤϥʔͷղܾࡦΛൃද͠Α͏ • ʮʙʙʙ·Ͱ͸Ͱ͖ͨʂʯ͕େ੾Ͱ͢ʂ
  34. ࣍ճ༧ࠂ %BUB4DJFODF#005$".1UI 

  35. %BUB4DJFODF#005$".1UI  ౸ୡ໨ඪ શճͷߨٛͰ$3*41%.Λ࠷୹࠷଎Ͱप͠Α͏ ビジネス理解 Business Understanding データ理解 Data Understanding

    データ準備 Data Preparation モデリング Modeling 性能評価 Evaluation 開発 Development $3*41%.ʢσʔλ෼ੳϓϩηεʣ %": Ր %": ۚ %": Ր %": ۚ %": ۚ
  36. "*ΞϓϦέʔγϣϯͷجຊઃܭ࢓༷ %BUB4DJFODF#005$".1ୈظ

  37. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  ڭࢣ͋ΓֶशϞσϧͷ৔߹ データセット 予測のもととなるデー タ モデル モデルが予測結果を

    計算 教師データ 正しい結果 予測結果データ モデルが予測した結 果 データセット 予測のもととなるデー タ 性能評価 達成基準を満たして いるか モデル修正 達成基準を満たして いるか 最終モデル 完成 運⽤へ 機械学習 機械学習データセット 機械学習する対象
  38. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ 教師データ 正しい結果 データセット 予測のもととなるデータ 機械学習データセット

    機械学習する対象 ⾝⻑(cm) 体重(kg) 性別 171.7 63.4 男性 154.2 50.1 ⼥性 ︙ ︙ ︙ 165.7 45.8 ⼥性 ⾝⻑(cm) 体重(kg) 171.7 63.4 154.2 50.1 ︙ ︙ 165.7 45.8 ⾝⻑(cm) 体重(kg) 性別 171.7 63.4 154.2 50.1 ︙ ︙ 165.7 45.8 ⾝⻑(cm) 体重(kg) 性別 171.7 63.4 男性 154.2 50.1 ⼥性 ︙ ︙ ︙ 165.7 45.8 ⼥性 学習⽤データセット 検証⽤データセット 結果を説明できる要素 説明変数 予測したい結果・⽬的 ⽬的変数
  39. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  ڭࢣ͋ΓֶशϞσϧͷ৔߹ モデル モデルが予測結果を 計算 性能評価 達成基準を満たして

    いるか モデル修正 達成基準を満たして いるか 最終モデル 完成 運⽤へ 機械学習 ⽬的変数 判断結果(答え) = 性別 説明変数 判断するために必要な要素 出⼒データ 答えが追加されたデータ ⼊⼒データ 答えがわからないデータ
  40. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ ڭࢣσʔλ ʢ: 9 9ʜʣ ༧ଌ

    Ϟσϧ ༧ଌ݁Ռ ʢ:ʣ ೖྗ ग़ྗ
  41. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ ڭࢣσʔλ ʢ: 9 9ʜʣ ༧ଌ

    Ϟσϧ ༧ଌ݁Ռ ʢ:ʣ ೖྗ ग़ྗ ༧ଌ Ϟσϧ ະ஌ͷσʔλ ೖྗ ༧ଌ݁Ռ ʢ:ʣ ग़ྗ
  42. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ ༧ଌ Ϟσϧ ະ஌ͷσʔλ ೖྗ ༧ଌ݁Ռ

    ʢ:ʣ ग़ྗ ೖྗϑΥʔϜ ग़ྗ݁Ռදࣔ
  43. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ ༧ଌ Ϟσϧ ະ஌ͷσʔλ ೖྗ ༧ଌ݁Ռ

    ʢ:ʣ ग़ྗ ೖྗϑΥʔϜ ग़ྗ݁Ռදࣔ ⼊⼒画⾯ HTML, CSS, JS 結果表⽰画⾯ HTML, CSS, JS
  44. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ ༧ଌ Ϟσϧ ະ஌ͷσʔλ ೖྗ ༧ଌ݁Ռ

    ʢ:ʣ ग़ྗ ೖྗϑΥʔϜ ग़ྗ݁Ռදࣔ ⼊⼒画⾯ HTML, CSS, JS 結果表⽰画⾯ HTML, CSS, JS σʔλΛೖྗ͢Δը໘Λ࡞੒ ݁ՌΛग़ྗ͢Δը໘Λ࡞੒
  45. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ ༧ଌ Ϟσϧ ະ஌ͷσʔλ ೖྗ ༧ଌ݁Ռ

    ʢ:ʣ ग़ྗ ೖྗϑΥʔϜ ग़ྗ݁Ռදࣔ モデル Python
  46. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ ༧ଌ Ϟσϧ ະ஌ͷσʔλ ೖྗ ༧ଌ݁Ռ

    ʢ:ʣ ग़ྗ ೖྗϑΥʔϜ ग़ྗ݁Ռදࣔ モデル Python ϞσϧΛग़ྗ͠ɺ ΞϓϦέʔγϣϯʹ૊ΈࠐΉ
  47. ՝୊ %BUB4DJFODF#005$".1UI 

  48. %BUB4DJFODF#005$".1UI  ՝୊ σʔλ෼ੳ͔ΒϞσϦϯά·ͰͷྲྀΕΛ෮श͢Δ • ,BHHMF͔Β೚ҙͷσʔληοτΛ࢖༻͠ɺ σʔλ෼ੳʙϞσϦϯάΛߦ͏ʢ࣍ճ΋ಉ͡Α͏ʹൃදʣ • ৚݅ڭࢣ͋Γֶशʢճؼ PS෼ྨϞσϧʣ

    • ࣍ճͷͨΊͷ։ൃ؀ڥߏங • ࣍ϖʔδʹৄࡉ
  49. %BUB4DJFODF#005$".1UI  ՝୊ ؀ڥߏஙʹ͍ͭͯ ։ൃݴޠ • 1ZUIPOҎ্ Ϟδϡʔϧ • TDJLJUMFBSO

    • GMBTL • 8FSL[FVH • 85'PSNT ϩʔΧϧ1$ͷ։ൃ؀ڥʹ͍ͭͯ • %":Ҏ߱͸EPDLFSίϯςφΛ࢖ͬͨԾ૝؀ڥʹɺ෼ੳ؀ڥΛߏ ங͠·͢ɻ ϨϕϧΞοϓ͍ͨ͠ํ͸Ծ૝؀ڥͷதʹɺγϯάϧΞϓ Ϧέʔγϣϯͷ։ൃ؀ڥΛߏஙͯ͠Έ·͠ΐ͏ɻ