Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析プロセス/AIアプリケーションの基本設計

h-fkn
July 26, 2019

 データ分析プロセス/AIアプリケーションの基本設計

DataScienceBOOTCAMP 5th day2

h-fkn

July 26, 2019
Tweet

More Decks by h-fkn

Other Decks in Technology

Transcript

  1. %BUB4DJFODF#005$".1UI  ΧϦΩϡϥϜ • άϧʔϓϫʔΫ • ػցֶश • ౷ܭֶ •

    %BUBCBTF • ϏδωεޮՌ • ϓϩτλΠϓ։ൃ • ϨϙʔςΟϯά
  2. %BUB4DJFODF#005$".1UI  ߨٛ೔ఔ શճͷߨٛͰ$3*41%.Λ࠷୹࠷଎Ͱप͠Α͏ ビジネス理解 Business Understanding データ理解 Data Understanding

    データ準備 Data Preparation モデリング Modeling 性能評価 Evaluation 開発 Development $3*41%.ʢσʔλ෼ੳϓϩηεʣ %": Ր %": ۚ %": Ր %": ۚ %": ۚ
  3. %BUB4DJFODF#005$".1UI  ߨٛ೔ఔ શճͷߨٛͰ$3*41%.Λ࠷୹࠷଎Ͱप͠Α͏ ビジネス理解 Business Understanding データ理解 Data Understanding

    データ準備 Data Preparation モデリング Modeling 性能評価 Evaluation 開発 Development $3*41%.ʢσʔλ෼ੳϓϩηεʣ %": Ր %": ۚ %": Ր %": ۚ %": ۚ
  4. %BUB4DJFODF#005$".1UI  ߨٛ೔ఔ શճͷߨٛͰ$3*41%.Λ࠷୹࠷଎Ͱप͠Α͏ ビジネス理解 Business Understanding データ理解 Data Understanding

    データ準備 Data Preparation モデリング Modeling 性能評価 Evaluation 開発 Development $3*41%.ʢσʔλ෼ੳϓϩηεʣ %": Ր %": ۚ %": Ր %": ۚ %": ۚ ؀ڥߏங
  5. %BUB4DJFODF#005$".1UI  ౸ୡ໨ඪ શճͷߨٛͰ$3*41%.Λ࠷୹࠷଎Ͱप͠Α͏ ビジネス理解 Business Understanding データ理解 Data Understanding

    データ準備 Data Preparation モデリング Modeling 性能評価 Evaluation 開発 Development $3*41%.ʢσʔλ෼ੳϓϩηεʣ %": Ր %": ۚ %": Ր %": ۚ %": ۚ
  6. %BUB4DJFODF#005$".1UI  ౸ୡ໨ඪ $3*41%. ߨٛ಺༰ ౸ୡ໨ඪ %": Ϗδωεཧղ σʔλαΠΤϯε֓࿦ اըΛϞσϧԽͰ͖Δ

    %": ୳ࡧతσʔλղੳʙ ϞσϦϯά σʔλ෼ੳϓϩηε ϞσϦϯά·Ͱͷ ྲྀΕΛཧղ͍ͯ͠Δ %": ։ൃ γϯάϧΞϓϦέʔγϣϯʹϞσϧΛ૊ΈࠐΉ ʢ'MBTLΛ࢖ͬͨ8FC"QQϓϩάϥϛϯάʣ 8FC։ൃͷͨΊͷ 1ZUIPOϓϩάϥϛϯά %": ։ൃ γϯάϧΞϓϦέʔγϣϯʹϞσϧΛ૊ΈࠐΉ ʢ'MBTLΛ࢖ͬͨ8FC"QQϓϩάϥϛϯάʣ ಉ্ %": Ϗδωεཧղ ϨϙʔςΟϯάɾ౤ࢿରޮՌܭࢉ σʔλΛద੾ʹՄࢹԽ ϏδωεཱҊͰ͖Δ
  7. %BUB4DJFODF#005$".1UI  ౸ୡ໨ඪ $3*41%. ߨٛ಺༰ ౸ୡ໨ඪ %": Ϗδωεཧղ σʔλαΠΤϯε֓࿦ اըΛϞσϧԽͰ͖Δ

    %": ୳ࡧతσʔλղੳʙ ϞσϦϯά σʔλ෼ੳϓϩηε ϞσϦϯά·Ͱͷ ྲྀΕΛཧղ͍ͯ͠Δ %": ։ൃ γϯάϧΞϓϦέʔγϣϯʹϞσϧΛ૊ΈࠐΉ ʢ'MBTLΛ࢖ͬͨ8FC"QQϓϩάϥϛϯάʣ 8FC։ൃͷͨΊͷ 1ZUIPOϓϩάϥϛϯά %": ։ൃ γϯάϧΞϓϦέʔγϣϯʹϞσϧΛ૊ΈࠐΉ ʢ'MBTLΛ࢖ͬͨ8FC"QQϓϩάϥϛϯάʣ ಉ্ %": Ϗδωεཧղ ϨϙʔςΟϯάɾ౤ࢿରޮՌܭࢉ σʔλΛద੾ʹՄࢹԽ ϏδωεཱҊͰ͖Δ
  8. %BUB4DJFODF#005$".1UI  "*։ൃϓϩδΣΫτͷਐΊํ 課題 データがある データがない ⾃動化できる ⾃動化できない 判断必要な業務 判断不要な業務

    AI 取り組む 取り組まない データ収集 取り残される 取り組む 取り組まない ⼈⼒ 取り残される RPA AI 投資対効果 中 投資対効果 中 投資対効果 低 投資対効果 ⼤ PoC
  9. %BUB4DJFODF#005$".1UI  σʔλ෼ੳϓϩηε ୳ࡧతσʔλղੳ 㲈 هड़౷ܭʹ͍ۙ ݱঢ়ͷ೺Ѳ ෳࡶͳσʔλΛγϯϓϧͳܗʹ͢Δ͜ͱͰਓؒʹͱͬͯཧղ͠΍͘͢͢Δʢهड़౷ܭʣ σʔλ෼ੳ 㲈

    ਪ࿦౷ܭʹ͍ۙ ະདྷͷ༧ଌ Կ͔ҙࢥܾఆΛ͢Δͱ͖ͷͨΊͷϑϨʔϜϫʔΫΛɺ໨తͷ݁Ռ͕ى͜Δ֬཰Λࢉग़͢Δʢਪଌ౷ܭʣ ˝ ະདྷΛ༧ଌ͢ΔͨΊʹ͸ɺࠓͲ͏͍͏ঢ়ଶ͔Λ஌Δඞཁ͕͋Δɻ ͭ·Γɺ୳ࡧతσʔλղੳͳ͠ʹϞσϧߏங͸Ͱ͖ͳ͍
  10. %BUB4DJFODF#005$".1UI  σʔλ෼ੳϓϩηε  ҙຯͷཧղ ྻͷҙຯΛ஌Δ  શମͷ೺Ѳ σʔλͷେ͖͞Λௐ΂Δ 

    ݸ਺ͷ೺Ѳ σʔλݸ਺Λ਺্͑͛Δ  ඼࣭ͷ೺Ѳ ܽଛ஋Λௐ΂Δ  ج४ͷൃݟ هड़౷ܭྔΛࢉग़͢Δ  ภΓͷൃݟ άϥϑʢՄࢹԽ͢Δ͜ͱʣͰཧղ͢Δ
  11. %BUB4DJFODF#005$".1UI  σʔλ෼ੳϓϩηε  ҙຯͷཧղ εϓϨουγʔτ຋༁ؔ਺  શମͷ೺Ѳ TIBQF 

    ݸ਺ͷ೺Ѳ DPVOU  ඼࣭ͷ೺Ѳ ಉ্ʢࠓճ͸εΩοϓʣ  ج४ͷൃݟ EFTDSJCF  ภΓͷൃݟ άϥϑʢՄࢹԽ͢Δ͜ͱʣͰཧղ͢Δ  σʔλܕΛௐ΂Δ EUZQFT
  12. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  σʔλ෼ੳϓϩηε • $PMBCPSBUPSZ͸ɺ׬શʹΫϥ΢υͰ࣮ߦ͞ΕΔ +VQZUFSϊʔτϒοΫ؀ڥͰ͢ɻ • ઃఆෆཁͰɺແྉͰ͝ར༻ʹͳΕ·͢ɻ

    • $PMBCPSBUPSZΛ࢖༻͢Δͱɺίʔυͷهड़ͱ࣮ߦɺղੳͷอଘ΍ڞ༗ɺڧྗͳίϯϐϡʔ ςΟϯά Ϧιʔε΁ͷΞΫηεͳͲΛϒϥ΢β͔Β͢΂ͯແྉͰߦ͑·͢ɻ
  13. %BUB4DJFODF#005$".1UI  ϞσϦϯάجૅ ࣮ࡍʹࣗ૸ͯ͠ΈΑ͏ • ໨ඪ • ࠷௿໨ඪɿσʔλͷՄࢹԽ·Ͱ • ཧ૝໨ඪɿػցֶशʙϞσϦϯά·Ͱʢୠ͠ɺਫ਼౓͸໰Θͳ͍ʣ

    • ࣌ؒɿ෼ʙ • ൃදɿ֤άϧʔϓʢʙ෼ʣ • ௐ΂Δͱ͖ͷώϯτ • ΤϥʔϝοηʔδͰάάΔʂσʔλ໊΍ؔ਺໊ͰάάΔʂ
  14. %BUB4DJFODF#005$".1UI  ϞσϦϯάجૅ ࣮ࡍʹࣗ૸ͯ͠ΈΑ͏ • ໨ඪ • ࠷௿໨ඪɿσʔλͷՄࢹԽ·Ͱ • ཧ૝໨ඪɿػցֶशʙϞσϦϯά·Ͱʢୠ͠ɺਫ਼౓͸໰Θͳ͍ʣ

    • ࣌ؒɿ෼ʙ • ൃදɿ֤άϧʔϓʢʙ෼ʣ • ௐ΂Δͱ͖ͷώϯτ • ΤϥʔϝοηʔδͰάάΔʂσʔλ໊΍ؔ਺໊ͰάάΔʂ ֤άϧʔϓͷൃදͱਐḿʹ߹Θͤͯɺ ࣍ճʮϞσϦϯάղઆ̎ʯΛ௥Ճ͢Δ͔൑அ͠·͢ʂ
  15. %BUB4DJFODF#005$".1UI  ϞσϦϯάجૅ ΋͘΋͘ձͷςʔϚΛܾΊΑ͏ $IBJOFSνϡʔτϦΞϧͰ ॏճؼ෼ੳ·Ͱ΍ͬͯΈͨ ,BHHMFͷσʔληοτ Λ࢖ͬͯ΋͘΋͘ ಠΓͰ ΋͘΋ͯ͘͠Έ͍ͨ

    ,BHHMFͷσʔληοτ Λ࢖ͬͯ΋͘΋͘ 8JOFσʔλ PS Ұॹʹ$IBJOFSνϡʔτϦΞϧ ΈΜͳ͕ σʔλ෼ੳʙϞσϦϯά ·Ͱܦݧ͍ͯ͠Δ :&4 /0 ͪΐͬͱෆ҆ͩ ௅ઓͯ͠ΈΔʂ ࠓ ೔ ͷ ໨ ඪ
  16. %BUB4DJFODF#005$".1UI  ౸ୡ໨ඪ શճͷߨٛͰ$3*41%.Λ࠷୹࠷଎Ͱप͠Α͏ ビジネス理解 Business Understanding データ理解 Data Understanding

    データ準備 Data Preparation モデリング Modeling 性能評価 Evaluation 開発 Development $3*41%.ʢσʔλ෼ੳϓϩηεʣ %": Ր %": ۚ %": Ր %": ۚ %": ۚ
  17. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  ڭࢣ͋ΓֶशϞσϧͷ৔߹ データセット 予測のもととなるデー タ モデル モデルが予測結果を

    計算 教師データ 正しい結果 予測結果データ モデルが予測した結 果 データセット 予測のもととなるデー タ 性能評価 達成基準を満たして いるか モデル修正 達成基準を満たして いるか 最終モデル 完成 運⽤へ 機械学習 機械学習データセット 機械学習する対象
  18. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ 教師データ 正しい結果 データセット 予測のもととなるデータ 機械学習データセット

    機械学習する対象 ⾝⻑(cm) 体重(kg) 性別 171.7 63.4 男性 154.2 50.1 ⼥性 ︙ ︙ ︙ 165.7 45.8 ⼥性 ⾝⻑(cm) 体重(kg) 171.7 63.4 154.2 50.1 ︙ ︙ 165.7 45.8 ⾝⻑(cm) 体重(kg) 性別 171.7 63.4 154.2 50.1 ︙ ︙ 165.7 45.8 ⾝⻑(cm) 体重(kg) 性別 171.7 63.4 男性 154.2 50.1 ⼥性 ︙ ︙ ︙ 165.7 45.8 ⼥性 学習⽤データセット 検証⽤データセット 結果を説明できる要素 説明変数 予測したい結果・⽬的 ⽬的変数
  19. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  ڭࢣ͋ΓֶशϞσϧͷ৔߹ モデル モデルが予測結果を 計算 性能評価 達成基準を満たして

    いるか モデル修正 達成基準を満たして いるか 最終モデル 完成 運⽤へ 機械学習 ⽬的変数 判断結果(答え) = 性別 説明変数 判断するために必要な要素 出⼒データ 答えが追加されたデータ ⼊⼒データ 答えがわからないデータ
  20. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ ڭࢣσʔλ ʢ: 9 9ʜʣ ༧ଌ

    Ϟσϧ ༧ଌ݁Ռ ʢ:ʣ ೖྗ ग़ྗ ༧ଌ Ϟσϧ ະ஌ͷσʔλ ೖྗ ༧ଌ݁Ռ ʢ:ʣ ग़ྗ
  21. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ ༧ଌ Ϟσϧ ະ஌ͷσʔλ ೖྗ ༧ଌ݁Ռ

    ʢ:ʣ ग़ྗ ೖྗϑΥʔϜ ग़ྗ݁Ռදࣔ ⼊⼒画⾯ HTML, CSS, JS 結果表⽰画⾯ HTML, CSS, JS
  22. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ ༧ଌ Ϟσϧ ະ஌ͷσʔλ ೖྗ ༧ଌ݁Ռ

    ʢ:ʣ ग़ྗ ೖྗϑΥʔϜ ग़ྗ݁Ռදࣔ ⼊⼒画⾯ HTML, CSS, JS 結果表⽰画⾯ HTML, CSS, JS σʔλΛೖྗ͢Δը໘Λ࡞੒ ݁ՌΛग़ྗ͢Δը໘Λ࡞੒
  23. 50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF  "*ΞϓϦέʔγϣϯ։ൃ ༧ଌ Ϟσϧ ະ஌ͷσʔλ ೖྗ ༧ଌ݁Ռ

    ʢ:ʣ ग़ྗ ೖྗϑΥʔϜ ग़ྗ݁Ռදࣔ モデル Python ϞσϧΛग़ྗ͠ɺ ΞϓϦέʔγϣϯʹ૊ΈࠐΉ
  24. %BUB4DJFODF#005$".1UI  ՝୊ ؀ڥߏஙʹ͍ͭͯ ։ൃݴޠ • 1ZUIPOҎ্ Ϟδϡʔϧ • TDJLJUMFBSO

    • GMBTL • 8FSL[FVH • 85'PSNT ϩʔΧϧ1$ͷ։ൃ؀ڥʹ͍ͭͯ • %":Ҏ߱͸EPDLFSίϯςφΛ࢖ͬͨԾ૝؀ڥʹɺ෼ੳ؀ڥΛߏ ங͠·͢ɻ ϨϕϧΞοϓ͍ͨ͠ํ͸Ծ૝؀ڥͷதʹɺγϯάϧΞϓ Ϧέʔγϣϯͷ։ൃ؀ڥΛߏஙͯ͠Έ·͠ΐ͏ɻ