DataScienceBOOTCAMP 5th day2
σʔλੳϓϩηε%BUB4DJFODF#005$".1ୈظ
View Slide
ΧϦΩϡϥϜ%BUB4DJFODF#005$".1UI
%BUB4DJFODF#005$".1UI ΧϦΩϡϥϜ
%BUB4DJFODF#005$".1UI ΧϦΩϡϥϜ• άϧʔϓϫʔΫ• ػցֶश• ౷ܭֶ• %BUBCBTF• ϏδωεޮՌ• ϓϩτλΠϓ։ൃ• ϨϙʔςΟϯά
%BUB4DJFODF#005$".1UI ίϯηϓτશճͷߨٛͰ$3*41%.Λ࠷࠷Ͱप͠Α͏$3*41%. $3PTT*OEVTUSZ4UBOEBSE1SPDFTTGPS%BUB.JOJOHɺσʔλੳϓϩδΣΫτͷϓϩηεϞσϧ#VTJOFTT6OEFSTUBOEJOH%FWFMPQNFOU%BUB6OEFSTUBOEJOH&WBMVBUJPO%BUB1SFQBSBUJPO.PEFMJOH
%BUB4DJFODF#005$".1UI ߨٛఔશճͷߨٛͰ$3*41%.Λ࠷࠷Ͱप͠Α͏ビジネス理解BusinessUnderstandingデータ理解DataUnderstandingデータ準備DataPreparationモデリングModeling性能評価Evaluation開発Development$3*41%.ʢσʔλੳϓϩηεʣ%":Ր%":ۚ%":Ր%":ۚ%":ۚ
%BUB4DJFODF#005$".1UI ߨٛఔશճͷߨٛͰ$3*41%.Λ࠷࠷Ͱप͠Α͏ビジネス理解BusinessUnderstandingデータ理解DataUnderstandingデータ準備DataPreparationモデリングModeling性能評価Evaluation開発Development$3*41%.ʢσʔλੳϓϩηεʣ%":Ր%":ۚ%":Ր%":ۚ%":ۚڥߏங
%BUB4DJFODF#005$".1UI ౸ୡඪશճͷߨٛͰ$3*41%.Λ࠷࠷Ͱप͠Α͏ビジネス理解BusinessUnderstandingデータ理解DataUnderstandingデータ準備DataPreparationモデリングModeling性能評価Evaluation開発Development$3*41%.ʢσʔλੳϓϩηεʣ%":Ր%":ۚ%":Ր%":ۚ%":ۚ
%BUB4DJFODF#005$".1UI ౸ୡඪ$3*41%. ߨٛ༰ ౸ୡඪ%": Ϗδωεཧղ σʔλαΠΤϯε֓ اըΛϞσϧԽͰ͖Δ%": ୳ࡧతσʔλղੳʙϞσϦϯάσʔλੳϓϩηε ϞσϦϯά·ͰͷྲྀΕΛཧղ͍ͯ͠Δ%": ։ൃγϯάϧΞϓϦέʔγϣϯʹϞσϧΛΈࠐΉʢ'MBTLΛͬͨ8FC"QQϓϩάϥϛϯάʣ8FC։ൃͷͨΊͷ1ZUIPOϓϩάϥϛϯά%": ։ൃγϯάϧΞϓϦέʔγϣϯʹϞσϧΛΈࠐΉʢ'MBTLΛͬͨ8FC"QQϓϩάϥϛϯάʣ ಉ্%": Ϗδωεཧղ ϨϙʔςΟϯάɾࢿରޮՌܭࢉ σʔλΛదʹՄࢹԽϏδωεཱҊͰ͖Δ
લճͷৼΓฦΓ%BUB4DJFODF#005$".1UI
%BUB4DJFODF#005$".1UI "*։ൃϓϩδΣΫτͷਐΊํIUUQTGPSNSVO!QSPUPUZQFNPEFMJOH࣮ݱ͍ͨ͜͠ͱΛϞσϧʹͦ͏ԾઆͱσʔλΛඥ͚ͯΈΑ͏
%BUB4DJFODF#005$".1UI "*։ൃϓϩδΣΫτͷਐΊํ"*։ൃ·ͰͷεςοϓγεςϜ։ൃػցֶशɾϞσϦϯάσʔλੳֶश༻σʔληοτ࡞୳ࡧతσʔλղੳσʔλऩूɾੵతઃఆ45&145&145&145&145&145&145&1
%BUB4DJFODF#005$".1UI "*։ൃϓϩδΣΫτͷਐΊํ課題データがあるデータがない⾃動化できる⾃動化できない判断必要な業務判断不要な業務AI取り組む取り組まないデータ収集取り残される取り組む取り組まない⼈⼒取り残されるRPAAI投資対効果 中投資対効果 中投資対効果 低投資対効果 ⼤PoC
%BUB4DJFODF#005$".1UI σʔλੳϓϩηε୳ࡧతσʔλղੳ 㲈 هड़౷ܭʹ͍ۙ ݱঢ়ͷѲෳࡶͳσʔλΛγϯϓϧͳܗʹ͢Δ͜ͱͰਓؒʹͱͬͯཧղ͘͢͢͠Δʢهड़౷ܭʣσʔλੳ 㲈 ਪ౷ܭʹ͍ۙ ະདྷͷ༧ଌԿ͔ҙࢥܾఆΛ͢Δͱ͖ͷͨΊͷϑϨʔϜϫʔΫΛɺతͷ݁Ռ͕ى͜Δ֬Λࢉग़͢Δʢਪଌ౷ܭʣ˝ະདྷΛ༧ଌ͢ΔͨΊʹɺࠓͲ͏͍͏ঢ়ଶ͔ΛΔඞཁ͕͋Δɻͭ·Γɺ୳ࡧతσʔλղੳͳ͠ʹϞσϧߏஙͰ͖ͳ͍
%BUB4DJFODF#005$".1UI σʔλੳϓϩηε୳ࡧతσʔλղੳͱσʔλΛੳ͢Δલʹɺཧղ͢Δ• ूܭΛ͓͜ͳ͏• ྻ໊ʢDPMVNOʣͷҙຯΛཧղ͢Δ• ߦʢJOEFYʣʹ֨ೲ͞Ε͍ͯΔςΩετͷҙຯΛཧղ͢Δ
%BUB4DJFODF#005$".1UI σʔλੳϓϩηε ҙຯͷཧղ ྻͷҙຯΛΔ શମͷѲ σʔλͷେ͖͞ΛௐΔ ݸͷѲ σʔλݸΛ্͑͛Δ ࣭ͷѲ ܽଛΛௐΔ ج४ͷൃݟ هड़౷ܭྔΛࢉग़͢Δ ภΓͷൃݟ άϥϑʢՄࢹԽ͢Δ͜ͱʣͰཧղ͢Δ
%BUB4DJFODF#005$".1UI σʔλੳϓϩηε ҙຯͷཧղ εϓϨουγʔτ༁ؔ શମͷѲ TIBQF ݸͷѲ DPVOU ࣭ͷѲ ಉ্ʢࠓճεΩοϓʣ ج४ͷൃݟ EFTDSJCF ภΓͷൃݟ άϥϑʢՄࢹԽ͢Δ͜ͱʣͰཧղ͢Δ σʔλܕΛௐΔ EUZQFT
%BUB4DJFODF#005$".1UI σʔλੳϓϩηεಈతܕ͚ݴޠܭࢉ͢ΔͨΊͷϥΠϒϥϦσʔλΛѻ͏ͨΊͷϥΠϒϥϦػցֶशΛ͢ΔͨΊͷϥΠϒϥϦՄࢹԽ͢ΔͨΊͷϥΠϒϥϦ
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF σʔλੳϓϩηε• $PMBCPSBUPSZɺશʹΫϥυͰ࣮ߦ͞ΕΔ +VQZUFSϊʔτϒοΫڥͰ͢ɻ• ઃఆෆཁͰɺແྉͰ͝ར༻ʹͳΕ·͢ɻ• $PMBCPSBUPSZΛ༻͢Δͱɺίʔυͷهड़ͱ࣮ߦɺղੳͷอଘڞ༗ɺڧྗͳίϯϐϡʔςΟϯά ϦιʔεͷΞΫηεͳͲΛϒϥβ͔Βͯ͢ແྉͰߦ͑·͢ɻ
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF σʔλੳϓϩηε
ϞσϦϯάجૅ%BUB4DJFODF#005$".1UI
ڭࢣ͋ΓֶशͰΑ͘͏ʮճؼʯͱʮྨʯ回帰未知のデータから連続する数値を予測する分類未知のデータから離散値(カテゴリ)を予測する• そのワインどれくらい美味しいかを数字で表現• 今後、そのワインを何回買うであろうかを予測• そのワインは 美味しい or 美味しくない• そのワインはどんな種類︖(ボルドー or ブルゴーニュ)
%BUB4DJFODF#005$".1UI ϞσϦϯάجૅϞσϦϯάͷखॱ σʔληοτΛׂ͢Δ తมͱઆ໌ม ֶशσʔλͱݕূσʔλ ػցֶश ΞϧΰϦζϜબఆ ަࠩݕূʢֶशํ๏ʣ ਫ਼ݕূ ग़ྗ
%BUB4DJFODF#005$".1UI ϞσϦϯάجૅ࣮ࡍʹࣗͯ͠ΈΑ͏• ඪ• ࠷ඪɿσʔλͷՄࢹԽ·Ͱ• ཧඪɿػցֶशʙϞσϦϯά·Ͱʢୠ͠ɺਫ਼Θͳ͍ʣ• ࣌ؒɿʙ• ൃදɿ֤άϧʔϓʢʙʣ• ௐΔͱ͖ͷώϯτ• ΤϥʔϝοηʔδͰάάΔʂσʔλ໊໊ؔͰάάΔʂ
%BUB4DJFODF#005$".1UI ϞσϦϯάجૅ࣮ࡍʹࣗͯ͠ΈΑ͏• ඪ• ࠷ඪɿσʔλͷՄࢹԽ·Ͱ• ཧඪɿػցֶशʙϞσϦϯά·Ͱʢୠ͠ɺਫ਼Θͳ͍ʣ• ࣌ؒɿʙ• ൃදɿ֤άϧʔϓʢʙʣ• ௐΔͱ͖ͷώϯτ• ΤϥʔϝοηʔδͰάάΔʂσʔλ໊໊ؔͰάάΔʂ֤άϧʔϓͷൃදͱਐḿʹ߹Θͤͯɺ࣍ճʮϞσϦϯάղઆ̎ʯΛՃ͢Δ͔அ͠·͢ʂ
͘͘λΠϜ%BUB4DJFODF#005$".1UI
%BUB4DJFODF#005$".1UI ϞσϦϯάجૅ͘͘ձͷςʔϚΛܾΊΑ͏$IBJOFSνϡʔτϦΞϧͰॏճؼੳ·ͰͬͯΈͨ,BHHMFͷσʔληοτΛͬͯ͘͘ಠΓͰͯ͘͘͠Έ͍ͨ,BHHMFͷσʔληοτΛͬͯ͘͘8JOFσʔλ PSҰॹʹ$IBJOFSνϡʔτϦΞϧΈΜͳ͕σʔλੳʙϞσϦϯά·Ͱܦݧ͍ͯ͠Δ:&4/0ͪΐͬͱෆ҆ͩ ઓͯ͠ΈΔʂࠓͷඪ
%BUB4DJFODF#005$".1UI ϞσϦϯάجૅ·ͣҰॹʹ$IBJOFSνϡʔτϦΞϧ
%BUB4DJFODF#005$".1UI ϞσϦϯάجૅ͘͘ձͷϧʔϧ• άϧʔϓϝϯόʔʹฉ͍ͯΈΑ͏• εϓϨουγʔτͰͰ͖Δ͜ͱɺͬͯΈΑ͏• ؆୯ͳूܭɺՄࢹԽ1ZUIPOͰΒͳͯ͘Α͍• Τϥʔʹ׳ΕΑ͏• ΤϥʔͷղܾࡦΛൃද͠Α͏• ʮʙʙʙ·ͰͰ͖ͨʂʯ͕େͰ͢ʂ
࣍ճ༧ࠂ%BUB4DJFODF#005$".1UI
"*ΞϓϦέʔγϣϯͷجຊઃܭ༷%BUB4DJFODF#005$".1ୈظ
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF ڭࢣ͋ΓֶशϞσϧͷ߹データセット予測のもととなるデータモデルモデルが予測結果を計算教師データ正しい結果予測結果データモデルが予測した結果データセット予測のもととなるデータ性能評価達成基準を満たしているかモデル修正達成基準を満たしているか最終モデル完成運⽤へ機械学習機械学習データセット機械学習する対象
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF "*ΞϓϦέʔγϣϯ։ൃ教師データ正しい結果データセット予測のもととなるデータ機械学習データセット機械学習する対象⾝⻑(cm) 体重(kg) 性別171.7 63.4 男性154.2 50.1 ⼥性︙ ︙ ︙165.7 45.8 ⼥性⾝⻑(cm) 体重(kg)171.7 63.4154.2 50.1︙ ︙165.7 45.8⾝⻑(cm) 体重(kg) 性別171.7 63.4154.2 50.1︙ ︙165.7 45.8⾝⻑(cm) 体重(kg) 性別171.7 63.4 男性154.2 50.1 ⼥性︙ ︙ ︙165.7 45.8 ⼥性学習⽤データセット検証⽤データセット結果を説明できる要素説明変数予測したい結果・⽬的⽬的変数
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF ڭࢣ͋ΓֶशϞσϧͷ߹モデルモデルが予測結果を計算性能評価達成基準を満たしているかモデル修正達成基準を満たしているか最終モデル完成運⽤へ機械学習⽬的変数判断結果(答え) = 性別説明変数判断するために必要な要素出⼒データ答えが追加されたデータ⼊⼒データ答えがわからないデータ
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF "*ΞϓϦέʔγϣϯ։ൃڭࢣσʔλʢ: 9 9ʜʣ༧ଌϞσϧ༧ଌ݁Ռʢ:ʣೖྗ ग़ྗ
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF "*ΞϓϦέʔγϣϯ։ൃڭࢣσʔλʢ: 9 9ʜʣ༧ଌϞσϧ༧ଌ݁Ռʢ:ʣೖྗ ग़ྗ༧ଌϞσϧະͷσʔλೖྗ ༧ଌ݁Ռʢ:ʣग़ྗ
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF "*ΞϓϦέʔγϣϯ։ൃ༧ଌϞσϧະͷσʔλೖྗ ༧ଌ݁Ռʢ:ʣग़ྗೖྗϑΥʔϜ ग़ྗ݁Ռදࣔ
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF "*ΞϓϦέʔγϣϯ։ൃ༧ଌϞσϧະͷσʔλೖྗ ༧ଌ݁Ռʢ:ʣग़ྗೖྗϑΥʔϜ ग़ྗ݁Ռදࣔ⼊⼒画⾯HTML, CSS, JS結果表⽰画⾯HTML, CSS, JS
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF "*ΞϓϦέʔγϣϯ։ൃ༧ଌϞσϧະͷσʔλೖྗ ༧ଌ݁Ռʢ:ʣग़ྗೖྗϑΥʔϜ ग़ྗ݁Ռදࣔ⼊⼒画⾯HTML, CSS, JS結果表⽰画⾯HTML, CSS, JSσʔλΛೖྗ͢Δը໘Λ࡞݁ՌΛग़ྗ͢Δը໘Λ࡞
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF "*ΞϓϦέʔγϣϯ։ൃ༧ଌϞσϧະͷσʔλೖྗ ༧ଌ݁Ռʢ:ʣग़ྗೖྗϑΥʔϜ ग़ྗ݁ՌදࣔモデルPython
50,:0-"#$0634&UI %&1-0:ϑΣʔζ %BUB4DJFODF "*ΞϓϦέʔγϣϯ։ൃ༧ଌϞσϧະͷσʔλೖྗ ༧ଌ݁Ռʢ:ʣग़ྗೖྗϑΥʔϜ ग़ྗ݁ՌදࣔモデルPythonϞσϧΛग़ྗ͠ɺΞϓϦέʔγϣϯʹΈࠐΉ
՝%BUB4DJFODF#005$".1UI
%BUB4DJFODF#005$".1UI ՝σʔλੳ͔ΒϞσϦϯά·ͰͷྲྀΕΛ෮श͢Δ• ,BHHMF͔ΒҙͷσʔληοτΛ༻͠ɺσʔλੳʙϞσϦϯάΛߦ͏ʢ࣍ճಉ͡Α͏ʹൃදʣ• ݅ڭࢣ͋Γֶशʢճؼ PSྨϞσϧʣ• ࣍ճͷͨΊͷ։ൃڥߏங• ࣍ϖʔδʹৄࡉ
%BUB4DJFODF#005$".1UI ՝ڥߏஙʹ͍ͭͯ։ൃݴޠ• 1ZUIPOҎ্Ϟδϡʔϧ• TDJLJUMFBSO• GMBTL• 8FSL[FVH• 85'PSNTϩʔΧϧ1$ͷ։ൃڥʹ͍ͭͯ• %":Ҏ߱EPDLFSίϯςφΛͬͨԾڥʹɺੳڥΛߏங͠·͢ɻ ϨϕϧΞοϓ͍ͨ͠ํԾڥͷதʹɺγϯάϧΞϓϦέʔγϣϯͷ։ൃڥΛߏஙͯ͠Έ·͠ΐ͏ɻ