コネヒトマルシェオンライン「機械学習・データ分析」の資料です
ػցֶश1+ͷσʔλऩूʹ͓͚Δ՝Λղܾ͢Δσʔλج൫ͷऔΈӬҪউҰ!TIOBHBJίωώτϚϧγΣΦϯϥΠϯʮػցֶशɾσʔλੳʯ
View Slide
ࣗݾհओͳ׆ಈ"84Πϯϑϥؔ࿈Ͱͷొஃ͕ଟ͘ػցֶशΠϕϯτͰͷొஃճίωώτΤϯδχΞϒϩάIUUQTUFDIDPOOFIJUPDPNBSDIJWFBVUIPSOBHBJTίωώτגࣜձࣾɹςΫϊϩδʔਪਐGɹΠϯϑϥ/σʔλɾػցֶश@shnagaiӬҪউҰ
σʔλج൫Λ࡞Δ্Ͱɺಛʹػցֶश1+Ͱͷར༻ʹ͋ͨΓߟ͍͑ͯΔ͜ͱΛ͠·͢ɻ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ۀσʔλϚελʔσʔλ ߦಈϩάAͱ͍͏՝Λղͨ͘ΊʹߦಈϩάͱϚελʔσʔλΛֻ͚߹ΘͤͯϞσϧΛ࡞Δͧʂʂ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ۀσʔλϚελʔσʔλ ߦಈϩάσʔλ͕ͳ͍ͱԿग़དྷͳ͍ͷͰɺ·ͣඞཁͳσʔλΛϩʔΧϧʹ࣋ͬͯ͘Δ
ػցֶशΛͱΓ·͘σʔλੳڥͷ՝ۀσʔλϚελʔσʔλ ߦಈϩάᶆσʔλ४උऴΘͬͨͷͰੳͯ͠લॲཧͯ͠ϞσϦϯά͍ͯͧ͘͠ʂʂᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυϥΠϒϥϦ͔ΒࢀরᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυϥΠϒϥϦ͔Βࢀরᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒੳ͍͢͠Α͏ʹpandasͰσʔλܗ
ࢼߦࡨޡͷ্ɺखݩͰྑͦ͞͏ͳϞσϧ͕ग़དྷͨʂʂ
1P$͢ΔͨΊʹຊ൪Ͱಈ͘Ϟσϧ࡞Δͧʂʂ
Ϟσϧ࡞ͷલʹఆظతͳσʔλऩू͕ඞཁۀσʔλϚελʔσʔλ ߦಈϩάϞσϧΛ࡞Δલʹɺᶃᶄᶅͷσʔλऩूͱܗ͢ΔॲཧΛॻ͍ͯຊ൪/stgͰಈ͔͢ඞཁ͕͋Δ…ᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυϥΠϒϥϦ͔ΒࢀরᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυϥΠϒϥϦ͔Βࢀরᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒੳ͍͢͠Α͏ʹpandasͰσʔλܗ
σʔλऩूͷॲཧߟ͑Δ͜ͱ͕ଟ͍ɻɻۀσʔλϚελʔσʔλ ߦಈϩάͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͍͍ͷ͔?ͲͷDBࢀর͢Ε͍͍ͷ͔ͳ?ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά͠ͳ͍ͱେྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυϥΠϒϥϦ͔ΒࢀরᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυϥΠϒϥϦ͔Βࢀরᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒੳ͍͢͠Α͏ʹpandasͰσʔλܗ
σʔλऩूͷॲཧߟ͑Δ͜ͱ͕ଟ͍ɻɻۀσʔλϚελʔσʔλ ߦಈϩάͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͍͍ͷ͔?ͲͷDBࢀর͢Ε͍͍ͷ͔ͳ?ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά͠ͳ͍ͱେྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁᶃԿ͔͠ΒͷखஈͰcsvμϯϩʔυϥΠϒϥϦ͔ΒࢀরᶄԿ͔͠ΒͷखஈͰcsvμϯϩʔυϥΠϒϥϦ͔Βࢀরᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒੳ͍͢͠Α͏ʹpandasͰσʔλܗखݩͰ࡞ͬͨσʔλΛఆظతʹߋ৽͍͚ͨͩ͠ͳͷʹѹతʹߟྀ͢Δ͜ͱ͕ଟ͘πϥΠ
ࣗલͰॻ͘ͱେมͳσʔλऩूσʔλج൫Ͱٵऩ
ඞཁͳσʔλલͬͯσʔλج൫ͰऩूۀσʔλϚελʔσʔλ࣍ͰඞཁͳσʔλΛBigQueryʹసૹDataLakeߦಈϩάۀσʔλϚελʔσʔλDataMartML͔Βࢀর͢ΔϏϡʔDataWarehouseूܭσʔλຊ൪/stgͰͷϞσϧ࡞։ൃڥͰͷϞσϧ࡞
৽ͨʹσʔλऩूॲཧΛॻ͘ඞཁͳ͍ۀσʔλϚελʔσʔλ࣍ͰඞཁͳσʔλΛBigQueryʹసૹDataLakeߦಈϩάۀσʔλϚελʔσʔλDataMartML͔Βࢀর͢ΔϏϡʔDataWarehouseूܭσʔλຊ൪/stgͰͷϞσϧ࡞։ൃڥͰͷϞσϧ࡞։ൃத
ࢦ͍ͯ͠Δະདྷw %8)ج൫Λ͑Δ͜ͱͰػցֶश1+ʹ͓͚Δσʔλऩूͷ՝Λղܾw .-ΤϯδχΞσʔλαΠΤϯςΟετ࠷ՁΛൃشग़དྷΔϞσϦϯάνϡʔχϯάʹྗw εϐʔσΟʔʹػցֶशͷ1P$Λճͤͯ݁Ռͱͯ͠ޭ֬Λ্͛Δ
͞ΒͳΔαʔϏεͷػցֶश׆༻ͷΛݻΊΔͨΊʹσʔλج൫Ұॹʹҭ͍ͯͯ͘8F`SF)JSJOH