Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ

機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ

コネヒトマルシェオンライン「機械学習・データ分析」の資料です

1e8c5eaf563f965d3ba48b0054b1d955?s=128

Shoichiro Nagai(shnagai)

February 25, 2021
Tweet

Transcript

  1. ػցֶश1+ͷσʔλऩूʹ͓͚Δ՝୊Λղܾ͢Δ σʔλج൫ͷऔ૊Έ ӬҪউҰ࿠!TIOBHBJ ίωώτϚϧγΣΦϯϥΠϯʮػցֶशɾσʔλ෼ੳʯ

  2. ࣗݾ঺հ ओͳ׆ಈ "84΍Πϯϑϥؔ࿈Ͱͷొஃ͕ଟ͘ػցֶशΠϕϯτͰͷొஃ͸ճ໨ ίωώτΤϯδχΞϒϩάIUUQTUFDIDPOOFIJUPDPNBSDIJWFBVUIPSOBHBJT ίωώτגࣜձࣾɹςΫϊϩδʔਪਐGɹ Πϯϑϥ/σʔλɾػցֶश @shnagai ӬҪউҰ࿠

  3. σʔλج൫Λ࡞Δ্Ͱɺ ಛʹػցֶश1+Ͱͷར༻ʹ͋ͨΓߟ͍͑ͯΔ͜ͱΛ࿩͠·͢ɻ

  4. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά Aͱ͍͏՝୊Λղͨ͘Ίʹ ߦಈϩάͱϚελʔσʔλΛ ֻ͚߹ΘͤͯϞσϧΛ࡞Δͧʂʂ

  5. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά σʔλ͕ͳ͍ͱԿ΋ग़དྷͳ͍ͷͰɺ ·ͣ͸ඞཁͳσʔλΛϩʔΧϧʹ࣋ͬͯ͘Δ

  6. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά ᶆσʔλ४උऴΘͬͨͷͰ ෼ੳͯ͠લॲཧͯ͠ϞσϦϯά͍ͯͧ͘͠ʂʂ ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর

    ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ
  7. ࢼߦࡨޡͷ্ɺखݩͰྑͦ͞͏ͳϞσϧ͕ग़དྷͨʂʂ

  8. 1P$͢ΔͨΊʹຊ൪Ͱಈ͘Ϟσϧ࡞Δͧʂʂ

  9. Ϟσϧ࡞੒ͷલʹఆظతͳσʔλऩू͕ඞཁ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά ϞσϧΛ࡞Δલʹɺ ᶃᶄᶅͷσʔλऩूͱ੔ܗ͢ΔॲཧΛॻ͍ͯ ຊ൪/stgͰಈ͔͢ඞཁ͕͋Δ… ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ

    ϥΠϒϥϦ͔Β௚઀ࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ
  10. σʔλऩूͷॲཧ͸ߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͹͍͍ͷ͔? ͲͷDBࢀর͢Ε͹͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά΋͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর

    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ
  11. σʔλऩूͷॲཧ͸ߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͹͍͍ͷ͔? ͲͷDBࢀর͢Ε͹͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά΋͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর

    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ खݩͰ࡞ͬͨσʔλΛఆظతʹߋ৽͍͚ͨͩ͠ͳͷʹ ѹ౗తʹߟྀ͢Δ͜ͱ͕ଟ͘πϥΠ
  12. ࣗલͰॻ͘ͱେมͳσʔλऩू͸σʔλج൫Ͱٵऩ

  13. ඞཁͳσʔλ͸લ΋ͬͯσʔλج൫Ͱऩू ۀ຿σʔλ Ϛελʔσʔλ ೔࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀ຿σʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ

    DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞੒ ։ൃ؀ڥͰͷϞσϧ࡞੒
  14. ৽ͨʹσʔλऩूॲཧΛॻ͘ඞཁ͸ͳ͍ ۀ຿σʔλ Ϛελʔσʔλ ೔࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀ຿σʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ

    DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞੒ ։ൃ؀ڥͰͷϞσϧ࡞੒ ։ൃத
  15. ໨ࢦ͍ͯ͠Δະདྷ w %8)ج൫Λ੔͑Δ͜ͱͰػցֶश1+ʹ͓͚Δσʔλऩूͷ՝୊Λղܾ w .-ΤϯδχΞ΍σʔλαΠΤϯςΟετ͸࠷΋Ձ஋Λൃشग़དྷΔ ϞσϦϯά΍νϡʔχϯάʹ஫ྗ w εϐʔσΟʔʹػցֶशͷ1P$Λճͤͯ݁Ռͱͯ͠੒ޭ֬౓Λ্͛Δ

  16. ͞ΒͳΔαʔϏε΁ͷػցֶश׆༻ͷ଍৔ΛݻΊΔͨΊʹ΋ σʔλج൫΋Ұॹʹҭ͍ͯͯ͘ 8F`SF)JSJOH