Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ

機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ

コネヒトマルシェオンライン「機械学習・データ分析」の資料です

Shoichiro Nagai(shnagai)

February 25, 2021
Tweet

More Decks by Shoichiro Nagai(shnagai)

Other Decks in Technology

Transcript

  1. ػցֶश1+ͷσʔλऩूʹ͓͚Δ՝୊Λղܾ͢Δ σʔλج൫ͷऔ૊Έ ӬҪউҰ࿠!TIOBHBJ ίωώτϚϧγΣΦϯϥΠϯʮػցֶशɾσʔλ෼ੳʯ

  2. ࣗݾ঺հ ओͳ׆ಈ "84΍Πϯϑϥؔ࿈Ͱͷొஃ͕ଟ͘ػցֶशΠϕϯτͰͷొஃ͸ճ໨ ίωώτΤϯδχΞϒϩάIUUQTUFDIDPOOFIJUPDPNBSDIJWFBVUIPSOBHBJT ίωώτגࣜձࣾɹςΫϊϩδʔਪਐGɹ Πϯϑϥ/σʔλɾػցֶश @shnagai ӬҪউҰ࿠

  3. σʔλج൫Λ࡞Δ্Ͱɺ ಛʹػցֶश1+Ͱͷར༻ʹ͋ͨΓߟ͍͑ͯΔ͜ͱΛ࿩͠·͢ɻ

  4. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά Aͱ͍͏՝୊Λղͨ͘Ίʹ ߦಈϩάͱϚελʔσʔλΛ ֻ͚߹ΘͤͯϞσϧΛ࡞Δͧʂʂ

  5. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά σʔλ͕ͳ͍ͱԿ΋ग़དྷͳ͍ͷͰɺ ·ͣ͸ඞཁͳσʔλΛϩʔΧϧʹ࣋ͬͯ͘Δ

  6. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά ᶆσʔλ४උऴΘͬͨͷͰ ෼ੳͯ͠લॲཧͯ͠ϞσϦϯά͍ͯͧ͘͠ʂʂ ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর

    ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ
  7. ࢼߦࡨޡͷ্ɺखݩͰྑͦ͞͏ͳϞσϧ͕ग़དྷͨʂʂ

  8. 1P$͢ΔͨΊʹຊ൪Ͱಈ͘Ϟσϧ࡞Δͧʂʂ

  9. Ϟσϧ࡞੒ͷલʹఆظతͳσʔλऩू͕ඞཁ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά ϞσϧΛ࡞Δલʹɺ ᶃᶄᶅͷσʔλऩूͱ੔ܗ͢ΔॲཧΛॻ͍ͯ ຊ൪/stgͰಈ͔͢ඞཁ͕͋Δ… ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ

    ϥΠϒϥϦ͔Β௚઀ࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ
  10. σʔλऩूͷॲཧ͸ߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͹͍͍ͷ͔? ͲͷDBࢀর͢Ε͹͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά΋͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর

    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ
  11. σʔλऩूͷॲཧ͸ߟ͑Δ͜ͱ͕ଟ͍ɻɻ ۀ຿σʔλ Ϛελʔσʔλ ߦಈϩά ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͹͍͍ͷ͔? ͲͷDBࢀর͢Ε͹͍͍ͷ͔ͳ? ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά΋͠ͳ͍ͱ େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর

    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ ϥΠϒϥϦ͔Β௚઀ࢀর ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ खݩͰ࡞ͬͨσʔλΛఆظతʹߋ৽͍͚ͨͩ͠ͳͷʹ ѹ౗తʹߟྀ͢Δ͜ͱ͕ଟ͘πϥΠ
  12. ࣗલͰॻ͘ͱେมͳσʔλऩू͸σʔλج൫Ͱٵऩ

  13. ඞཁͳσʔλ͸લ΋ͬͯσʔλج൫Ͱऩू ۀ຿σʔλ Ϛελʔσʔλ ೔࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀ຿σʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ

    DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞੒ ։ൃ؀ڥͰͷϞσϧ࡞੒
  14. ৽ͨʹσʔλऩूॲཧΛॻ͘ඞཁ͸ͳ͍ ۀ຿σʔλ Ϛελʔσʔλ ೔࣍ͰඞཁͳσʔλΛBigQueryʹసૹ DataLake ߦಈϩά ۀ຿σʔλ Ϛελʔσʔλ DataMart ML͔Βࢀর͢ΔϏϡʔ

    DataWarehouse ूܭσʔλ ຊ൪/stgͰͷϞσϧ࡞੒ ։ൃ؀ڥͰͷϞσϧ࡞੒ ։ൃத
  15. ໨ࢦ͍ͯ͠Δະདྷ w %8)ج൫Λ੔͑Δ͜ͱͰػցֶश1+ʹ͓͚Δσʔλऩूͷ՝୊Λղܾ w .-ΤϯδχΞ΍σʔλαΠΤϯςΟετ͸࠷΋Ձ஋Λൃشग़དྷΔ ϞσϦϯά΍νϡʔχϯάʹ஫ྗ w εϐʔσΟʔʹػցֶशͷ1P$Λճͤͯ݁Ռͱͯ͠੒ޭ֬౓Λ্͛Δ

  16. ͞ΒͳΔαʔϏε΁ͷػցֶश׆༻ͷ଍৔ΛݻΊΔͨΊʹ΋ σʔλج൫΋Ұॹʹҭ͍ͯͯ͘ 8F`SF)JSJOH