Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ

機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ

コネヒトマルシェオンライン「機械学習・データ分析」の資料です

Shoichiro Nagai(shnagai)

February 25, 2021
Tweet

More Decks by Shoichiro Nagai(shnagai)

Other Decks in Technology

Transcript

  1. ػցֶश1+ͷσʔλऩूʹ͓͚Δ՝୊Λղܾ͢Δ
    σʔλج൫ͷऔ૊Έ
    ӬҪউҰ࿠!TIOBHBJ
    ίωώτϚϧγΣΦϯϥΠϯʮػցֶशɾσʔλ෼ੳʯ

    View full-size slide

  2. ࣗݾ঺հ
    ओͳ׆ಈ
    "84΍Πϯϑϥؔ࿈Ͱͷొஃ͕ଟ͘ػցֶशΠϕϯτͰͷొஃ͸ճ໨
    ίωώτΤϯδχΞϒϩάIUUQTUFDIDPOOFIJUPDPNBSDIJWFBVUIPSOBHBJT
    ίωώτגࣜձࣾɹςΫϊϩδʔਪਐGɹ
    Πϯϑϥ/σʔλɾػցֶश
    @shnagai
    ӬҪউҰ࿠

    View full-size slide

  3. σʔλج൫Λ࡞Δ্Ͱɺ
    ಛʹػցֶश1+Ͱͷར༻ʹ͋ͨΓߟ͍͑ͯΔ͜ͱΛ࿩͠·͢ɻ

    View full-size slide

  4. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    Aͱ͍͏՝୊Λղͨ͘Ίʹ
    ߦಈϩάͱϚελʔσʔλΛ
    ֻ͚߹ΘͤͯϞσϧΛ࡞Δͧʂʂ

    View full-size slide

  5. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    σʔλ͕ͳ͍ͱԿ΋ग़དྷͳ͍ͷͰɺ
    ·ͣ͸ඞཁͳσʔλΛϩʔΧϧʹ࣋ͬͯ͘Δ

    View full-size slide

  6. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    ᶆσʔλ४උऴΘͬͨͷͰ
    ෼ੳͯ͠લॲཧͯ͠ϞσϦϯά͍ͯͧ͘͠ʂʂ
    ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ
    ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ

    View full-size slide

  7. ࢼߦࡨޡͷ্ɺखݩͰྑͦ͞͏ͳϞσϧ͕ग़དྷͨʂʂ

    View full-size slide

  8. 1P$͢ΔͨΊʹຊ൪Ͱಈ͘Ϟσϧ࡞Δͧʂʂ

    View full-size slide

  9. Ϟσϧ࡞੒ͷલʹఆظతͳσʔλऩू͕ඞཁ
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    ϞσϧΛ࡞Δલʹɺ
    ᶃᶄᶅͷσʔλऩूͱ੔ܗ͢ΔॲཧΛॻ͍ͯ
    ຊ൪/stgͰಈ͔͢ඞཁ͕͋Δ…
    ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ
    ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ

    View full-size slide

  10. σʔλऩूͷॲཧ͸ߟ͑Δ͜ͱ͕ଟ͍ɻɻ
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͹͍͍ͷ͔?
    ͲͷDBࢀর͢Ε͹͍͍ͷ͔ͳ?
    ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά΋͠ͳ͍ͱ
    େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ
    ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ
    ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ

    View full-size slide

  11. σʔλऩूͷॲཧ͸ߟ͑Δ͜ͱ͕ଟ͍ɻɻ
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͹͍͍ͷ͔?
    ͲͷDBࢀর͢Ε͹͍͍ͷ͔ͳ?
    ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά΋͠ͳ͍ͱ
    େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ
    ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ
    ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ
    खݩͰ࡞ͬͨσʔλΛఆظతʹߋ৽͍͚ͨͩ͠ͳͷʹ
    ѹ౗తʹߟྀ͢Δ͜ͱ͕ଟ͘πϥΠ

    View full-size slide

  12. ࣗલͰॻ͘ͱେมͳσʔλऩू͸σʔλج൫Ͱٵऩ

    View full-size slide

  13. ඞཁͳσʔλ͸લ΋ͬͯσʔλج൫Ͱऩू
    ۀ຿σʔλ
    Ϛελʔσʔλ
    ೔࣍ͰඞཁͳσʔλΛBigQueryʹసૹ
    DataLake
    ߦಈϩά
    ۀ຿σʔλ
    Ϛελʔσʔλ
    DataMart
    ML͔Βࢀর͢ΔϏϡʔ
    DataWarehouse
    ूܭσʔλ
    ຊ൪/stgͰͷϞσϧ࡞੒
    ։ൃ؀ڥͰͷϞσϧ࡞੒

    View full-size slide

  14. ৽ͨʹσʔλऩूॲཧΛॻ͘ඞཁ͸ͳ͍
    ۀ຿σʔλ
    Ϛελʔσʔλ
    ೔࣍ͰඞཁͳσʔλΛBigQueryʹసૹ
    DataLake
    ߦಈϩά
    ۀ຿σʔλ
    Ϛελʔσʔλ
    DataMart
    ML͔Βࢀর͢ΔϏϡʔ
    DataWarehouse
    ूܭσʔλ
    ຊ൪/stgͰͷϞσϧ࡞੒
    ։ൃ؀ڥͰͷϞσϧ࡞੒
    ։ൃத

    View full-size slide

  15. ໨ࢦ͍ͯ͠Δະདྷ
    w %8)ج൫Λ੔͑Δ͜ͱͰػցֶश1+ʹ͓͚Δσʔλऩूͷ՝୊Λղܾ
    w .-ΤϯδχΞ΍σʔλαΠΤϯςΟετ͸࠷΋Ձ஋Λൃشग़དྷΔ
    ϞσϦϯά΍νϡʔχϯάʹ஫ྗ
    w εϐʔσΟʔʹػցֶशͷ1P$Λճͤͯ݁Ռͱͯ͠੒ޭ֬౓Λ্͛Δ

    View full-size slide

  16. ͞ΒͳΔαʔϏε΁ͷػցֶश׆༻ͷ଍৔ΛݻΊΔͨΊʹ΋
    σʔλج൫΋Ұॹʹҭ͍ͯͯ͘
    8F`SF)JSJOH

    View full-size slide