Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ

機械学習PJのデータ収集における課題を解決する データ基盤の取組み/Efforts of data infrastructure to solve problems in data collection of machine learning PJ

コネヒトマルシェオンライン「機械学習・データ分析」の資料です

Shoichiro Nagai(shnagai)

February 25, 2021
Tweet

More Decks by Shoichiro Nagai(shnagai)

Other Decks in Technology

Transcript

  1. ػցֶश1+ͷσʔλऩूʹ͓͚Δ՝୊Λղܾ͢Δ
    σʔλج൫ͷऔ૊Έ
    ӬҪউҰ࿠!TIOBHBJ
    ίωώτϚϧγΣΦϯϥΠϯʮػցֶशɾσʔλ෼ੳʯ

    View Slide

  2. ࣗݾ঺հ
    ओͳ׆ಈ
    "84΍Πϯϑϥؔ࿈Ͱͷొஃ͕ଟ͘ػցֶशΠϕϯτͰͷొஃ͸ճ໨
    ίωώτΤϯδχΞϒϩάIUUQTUFDIDPOOFIJUPDPNBSDIJWFBVUIPSOBHBJT
    ίωώτגࣜձࣾɹςΫϊϩδʔਪਐGɹ
    Πϯϑϥ/σʔλɾػցֶश
    @shnagai
    ӬҪউҰ࿠

    View Slide

  3. σʔλج൫Λ࡞Δ্Ͱɺ
    ಛʹػցֶश1+Ͱͷར༻ʹ͋ͨΓߟ͍͑ͯΔ͜ͱΛ࿩͠·͢ɻ

    View Slide

  4. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    Aͱ͍͏՝୊Λղͨ͘Ίʹ
    ߦಈϩάͱϚελʔσʔλΛ
    ֻ͚߹ΘͤͯϞσϧΛ࡞Δͧʂʂ

    View Slide

  5. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    σʔλ͕ͳ͍ͱԿ΋ग़དྷͳ͍ͷͰɺ
    ·ͣ͸ඞཁͳσʔλΛϩʔΧϧʹ࣋ͬͯ͘Δ

    View Slide

  6. ػցֶशΛͱΓ·͘σʔλ෼ੳ؀ڥͷ՝୊
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    ᶆσʔλ४උऴΘͬͨͷͰ
    ෼ੳͯ͠લॲཧͯ͠ϞσϦϯά͍ͯͧ͘͠ʂʂ
    ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ
    ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ

    View Slide

  7. ࢼߦࡨޡͷ্ɺखݩͰྑͦ͞͏ͳϞσϧ͕ग़དྷͨʂʂ

    View Slide

  8. 1P$͢ΔͨΊʹຊ൪Ͱಈ͘Ϟσϧ࡞Δͧʂʂ

    View Slide

  9. Ϟσϧ࡞੒ͷલʹఆظతͳσʔλऩू͕ඞཁ
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    ϞσϧΛ࡞Δલʹɺ
    ᶃᶄᶅͷσʔλऩूͱ੔ܗ͢ΔॲཧΛॻ͍ͯ
    ຊ൪/stgͰಈ͔͢ඞཁ͕͋Δ…
    ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ
    ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ

    View Slide

  10. σʔλऩूͷॲཧ͸ߟ͑Δ͜ͱ͕ଟ͍ɻɻ
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͹͍͍ͷ͔?
    ͲͷDBࢀর͢Ε͹͍͍ͷ͔ͳ?
    ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά΋͠ͳ͍ͱ
    େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ
    ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ
    ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ

    View Slide

  11. σʔλऩूͷॲཧ͸ߟ͑Δ͜ͱ͕ଟ͍ɻɻ
    ۀ຿σʔλ
    Ϛελʔσʔλ ߦಈϩά
    ͦΕͧΕͲͷݖݶͰΞΫηε͢Ε͹͍͍ͷ͔?
    ͲͷDBࢀর͢Ε͹͍͍ͷ͔ͳ?
    ऩू͕࣮֬ʹग़དྷΔΑ͏ʹΤϥʔϋϯυϦϯά΋͠ͳ͍ͱ
    େྔͷσʔλ݁߹͢Δͷʹେ͖ͳίϯϐϡʔτࢿݯ͕ඞཁ
    ᶃԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶄԿ͔͠ΒͷखஈͰcsvμ΢ϯϩʔυ
    ϥΠϒϥϦ͔Β௚઀ࢀর
    ᶅखݩʹඞཁͳσʔλ͕ἧ͔ͬͨΒ
    ෼ੳ͠΍͍͢Α͏ʹpandasͰσʔλ੔ܗ
    खݩͰ࡞ͬͨσʔλΛఆظతʹߋ৽͍͚ͨͩ͠ͳͷʹ
    ѹ౗తʹߟྀ͢Δ͜ͱ͕ଟ͘πϥΠ

    View Slide

  12. ࣗલͰॻ͘ͱେมͳσʔλऩू͸σʔλج൫Ͱٵऩ

    View Slide

  13. ඞཁͳσʔλ͸લ΋ͬͯσʔλج൫Ͱऩू
    ۀ຿σʔλ
    Ϛελʔσʔλ
    ೔࣍ͰඞཁͳσʔλΛBigQueryʹసૹ
    DataLake
    ߦಈϩά
    ۀ຿σʔλ
    Ϛελʔσʔλ
    DataMart
    ML͔Βࢀর͢ΔϏϡʔ
    DataWarehouse
    ूܭσʔλ
    ຊ൪/stgͰͷϞσϧ࡞੒
    ։ൃ؀ڥͰͷϞσϧ࡞੒

    View Slide

  14. ৽ͨʹσʔλऩूॲཧΛॻ͘ඞཁ͸ͳ͍
    ۀ຿σʔλ
    Ϛελʔσʔλ
    ೔࣍ͰඞཁͳσʔλΛBigQueryʹసૹ
    DataLake
    ߦಈϩά
    ۀ຿σʔλ
    Ϛελʔσʔλ
    DataMart
    ML͔Βࢀর͢ΔϏϡʔ
    DataWarehouse
    ूܭσʔλ
    ຊ൪/stgͰͷϞσϧ࡞੒
    ։ൃ؀ڥͰͷϞσϧ࡞੒
    ։ൃத

    View Slide

  15. ໨ࢦ͍ͯ͠Δະདྷ
    w %8)ج൫Λ੔͑Δ͜ͱͰػցֶश1+ʹ͓͚Δσʔλऩूͷ՝୊Λղܾ
    w .-ΤϯδχΞ΍σʔλαΠΤϯςΟετ͸࠷΋Ձ஋Λൃشग़དྷΔ
    ϞσϦϯά΍νϡʔχϯάʹ஫ྗ
    w εϐʔσΟʔʹػցֶशͷ1P$Λճͤͯ݁Ռͱͯ͠੒ޭ֬౓Λ্͛Δ

    View Slide

  16. ͞ΒͳΔαʔϏε΁ͷػցֶश׆༻ͷ଍৔ΛݻΊΔͨΊʹ΋
    σʔλج൫΋Ұॹʹҭ͍ͯͯ͘
    8F`SF)JSJOH

    View Slide