Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2021.09.15_Amazon EMR Studio を用いた EDA 環境の構築

MasatoShima
September 15, 2021

2021.09.15_Amazon EMR Studio を用いた EDA 環境の構築

「Data Analysis Study #1 データ分析環境について」で登壇したときの資料になります。

MasatoShima

September 15, 2021
Tweet

Other Decks in Technology

Transcript

  1. ˔ ηογϣϯͷྲྀΕ ˓ φ΢Ωϟετ಺ͷ &%"ʹ͓͚Δ՝୊ ˓ ͦΕʹର͢ΔղܾҊ ˔ ͜Μͳํʹ͓͢͢Ί ˓

    これからデータ分析環境の構築を検討されようとしている方 ˓ データ分析やデータエンジニアリング業務に携わっている方 ˓ 他社はどのようなデータ分析環境を構築しているのか興味がある方 ˓ EDA の環境に課題を感じている方 "HFOEB
  2. ˔ Ϗδωεͷ֦େʹ൐͍ɺσʔλ෼ੳͷॏཁੑ͕ߴ·Δ ˔ ਺ඦ (#d਺ 5#ن໛ͷσʔλΛ෼ੳ͢Δέʔεͷ૿Ճ ˓ &$JOTUBODFΛߏங͠ɺ 1ZUIPO "UIFOBͰॲཧΛ࣮૷ʙ࣮ߦ

    ˓ ຖճɺ"UIFOBͷςʔϒϧઃܭ΍ࣗલͰ෼ࢄॲཧΛॻ͍ͯ "84#BUDIͰ࣮ߦ ˙ ෼ੳʹ࣌ؒ΍खؒɺίετ͕͔͔Δ ˙ &$JOTUBODFͳͲɺϦιʔε؅ཧͷඞཁੑ͕͋Γɺӡ༻ෛՙ͕ੜ͡Δ ˔ &%"ͷ݁Ռʹ͍ͭͯɺࣾ಺Ͱڞ༗͢Δ͜ͱʹख͕͔͔ؒΔ ˓ ຖճɺIUNMϑΝΠϧʹม׵͠ɺ4MBDLͳͲʹʜ *TTVF
  3. ˔ "NB[PO&.34UVEJP ˓ "NB[PO&.3޲͚ͷ౷߹։ൃ؀ڥʢ*%&ʣ ˓ "NB[PO&.3$MVTUFS΍ "NB[PO&.3/PUFCPPLTͷ࡞੒ɾ઀ଓɾૢ࡞ͳͲ͕ߦ͑Δ ˓ Πϝʔδ͸ (PPHMF$PMBCPSBUPSZʹ͍ۙ

    ˔ "NB[PO&.3 ˓ "QBDIF4QBSLͳͲϏοάσʔλ޲͚ͷ෼ࢄॲཧϑϨʔϜϫʔΫͷ࣮ߦ؀ڥΛఏڙ ˔ "NB[PO&.3/PUFCPPLT ˓ "NB[PO&.3޲͚ͷ +VQZUFS/PUFCPPLͷαʔόϨεͳϗεςΟϯάαʔϏε "NB[PO&.34UVEJP
  4. ˔ "84੡඼ΧλϩάΛ࡞੒ɺ੔ཧɺ؅ཧ͢Δ ˓ $MPVE'PSNBUJPOͷ UFNQMBUFΛ؅ཧ͢Δ͜ͱ͕Ͱ͖ΔαʔϏε ˓ ར༻ऀ͸ 4FSWJDF$BUBMPH͔Βొ࿥ࡁΈͷ $MPVE'PSNBUJPOUFNQMBUFΛ༻͍ͯɺ "84SFTPVSDFͷ

    EFQMPZ͕Մೳ "844FSWJDF$BUBMPH Administrator Analysts Developers AWS Service Catalog UFNQMBUFΛొ࿥ ࢖༻͍ͨ͠ "84ͷ SFTPVSDFͷ UFNQMBUF Λ࢖༻͠ɺEFQMPZ
  5. ˔ ӈͷΠϝʔδͷΑ͏ʹ $MPVE'PSNBUJPOͷ จ๏ :".-ܗࣜ ʹԊͬͯɺࣄલʹ &.3 $MVTUFSͷઃఆΛ UFNQMBUFͱͯ͠ఆٛ ˔

    "NB[PO&.34UVEJPΛܦ༝͠ɺҎԼͷ UFNQMBUFʹ΋ͱ͖ͮɺ&.3$MVTUFSΛ࣮ࡍ ʹ EFQMPZ "844FSWJDF$BUBMPH
  6. "SDIJUFDUVSF &.3 Users Amazon S3 EMR Notebooks $MVTUFS Instances (Spot

    instance) Amazon S3 AWS Service Catalog AWS Single Sign- On Lambda function
  7. ˔ φ΢Ωϟετͱͯ͠ɺ1ZUIPOΛ༻͍ͨ։ൃ΍෼ੳ͕ओྲྀͰ͋ͬͨ ˓ ʮ42-Ͱ͝Γ͝Γʜʯɺͱ͍͏ํ๏ʹൺ΂ɺϝϯόʔͷεΩϧʹϚον͍ͯͨ͠ ˔ "UIFOBͰςʔϒϧఆٛ΍ύʔςΟγϣϯͷઃܭͰ͸ରԠ͕೉͍͠έʔε΋ଘࡏ ˓ ϓϩδΣΫτʹΑͬͯɺ෼ੳ͕࣠େ͖͘ҟͳΔʢύʔςΟγϣϯΛ੾ΓͮΒ͍ʣ ˓ 1ZUIPO

    "UIFOBͰཁ݅Λຬͨ͢Α͏ͳ෼ࢄॲཧΛ࣮૷͠ͳ͚Ε͹ͳΒͳ͔ͬͨ ˔ ίετ໘Ͱ΋༏ҐੑΛظ଴Ͱ͖Δʢݕূதʜʣ ˓ "UIFOBͷσʔλεΩϟϯʹؔ͢Δίετ͕՝୊ʹͳ͍ͬͯͨ ˓ "VUPTDBMJOHػೳ΍ 4QPUJOTUBODFΛ׆༻͢Δ͜ͱͰίετΛ཈͑΍͍͢ 8IZ"NB[PO&.34UVEJP
  8. ˔ Ϗδωεͷ֦େʹ൐͍ɺσʔλ෼ੳͷॏཁੑ͕ߴ·Δ ˔ ਺ඦ (#d਺ 5#ن໛ͷσʔλΛ෼ੳ͢Δέʔεͷ૿Ճ ˓ &$JOTUBODFΛߏங͠ɺ 1ZUIPO "UIFOBͰॲཧΛ࣮૷ʙ࣮ߦ

    ˓ ຖճɺ"UIFOBͷςʔϒϧઃܭ΍ࣗલͰ෼ࢄॲཧΛॻ͍ͯ "84#BUDIͰ࣮ߦ ˙ ෼ੳʹ࣌ؒ΍खؒɺίετ͕͔͔Δ ˙ &$JOTUBODFͳͲɺϦιʔε؅ཧͷඞཁੑ͕͋Γɺӡ༻ෛՙ͕ੜ͡Δ ˔ &%"ͷ݁Ռʹ͍ͭͯɺࣾ಺Ͱڞ༗͢Δ͜ͱʹख͕͔͔ؒΔ ˓ ຖճɺIUNMϑΝΠϧʹม׵͠ɺ4MBDLͳͲʹʜ *TTVF
  9. ˔ Ϗδωεͷ֦େʹ൐͍ɺσʔλ෼ੳͷॏཁੑ͕ߴ·Δ ˔ ਺ඦ (#d਺ 5#ن໛ͷσʔλΛ෼ੳ͢Δέʔεͷ૿Ճ ˓ &$JOTUBODFΛߏங͠ɺ 1ZUIPO "UIFOBͰॲཧΛ࣮૷ʙ࣮ߦ

    ˓ ຖճɺ"UIFOBͷςʔϒϧઃܭ΍ࣗલͰ෼ࢄॲཧΛॻ͍ͯ "84#BUDIͰ࣮ߦ ˙ ෼ੳʹ࣌ؒ΍खؒɺίετ͕͔͔Δ ˙ &$JOTUBODFͳͲɺϦιʔε؅ཧͷඞཁੑ͕͋Γɺӡ༻ෛՙ͕ੜ͡Δ ˔ &%"ͷ݁Ռʹ͍ͭͯɺࣾ಺Ͱڞ༗͢Δ͜ͱʹख͕͔͔ؒΔ ˓ ຖճɺIUNMϑΝΠϧʹม׵͠ɺ4MBDLͳͲʹʜ *TTVF
  10. ˔ /FUGMJYͳͲ͕த৺ͱͳͬͯ։ൃ͍ͯ͠Δ 044 ˓ (JU)VC ˔ +VQZUFS/PUFCPPLΛࣗಈతʹ IUNMʹม׵͠ɺϒϥ΢β্Ͱڞ༗ ˔ -PDBM্ͷ

    +VQZUFS/PUFCPPLͷ΄͔ɺ4ɺ($4্ͷ +VQZUFS/PUFCPPL΋ڞ༗Մೳ ˔ +VQZUFS/PUFCPPLͷڞ༗ػೳҎ֎ʹݕࡧػೳ΋ఏڙ $PNNVUFS
  11. "SDIJUFDUVSF &.3 Users Amazon S3 EMR Notebooks $MVTUFS Instances (Spot

    instance) Amazon S3 AWS Service Catalog AWS Single Sign- On Lambda function
  12. "SDIJUFDUVSF &.3 Users Amazon S3 EMR Notebooks $MVTUFS Instances (Spot

    instance) Amazon S3 AWS Service Catalog AWS Single Sign- On Commuter Lambda function
  13. ˔ "84ͷ֤छϚωʔδυαʔϏεΛ׆༻͢Δ͜ͱͰӡ༻ෛՙͷগͳ͍ &%"؀ڥͷߏங͕࣮ݱ ˓ ίϯϐϡʔτϦιʔεؔ࿈ͷ؅ཧ͸ "NB[PO&.3ʹΦϑϩʔυ ˙ &.3$MVTUFSΛ౎౓࡞੒ʹ͢Δ͜ͱͰ 04΍ ϛυϧ΢ΣΞͷόʔδϣϯ؅ཧͳͲΛෆཁʹ

    ˙ ॲཧʹԠͯ͡ "VUPTDBMJOH΍ 4QPUJOTUBODFͷ׆༻΋ ˓ +VQZUFS/PUFCPPLؔ࿈ͷ؅ཧ͸ "NB[PO&.34UVEJP/PUFCPPL΁ ˙ &.3/PUFCPPLTΛ׆༻͢Δ͜ͱͰϚωʔδυͳ +VQZUFS/PUFCPPLΛߏங ˙ +VQZUFS/PUFCPPL͸ 4ʹอଘ͠ɺ৑௕ԽΛ֬อ ˓ ؀ڥ΁ͷ઀ଓ͢ΔͨΊͷϢʔβ؅ཧ͸ "NB[PO4JOHMF4JHO0O΁Φϑϩʔυ 1PTJUJWFTJEF
  14. ˔ φ΢Ωϟετ಺Ͱ͸Ϧιʔε؅ཧ͸ 5FSSBGPSNͰߦ͍ͬͯΔ ˓ ͦͷͨΊɺ4FSWJDF$BUBMPHͷ $MPVE'PSNBUJPOલఏͷ࢖༻͸ͪΐͬͱ͚ͩɺखؒʜ ˔ "NB[PO4JOHMF4JHO0OʹΑΔϢʔβ؅ཧ͸γεςϜతͳ؅ཧΛΦϑϩʔυͰ͖Δ൓໘ɺࣾ಺ ௐ੔ͳͲΛඞཁੑ͕ੜ͡Δ৔໘΋͋Δ ˓

    "NB[PO4JOHMF4JHO0Oʹର͢ΔϢʔβͷ௥ՃͳͲ͸ผ్ɺ؅ཧΞΧ΢ϯτͰߦΘΕͯ ͍ΔͨΊ ˔ ॳظͷ؀ڥߏங࣌͸৔߹ʹΑͬͯ͸ɺख͕͔͔ؒΔ͜ͱ΋ ˓ DPNQPOFOU΍ͦΕʹඥͮ͘ *".3PMFʹର͢Δཧղ͕ඞཁʹͳΔέʔε͸͋Δ͔΋͠Ε ͳ͍ /FHBUJWFTJEF