ZOZOSUIT関連データのパイプライン構築について /create zozosuit measurements data pipeline

;0;046*5ؔ࿈σʔλͷ ύΠϓϥΠϯߏஙʹ͍ͭͯ "84(MVFΛར༻ͯ͠σʔλ੒ܗΛͨ͠࿩ גࣜձࣾ;0;0ςΫϊϩδʔζ ։ൃ෦ ΤϯδχΞ େౢ ३࢘ $PQZSJHIU;0;05FDIOPMPHJFT *OD

;0;05FDIOPMPHJFT *OD גࣜձࣾ;0;0ςΫϊϩδʔζ ։ൃ෦ 43&νʔϜ େౢ ३࢘ ˙ུྺ ग़਎͸ਆಸ઒ݝখాݪͷࢁͷ্ɻ ৽ଔͰϕϯνϟʔܥͷ4*FSʹͯΦϯϓϨΠϯϑϥ೥ɻ
೥ʹ;0;0ςΫϊϩδʔζ΁ೖࣾɻ"84։࢝ɻ ˙޷͖ͳ෺ ͓ञɺ͓ञɺ͓ञɻ 2

;0;05FDIOPMPHJFT *OD IUUQT[P[PKQ[P[PTVJU ɾ ಠࣗʹ։ൃͨ͠࠾ੇ༻ϘσΟʔεʔπ ɾ શମʹࢪ͞ΕͨυοτϚʔΧʔΛεϚʔτϑΥϯΧϝϥͰ౓ ࡱӨ͢Δ͜ͱͰɺମܕσʔλΛܭଌ ɾ ܭଌͨ͠ମܕσʔλ͸ɺॠ࣌ʹ%ϞσϧԽ͞Εɺ;0;0508/
ΞϓϦʹอଘɻ%Ϟσϧ͸͋ΒΏΔ֯౓ʹಈ͔͢͜ͱ͕Ͱ͖ɺ ମܕΛ౓νΣοΫ͢Δ͜ͱ͕Մೳ 3

;0;05FDIOPMPHJFT *OD ໨࣍ ˔ಋೖ ˓എܠ ˔ຊ୊ ˓σʔλύΠϓϥΠϯ ˓;0;046*5ܭଌσʔλ ˔·ͱΊ 4

;0;05FDIOPMPHJFT *OD ಋೖ എܠ ෼ੳґཔΛ΋Β͏͜ͱ͕͋ͬͨ ྫɿ ୅உੑͷฏۉ΢ΤεταΠζΛ֬ೝ͍ͨ͠ ˠ౰࣌ɺ෼ੳ؀ڥ͕ͳ͘ճ౴Ͱ͖ͳ͍
5

;0;05FDIOPMPHJFT *OD ಋೖ എܠ ղܾࡦ ύλʔϯ ࣗ෼ͨͪͰ෼ੳ؀ڥΛͭ͘Δ ʢ"NB[PO"UIFOBʣ
ˠ෼ੳ͕։ൃͷยखؒʹͳͬͯ͠·͏ ύλʔϯ ෼ੳ෦ʹσʔλΛఏڙ͠ɺ෼ੳͯ͠΋Β͏ ˠࠓޙʹߴ౓ͳ෼ੳΛߟ͑Δͱ࠷ద 6

;0;05FDIOPMPHJFT *OD ಋೖ എܠ ෼ੳ෦ 7 分析部株式会社ZOZOテクノロジーズ
本社青山株式会社ZOZO 本社海浜幕張（千葉）開発部（計測）

;0;05FDIOPMPHJFT *OD ಋೖ എܠ ઐ໳Ոͷ෼ੳ෦ʹσʔλΛఏڙͯ͠ɺ ෼ੳͯ͠΋Β͏ʂʂ 8

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ ZOZOSUIT 9

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ σʔλύΠϓϥΠϯ ໨త ;0;046*5ͷ༗ӹͳσʔλΛࣾ಺ͷ෼ੳ෦ʹఏڙ͢Δ ඞཁ৚݅ ˔ຖ೔࠷৽ͷܭଌσʔλΛఏڙ ˔೔෇͝ͱͷϑΥϧμʹϑΝΠϧʹ·ͱΊͯग़ྗʢྫɿ EBUBʣ
˔ݸਓ৘ใɺ෼ੳʹෆཁͳڊେͳσʔλ͸ࣄલʹ࡟আ ˔؆୯ʹૣ͘Ͱ͖ΔʢͰ͖ΔݶΓϊϯϓϥάϥϛϯάɺίϯιʔϧ্ʣ 10

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ ܭଌσʔλ 11 DynamoDB S3 用途サービス用
デバッグ、調査用パフォーマンス影響読み込みキャパシティを大量に消費する可能性があるなし

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ αʔϏε঺հ 12 AWS S3（Amazon Simple Storage Service）
• クラウドストレージ • コスト効率高い • 高可用性（99.999999999%） • 暗号化、柔軟なアクセス管理 AWS Glue • データを整理、最適化、検証、フォーマット • 完全マネージド型 ETL (抽出、変換、ロード) サービス • サーバーレス

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ ߏ੒ਤ 13 AWS S3 AWS S3 AWS
Glue (crawler) AWS Glue (ETL job) data catalog （処理前）（処理後）

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ 4ʢॲཧલʣ 15 １計測あたり約500KB 計測ダミーデータ

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ 4ʢॲཧલʣ ;0;046*5ܭଌσʔλʢKTPOʣ 16 ・・・
"id": 123456789, "gender_id": 1, "bust": 853.3767035950822, "shoulder": 423.1653994163682, "neck": 354.9143235711635, "height": 1800, ・・・・分析に不要なデータ ex. ３D頂点データ

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ crawler 18

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ crawler 19 設定項目一覧

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ crawler 20 ↑ 作成完了

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ &5-KPC 22

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ &5-KPC 23 設定項目一覧

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ &5-KPC 24 A B C A B
C 不要なデータ

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ &5-KPC 25 A B C 不要なデータ

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ &5-KPC 26 自動生成スクリプト

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ &5-KPC 27 import sys from awsglue.transforms import
* from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job from awsglue.dynamicframe import DynamicFrame import datetime today = datetime.date.today() foldername = today.strftime('%Y-%m-%d') 〜（省略）〜 df = applymapping1.toDF() # DynamicFrameをtoDF methodによりDataFrameに変換します df_rep = df.repartition(1) # repartition methodによりpartition数を1にします dyf_rep = DynamicFrame.fromDF(df_rep, glueContext, "dyf_rep") # DataFrameをDynamicFrameに変換します datasink2 = glueContext.write_dynamic_frame.from_options(frame = dyf_rep , connection_type = "s3", connection_options = {"path": "s3://s3-output- 20190722/"+foldername "compression": "gzip"}, format = "json", transformation_ctx = "datasink2") job.commit() モジュールインポート、フォルダ名定義ファイルを一つにまとめる出力先指定、gzip圧縮

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ 4ʢॲཧޙʣ 29 3計測で3.6KB （１計測あたり1.2KB）約1/500

;0;05FDIOPMPHJFT *OD σʔλύΠϓϥΠϯʢ;0;046*5ʣ ͦͷޙ 弊社の優秀なアナリストによって有益な情報に！ 30

;0;05FDIOPMPHJFT *OD ·ͱΊ ΄΅ϊϯϓϥάϥϛϯάͰҎԼ৚݅Λຬͨ͢ σʔλύΠϓϥΠϯΛߏங͢Δ͜ͱ͕ग़དྷ·ͨ͠ ˔ຖ೔࠷৽ͷܭଌσʔλΛఏڙ ˔೔෇͝ͱͷϑΥϧμʹϑΝΠϧʹ·ͱΊͯग़ྗʢྫɿ EBUBʣ ˔ݸਓ৘ใɺ෼ੳʹෆཁͳڊେͳσʔλ͸ࣄલʹ࡟আ "84ͷαʔϏεΛ૊Έ߹ΘͤΔ͜ͱͰࠓޙ΋՝୊Λղܾ͍͖͍ͯͨ͠ʂ
31

;0;05FDIOPMPHJFT *OD ·ͱΊ "84ͷ͞·͟·ͳαʔϏεΛۦ࢖ͯ͠ ՝୊Λղܾ͍ͨ͠ํʂ 43&ΤϯδχΞืूதʂ https://tech.zozo.com/recruit/mid-career/detail48/ 32

ZOZOSUIT関連データのパイプライン構築について /create zozosuit ...

ZOZOSUIT関連データのパイプライン構築について /create zozosuit measurements data pipeline

atsushi.oshima

More Decks by atsushi.oshima

Other Decks in Technology

Featured

Transcript

;0;0465ؔ࿈σʔλͷ ύΠϓϥΠϯߏஙʹ͍ͭͯ "84(MVFΛར༻ͯ͠σʔλ੒ܗΛͨ͠࿩ גࣜձࣾ;0;0ςΫϊϩδʔζ ։ൃ෦ ΤϯδχΞ େౢ ३࢘ $PQZSJHIU;0;05FDIOPMPHJFT OD

;0;05FDIOPMPHJFT OD גࣜձࣾ;0;0ςΫϊϩδʔζ ։ൃ෦ 43&νʔϜ େౢ ३࢘ ˙ུྺ ग़਎͸ਆಸ઒ݝখాݪͷࢁͷ্ɻ ৽ଔͰϕϯνϟʔܥͷ4FSʹͯΦϯϓϨΠϯϑϥ೥ɻ

;0;05FDIOPMPHJFT *OD IUUQT[P[PKQ[P[PTVJU ɾ ಠࣗʹ։ൃͨ͠࠾ੇ༻ϘσΟʔεʔπ ɾ શମʹࢪ͞ΕͨυοτϚʔΧʔΛεϚʔτϑΥϯΧϝϥͰ౓ ࡱӨ͢Δ͜ͱͰɺମܕσʔλΛܭଌ ɾ ܭଌͨ͠ମܕσʔλ͸ɺॠ࣌ʹ%ϞσϧԽ͞Εɺ;0;0508/

;0;05FDIOPMPHJFT OD ໨࣍ ˔ಋೖ ˓എܠ ˔ຊ୊ ˓σʔλύΠϓϥΠϯ ˓;0;0465ܭଌσʔλ ˔·ͱΊ 4

;0;05FDIOPMPHJFT *OD ಋೖ എܠ ෼ੳґཔΛ΋Β͏͜ͱ͕͋ͬͨ ྫɿ ୅உੑͷฏۉ΢ΤεταΠζΛ֬ೝ͍ͨ͠ ˠ౰࣌ɺ෼ੳ؀ڥ͕ͳ͘ճ౴Ͱ͖ͳ͍

;0;05FDIOPMPHJFT *OD ಋೖ എܠ ղܾࡦ ύλʔϯ ࣗ෼ͨͪͰ෼ੳ؀ڥΛͭ͘Δ ʢ"NB[PO"UIFOBʣ

;0;05FDIOPMPHJFT *OD ಋೖ എܠ ෼ੳ෦ 7 分析部株式会社ZOZOテクノロジーズ

;0;05FDIOPMPHJFT *OD ಋೖ എܠ ઐ໳Ոͷ෼ੳ෦ʹσʔλΛఏڙͯ͠ɺ ෼ੳͯ͠΋Β͏ʂʂ 8

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ ZOZOSUIT 9

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ σʔλύΠϓϥΠϯ ໨త ;0;046*5ͷ༗ӹͳσʔλΛࣾ಺ͷ෼ੳ෦ʹఏڙ͢Δ ඞཁ৚݅ ˔ຖ೔࠷৽ͷܭଌσʔλΛఏڙ ˔೔෇͝ͱͷϑΥϧμʹϑΝΠϧʹ·ͱΊͯग़ྗʢྫɿ EBUBʣ

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ ܭଌσʔλ 11 DynamoDB S3 用途サービス用

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ αʔϏε঺հ 12 AWS S3（Amazon Simple Storage Service）

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ ߏ੒ਤ 13 AWS S3 AWS S3 AWS

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ ߏ੒ਤ 14 AWS S3 AWS S3 AWS

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ 4ʢॲཧલʣ 15 １計測あたり約500KB 計測ダミーデータ

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ 4ʢॲཧલʣ ;0;046*5ܭଌσʔλʢKTPOʣ 16 ・・・

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ ߏ੒ਤ 17 AWS S3 AWS S3 AWS

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ crawler 18

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ crawler 19 設定項目一覧

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ crawler 20 ↑ 作成完了

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ ߏ੒ਤ 21 AWS S3 AWS S3 AWS

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ &5-KPC 22

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ &5-KPC 23 設定項目一覧

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ &5-KPC 24 A B C A B

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ &5-KPC 25 A B C 不要なデータ

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ &5-KPC 26 自動生成スクリプト

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ &5-KPC 27 import sys from awsglue.transforms import

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ ߏ੒ਤ 28 AWS S3 AWS S3 AWS

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ 4ʢॲཧޙʣ 29 3計測で3.6KB （１計測あたり1.2KB）約1/500

;0;05FDIOPMPHJFT OD σʔλύΠϓϥΠϯʢ;0;0465ʣ ͦͷޙ 弊社の優秀なアナリストによって有益な情報に！ 30

;0;05FDIOPMPHJFT *OD ·ͱΊ "84ͷ͞·͟·ͳαʔϏεΛۦ࢖ͯ͠ ՝୊Λղܾ͍ͨ͠ํʂ 43&ΤϯδχΞืूதʂ https://tech.zozo.com/recruit/mid-career/detail48/ 32