Webメディアでのdataflow活用

 Webメディアでのdataflow活用

GCPUG Tokyo Dataflow Day May 2017
https://gcpug-tokyo.connpass.com/event/56828/
で発表した資料です。
WebメディアにおけるDataflowとGCPをフル活用したデータ処理基盤について

C98c481072520f41fed66ddd1b538cb5?s=128

Takumi Yoshida

May 29, 2017
Tweet

Transcript

  1. WebϝσΟΞͰͷDataFlow׆༻ GCPUG Tokyo Dataflow Day May 2017
 
 ΦʔϧΞό΢τ ٢ా

    ୓࣮(ytakky)
  2. ࣗݾ঺հ • ٢ా ୓࣮ (Takumi Yoshida) • @y_takky2014 https://twitter.com/y_takky2014
 https://github.com/ytakky2014


    
 ৽ଔೖࣾ4೥໨ 
 ٕज़ج൫G
 - DevOpsਪਐ
 - ίϯςφ,GKEͷಋೖ
 - ࣗಈԽਪਐ
 - ։ൃऀدΓ
  3. All Aboutͱ͸ https://allabout.co.jp

  4. ϝσΟΞʹ͓͚Δσʔλ׆༻ • ྫ͑͹ • هࣄ಺༰ͷ෼ੳ • ͜͏͢Ε͹όζΓ΍͍͢ 
 • Ϩίϝϯυ

    • Ϣʔβʹऔͬͯ༗ӹͳؔ࿈هࣄΛఏڙ͍ͨ͠
 • ޿ࠂ഑৴ • Ϣʔβʹͱͬͯ༗ӹͳ޿ࠂΛ࠷దͳ৔ॴʹग़͍ͨ͠
  5. γεςϜཁ݅ • ߴ଎ԽɾεέʔϧԽ͕Ͱ͖Δ • OpsνʔϜͷӡ༻Λগͳ͍ͨ͘͠ • σʔλྔ(ੜσʔλ)͸1TB/݄͙Β͍
 σʔλྔ͕૿͑ͯ΋଱͑ΒΕΔΑ͏ʹ • Ϣʔβ࠷దԽ

    : ػցֶशΛ࢖༻͢Δ
 ػցֶशͷΞϧΰϦζϜมߋ΍TensorFlowͷಋೖͳͲ
 ʹ଱͑ΒΕΔΑ͏ʹ͍ͨ͠
  6. Google Cloud Platform

  7. GCP • BigDataॲཧʹڧΈΛ࣋ͭΫϥ΢υ • ༷ʑͳϚωδϝϯταʔϏε 
 + ࣾ಺ࣄ৘ 
 (ϑϩϯτΞϓϦέʔγϣϯ͕


    GKEʹσϓϩΠ͞Ε͍ͯΔ )
 ※https://allabout.co.jpͷதͷҰ෦
  8. GCPͷϚωδϝϯταʔϏε

  9. ࠓճߏஙͨ͠ΞʔΩςΫνϟ :

  10. ࠓճߏஙͨ͠ΞʔΩςΫνϟ :

  11. fluentd • fluent-plugin-bigquery Λ࢖͏
 https://github.com/kaizenplatform/fluent-plugin-bigquery
 • record_reformerͳͲͰطଘͷॲཧʹλάΛ௥Ճͯ͠
 fluent-plugin-bigqueryͰ౤͛Δ͚ͩ
 


  12. :

  13. • BQ͔Βॲཧର৅σʔλΛऔಘ • DataStore͔Βલճͷֶश݁ՌΛऔಘ • ֶशΛฒྻॲཧͤ͞Δ • ݁ՌΛDataStoreʹ֨ೲ͢Δ • PythonSDKͰ࣮૷

    • ϦϦʔε௚લͰGAʹͳͬͨ DataflowͰ΍ͬͯΔ͜ͱ
  14. ฒྻॲཧͷ༷ࢠ

  15. ฒྻॲཧͷΠϝʔδ લॲཧ લॲཧ લॲཧ ֶश ֨ೲ ֨ೲ ֶश ֶश ֶश

    ֶश ֶश
  16. TIPS • Log • ඪ४ग़ྗʹు͍͓͚ͯ͹StackDriver Logging্Ͱ
 ֬ೝͰ͖Δ BB my_job NZ@KPC

  17. TIPS2 • ศརͳίϚϯυ • gcloud dataflow jobs list • jobͷ࣮ߦ݁Ռͷ֬ೝ

    • --created-after , --created-before Ͱ࣌ؒߜࠐ • gcloud dataflow jobs list \ 
 --created-after=“2017-05-22 15:00:00” \
 --created-before="2017-05-22 16:00:00" 
 15:00-16:00ͷjob࣮ߦ݁Ռ͕Θ͔Δ
  18. ࠓճߏஙͨ͠ΞʔΩςΫνϟ :

  19. ࠓճߏஙͨ͠ΞʔΩςΫνϟ :

  20. • DataStore͔ΒֶशࡁΈ݁ՌΛऔಘ • Cloud DataStore Client Libraries • https://cloud.google.com/datastore/docs/reference/ libraries

    Front ApplicationͰ΍͍ͬͯΔ͜ͱ
  21. ίετ໘ • DataStore : ¥3,000ఔ౓ • Dataflow : ¥1,100ఔ౓ •

    vCPU Time Batch US: 111.657 ࣌ؒ : ¥700 • RAM Time US: 418.72GB/࣌ؒ : ¥200 • Local Disk Time PD Standard: 27914.631 GB/࣌ؒ: ¥200 • ࢀߟ Πϯελϯεྉۚ • n1-standard-1 US /݄ :$24.27 ≒ 2700ԁఔ౓
  22. ·ͱΊ • GCPͷྗΛआΓΔ͜ͱͰ
 NoOpsͰ෼ࢄॲཧج൫ߏங͕Մೳ • ϚωδϝϯταʔϏεΛ্ख͘׆༻ • PythonSDKΛ࢖͏͜ͱͰػցֶशपΓָ͕ʹͰ͖Δ • Tensorflowͷલॲཧͱͯ͠DataflowΛ࢖͏ɺ


    Έ͍ͨͳࣄྫ΋ग़͍ͯΔ • ίετ࡟ݮ • ΠϯελϯεΛཱͯͨΓམͱͨ͠ΓΛߟ͑ͳ͍͍ͯ͘
  23. ΦʔϧΞό΢τɹςοΫϒϩά ݕࡧ PythonSDKΛ࡞࣮ͬͨ૷ʹ͍ͭͯ΋ެ։༧ఆ! http://allabout-tech.hatenablog.com/entry/2017/05/24/094600 ࠓճͷ಺༰ ͷϒϩά