Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析基盤の変遷とデータレイクの作り方

 データ分析基盤の変遷とデータレイクの作り方

Battle Conference U30 #2018

07f2123825aa4d86d69ba6ad18f305e1?s=128

Ojima Hikaru

April 21, 2018
Tweet

Transcript

  1. L  FG A

  2.  •   S')1 0(6T • L>A9 XFLAG CDB=

    !?NRK • GRD /%Q$7 • GRDO:>3GRD;<8H;C-,/ ACFM • P?/5#2(4&"Q 1+/GRDJPR • BIERN/ • @RIC. *6 /  • GitHub: ojima-h 2
  3.  4 DAUKPI  !    

  4.  5

  5.  6 •  •    2TB/day 

    30 → 1000
  6.  7 •      5 

    → 100
  7.  −   8    S3 

  8. −  9  S3  

  9. −  10  Redshift 

  10. −   11    

  11.  12 Data Lake Architecture

  12. Data Lake " • -4,&$#!-4,+.' • -4,&% "%,(13*+)40&% ! 

    (Schema on Read) • Data Lake -4,&  DWH 24/$   $% 13
  13. Data Lake  14 Hive Metastore 

  14. Hive Metastore  15

  15. Hive " • Hadoop%(47-:.69!; • SQL ,*7&$S3 # HDFS !1:/

    #1:/ & • ORC !3')83+:502& 16
  16. Hive Metastore  • S3/HDFS * "-SQL /1,&(.&0 (.&%)! •

    ,&(.& • * "- • * "-*#.+') • (.&%$.+ •   17
  17. Hive Metastore   • EMR !  Hive Metastore

    !  •   • EMR 30 18
  18. Hive Metastore   • Hive Metastore  MySQL 

     • Hive Metastore (HCatalog) server    • EMR  5   19
  19. Hive Metastore  S3   20

  20. Hive Metastore   • '  • '"% 

    • 'ORC • '!&' '  !'#$$ 21
  21. Hive Metastore  • Hive Metastore S3  " 

    S3"  !"    22
  22. Hive Metastore * • "+$%-  :>:>(*+ • 8C6*/,# •

    3C;4' Hive DB / • Hive ).!% S3&*8C6/ • Hive &.( 8C6)-*@C@/ 23 3C;4 D=A49B<019?C2BBE 8C6579 8C6 Hive Database Table Partition S3 s3://BUCKET/warehouse/SERVICE.db/ s3://BUCKET/warehouse/SERVICE.db/TABLE/ s3://BUCKET/warehouse/SERVICE.db/TABLE/y=YYYY/m=MM/d=DD/
  23. Hive Metastore   • %)" &'&'%)"  • &$#

    ! ( 24
  24. Hive Metastore   1.  Hive Metastore  

    25
  25. Hive Metastore   1.  Hive Metastore  

    2.  26
  26. Hive Metastore   1.   Hive Metastore 

    2.  3. Hive Metastore  27
  27. Hive Metastore  1.    Hive Metastore 

    2.  3. Hive Metastore   4.  28
  28. Hive Metastore ! 1. ),(! $ Hive Metastore # 2.

    ),($'*, 3. Hive Metastore ! $  4. ),($ &%+ $ "),($ 29
  29. Hive Metastore     30

  30. Hive Metastore  • Hive  Redshift "%!$%# • Redshift

     COPY  "%! csv+gzip • Hive "%! ORC • Redshift  csv+gzip  Hive  ORC    ⇒ Redshift Spectrum   31
  31. Redshift Spectrum  • Redshift  S3(#$+ &%*" • ',)+

    Hive Metastore  ! Hive ',)+"  32 CREATE EXTERNAL SCHEMA schema_name FROM HIVE METASTORE DATABASE 'database_name’ URI 'hive_metastore_uri’;
  32. Hive Metastore  • Redshift Hive   33 INSERT

    INTO ‘Redshift ’ SELECT … FROM ‘Hive ’ WHERE y=YYYY AND m=MM AND d=DD;
  33. Hive Metastore   • Redshift Spectrum   

    Hive Metastore  • Spark SQL • Presto • Athena • Flink  34
  34. Hive Metastore  Hive Metastore   S3  Hive,

    Redshift Spectrum , Spark    35
  35.  36

  36. ($) • Hive Metastore '25103-$251.4/4& • Hive Metastore , $"

    Data Lake , !$# 251&*251&%+$#! Hive Metastore , +$# Data Lake , "$#(!6 37
  37. None