Upgrade to Pro — share decks privately, control downloads, hide ads and more …

実演Amazon Redshift 最新機能

実演Amazon Redshift 最新機能

2021/4/6 Data Engineering Study #7「Redshift最新アップデートと活用事例」の講演資料です

Daisuke Hirama

April 06, 2021
Tweet

More Decks by Daisuke Hirama

Other Decks in Technology

Transcript

  1. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Daisuke Hirama
    Solutions Architect, Analytics
    Amazon Web Services Japan K.K.
    実演
    Amazon Redshift 最新機能

    View Slide

  2. © 2021, Amazon Web Services, Inc. or its Affiliates.
    ⾃⼰紹介
    平間 ⼤輔
    アマゾン ウェブ サービス ジャパン
    ソリューションアーキテクト
    アナリティクス分野の技術⽀援を担当
    好きなAWSサービス
    • Amazon Redshift
    • Amazon QuickSight
    • AWS Glue

    View Slide

  3. © 2021, Amazon Web Services, Inc. or its Affiliates.
    お客様の要望に応じて進化し続ける Amazon Redshift
    Analyze all your data
    Lake house with
    AWS integration
    Low cost & best value
    Predictable costs
    Data Lake
    Export
    Federated
    Query
    Amazon
    Redshift
    Spectrum +
    Lake Formation
    Amazon
    Redshift ML
    Lambda UDF Partner
    console
    integration
    AQUA HyperLogLog
    Materialized
    views
    Performance & scale
    Fast and self-tuning
    Concurrency
    scaling
    Data API
    RA3 nodes &
    managed storage
    Data sharing
    Automatic
    workload
    manager
    Cross-AZ cluster
    recovery
    Pause and
    resume
    Built-in security
    features
    Cost controls
    Super data
    type with
    JSON support
    100K tables
    Performance
    tuning:
    automated
    On-demand
    and RIs

    View Slide

  4. © 2021, Amazon Web Services, Inc. or its Affiliates.
    こんなときに
    新機能を使ってみよう

    View Slide

  5. © 2021, Amazon Web Services, Inc. or its Affiliates.
    1. 朝イチでアクセスが集中してクエリの実⾏待ちが発⽣︕
    • Amazon Redshift のような DWH 向けの RDBMS は、複雑で⼤量のデータを処理
    するリソース⼤⾷いのクエリに合わせてチューニングされている
    • そのため、単⼀クエリに⼗分なリソースを割り当てられるように、同時実⾏クエ
    リ数を少なめに抑えていることが多い
    • ⼀⽅、ユーザーが出社直後にBIダッシュボードを⼀⻫に閲覧するなど、同時実⾏
    クエリ数が⼀時的にスパイクすることはしばしば発⽣する
    Amazon
    Redshift
    では、どうすれば︖

    View Slide

  6. © 2021, Amazon Web Services, Inc. or its Affiliates.
    ピーク時にコンピュートを⾃動拡張する Concurrency Scaling
    Amazon
    Redshift
    追加クラスター(1~10)
    メインクラスター
    ディスパッチ
    +
    +
    +
    Redshift にクエリが集中してクエリをさばくためのリソースが⾜りなくなった場合、
    裏で⾃動的に別のクラスターを⽴ち上げ、処理を待たせずに実⾏してくれる
    1⽇1時間は無償で使える上に、無償枠を超えないよう利⽤キャップもかけられる

    View Slide

  7. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Demo: Concurrency Scalingを効かせてみる
    • dc2.8xlarge x 2ノードのクラスタを2つ⽤意
    • ⽚側のみConcurrency Scalingを有効に設定
    (Max 5クラスタに設定)
    • その他の設定は2クラスタで同⼀
    • Auto WLM有効
    • ショートクエリアクセラレーション有効
    • リザルトキャッシュ無効
    • ベンチマークツール(※)を使って分析系の
    ワークロードを20セッションから同時実⾏
    ※ HammerDB : https://www.hammerdb.com
    Amazon
    Redshift
    広帯域ネットワーキング
    Redshift フォーマットデータ
    メインクラスター
    追加クラスター(1~10) +++

    View Slide

  8. © 2021, Amazon Web Services, Inc. or its Affiliates.
    2. 様々な場所にある、様々な形式のデータを
    Amazon Redshift で分析したい
    Amazon Redshift に取り込んでいるデータ以外
    にも、データレイクや基幹DBには、古いデータ
    から最新のデータまで蓄積・更新されている。
    そのため、以下のような要望が出てきている
    • 基幹DB上にある当⽇の履歴データや最新マス
    ターと Amazon Redshift 上のテーブルとを結
    合して分析したい
    • データレイク上の古いデータを取り込まずに
    検索したい
    • 他のシステムで作成されたJSONファイルを、
    形式を変えずに取り込みたい
    ウェブ センサー ソーシャル
    データレイク
    デバイス
    基幹DB
    Amazon
    Redshift

    View Slide

  9. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Amazon Redshift Federated Query
    データウェアハウス、データレイク、業務データベースにまたがったデータを統合して分析
    Amazon RDS
    PostgreSQL,
    MySQL
    Amazon Aurora
    PostgreSQL,
    MySQL
    Amazon S3
    Data lake
    Amazon Redshift
    JDBC / ODBC
    データ移動なしに最新のデータを分析
    Amazon Redshift から Amazon RDS/Aurora
    PostgreSQL 上のデータに直接クエリすること
    が可能
    セキュアで⾼パフォーマンスなデータアクセス
    Amazon RDS/Aurora MySQL は
    2021/4/6 現在プレビューでのサポート

    View Slide

  10. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Redshift Spectrum でアーキテクチャをデータレイクに拡張
    Amazon
    Redshift
    JDBC/ODBC
    オープンフォーマットファイル
    (Parquet, ORC, JSON, CSV etc)
    アプリケーションは、
    データウェアハウスと
    データレイクの双⽅の
    データに透過的に
    アクセスできる
    Amazon Redshift Spectrum
    • S3 上のファイルに対する
    並列クエリ実⾏エンジン
    データレイク
    • ユーザー管理 S3 バケット

    View Slide

  11. © 2021, Amazon Web Services, Inc. or its Affiliates.
    SUPER データ型
    半構造化データをスキーマ指定なしにテーブルに取り込み、クエリ可能
    ネイティブに半構造化データをサポートする
    SUPER データ型
    ネストされた JSON データの取り込みが
    従来のようにフラット化して取り込むよりも
    最⼤で 5 倍⾼速に
    SUPER 型のデータを Materialized View 化
    することによる⾼速な分析も容易
    直感的にわかりやすい SQL で
    スキーマレスなネストデータへの分析を
    かんたんに⾏えるように
    Public
    Preview
    SELECT name.given AS firstname, ph.num
    FROM customers c, c.phones ph
    WHERE ph.type = ’cell’;
    firstname | num
    ----------+---------------
    "Jane" | 6505550101
    id
    INTEGER
    name
    SUPER
    phones
    SUPER
    1
    {"given":"Jane",
    "family":"Doe"}
    [{"type":"work",
    "num":"9255550100"},
    {"type":"cell",
    "num": 6505550101} ]
    2
    {"given":„Richard",
    "family":„Roe"},
    [{"type":"work",
    "num": 5105550102}]

    View Slide

  12. © 2021, Amazon Web Services, Inc. or its Affiliates.
    3. 複数のDWHクラスターで同じデータをシェアしたい
    それぞれ別々な処理要件を持つ多様なユースケースに
    対して、個別に費⽤計算をしたい
    ワークロードを分離して
    適切に費⽤計算
    ⼀括管理せずに
    セルフサービスで
    グループやチームごとに、⾃分たちに必要な処理能⼒
    を独⽴して管理したい
    データをシェアして第三者がデータ利⽤をしやすく
    したい
    組織の枠を超えたデータ利⽤
    ⾼度な分析や機械学習を
    利⽤可能に
    使⽤する分析ツールやフレームワークを⾃由に選べる
    ようにしたい
    DWH クラスターが社内に複数⽴てられている環境では、クラスター間
    でデータをシェアしたいという要望があることが多い

    View Slide

  13. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Amazon Redshift Data Sharing
    Redshift クラスター間でセキュアに簡単にデータを共有することが可能
    プロデューサー
    クラスター
    コンピュート
    ノード
    コンピュート
    ノード
    コンピュート
    ノード
    コンピュート
    ノード
    リーダーノード
    コンシューマー
    クラスター
    コンピュート
    ノード
    コンピュート
    ノード
    コンピュート
    ノード
    リーダーノード
    コンピュート
    ノード
    コンピュート
    ノード
    Amazon Redshift マネージドストレージ
    共有データの
    読み込み
    プライベートデータの
    読み込みと書き込み
    • プロデューサークラスターが書き込んだ共有データを、データの移動なしに
    コンシューマークラスターに read only で共有することが可能
    • アクセス権の管理と共有状況の監査により、セキュアなデータ共有を実現
    RA3 インスタンス RA3 インスタンス

    View Slide

  14. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Demo: ワークロード別にクラスターを分けてみる
    • ETLクラスターのテーブルを、アドホック
    クエリ⽤のクラスター、ダッシュボード
    ⽤のクラスターに共有する
    • 各クラスターでクエリを実⾏し、それぞ
    れのクラスターが⾃分のリソースのみを
    使ってクエリを実⾏している様⼦を確認
    • ETLクラスターでテーブルを更新し、各ク
    ラスターで更新結果が反映されることを
    確認
    ETL クラスタ
    ダッシュボードクラスタ
    2-node
    RA3.4XL
    2-node
    RA3.4XL
    2–node
    RA3.4XL
    アドホッククエリクラスタ

    View Slide

  15. © 2021, Amazon Web Services, Inc. or its Affiliates.
    まとめ
    Amazon Redshift は現在も活発に新機能追加が進められています。
    以前はできないと思っていたことも、現在はできるようになってい
    るかもしれません
    今回ご紹介した新機能はほんの⼀部です。Amazon Redshiftの最新
    機能をぜひお試しください︕

    View Slide

  16. © 2021, Amazon Web Services, Inc. or its Affiliates.
    Thank you!

    View Slide