Upgrade to Pro — share decks privately, control downloads, hide ads and more …

実演Amazon Redshift 最新機能

実演Amazon Redshift 最新機能

2021/4/6 Data Engineering Study #7「Redshift最新アップデートと活用事例」の講演資料です

1b9e2b135e11b80d5923db6bb250ffe7?s=128

Daisuke Hirama

April 06, 2021
Tweet

Transcript

  1. © 2021, Amazon Web Services, Inc. or its Affiliates. Daisuke

    Hirama Solutions Architect, Analytics Amazon Web Services Japan K.K. 実演 Amazon Redshift 最新機能
  2. © 2021, Amazon Web Services, Inc. or its Affiliates. ⾃⼰紹介

    平間 ⼤輔 アマゾン ウェブ サービス ジャパン ソリューションアーキテクト アナリティクス分野の技術⽀援を担当 好きなAWSサービス • Amazon Redshift • Amazon QuickSight • AWS Glue
  3. © 2021, Amazon Web Services, Inc. or its Affiliates. お客様の要望に応じて進化し続ける

    Amazon Redshift Analyze all your data Lake house with AWS integration Low cost & best value Predictable costs Data Lake Export Federated Query Amazon Redshift Spectrum + Lake Formation Amazon Redshift ML Lambda UDF Partner console integration AQUA HyperLogLog Materialized views Performance & scale Fast and self-tuning Concurrency scaling Data API RA3 nodes & managed storage Data sharing Automatic workload manager Cross-AZ cluster recovery Pause and resume Built-in security features Cost controls Super data type with JSON support 100K tables Performance tuning: automated On-demand and RIs
  4. © 2021, Amazon Web Services, Inc. or its Affiliates. こんなときに

    新機能を使ってみよう
  5. © 2021, Amazon Web Services, Inc. or its Affiliates. 1.

    朝イチでアクセスが集中してクエリの実⾏待ちが発⽣︕ • Amazon Redshift のような DWH 向けの RDBMS は、複雑で⼤量のデータを処理 するリソース⼤⾷いのクエリに合わせてチューニングされている • そのため、単⼀クエリに⼗分なリソースを割り当てられるように、同時実⾏クエ リ数を少なめに抑えていることが多い • ⼀⽅、ユーザーが出社直後にBIダッシュボードを⼀⻫に閲覧するなど、同時実⾏ クエリ数が⼀時的にスパイクすることはしばしば発⽣する Amazon Redshift では、どうすれば︖
  6. © 2021, Amazon Web Services, Inc. or its Affiliates. ピーク時にコンピュートを⾃動拡張する

    Concurrency Scaling Amazon Redshift 追加クラスター(1~10) メインクラスター ディスパッチ + + + Redshift にクエリが集中してクエリをさばくためのリソースが⾜りなくなった場合、 裏で⾃動的に別のクラスターを⽴ち上げ、処理を待たせずに実⾏してくれる 1⽇1時間は無償で使える上に、無償枠を超えないよう利⽤キャップもかけられる
  7. © 2021, Amazon Web Services, Inc. or its Affiliates. Demo:

    Concurrency Scalingを効かせてみる • dc2.8xlarge x 2ノードのクラスタを2つ⽤意 • ⽚側のみConcurrency Scalingを有効に設定 (Max 5クラスタに設定) • その他の設定は2クラスタで同⼀ • Auto WLM有効 • ショートクエリアクセラレーション有効 • リザルトキャッシュ無効 • ベンチマークツール(※)を使って分析系の ワークロードを20セッションから同時実⾏ ※ HammerDB : https://www.hammerdb.com Amazon Redshift 広帯域ネットワーキング Redshift フォーマットデータ メインクラスター 追加クラスター(1~10) +++
  8. © 2021, Amazon Web Services, Inc. or its Affiliates. 2.

    様々な場所にある、様々な形式のデータを Amazon Redshift で分析したい Amazon Redshift に取り込んでいるデータ以外 にも、データレイクや基幹DBには、古いデータ から最新のデータまで蓄積・更新されている。 そのため、以下のような要望が出てきている • 基幹DB上にある当⽇の履歴データや最新マス ターと Amazon Redshift 上のテーブルとを結 合して分析したい • データレイク上の古いデータを取り込まずに 検索したい • 他のシステムで作成されたJSONファイルを、 形式を変えずに取り込みたい ウェブ センサー ソーシャル データレイク デバイス 基幹DB Amazon Redshift
  9. © 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

    Redshift Federated Query データウェアハウス、データレイク、業務データベースにまたがったデータを統合して分析 Amazon RDS PostgreSQL, MySQL Amazon Aurora PostgreSQL, MySQL Amazon S3 Data lake Amazon Redshift JDBC / ODBC データ移動なしに最新のデータを分析 Amazon Redshift から Amazon RDS/Aurora PostgreSQL 上のデータに直接クエリすること が可能 セキュアで⾼パフォーマンスなデータアクセス Amazon RDS/Aurora MySQL は 2021/4/6 現在プレビューでのサポート
  10. © 2021, Amazon Web Services, Inc. or its Affiliates. Redshift

    Spectrum でアーキテクチャをデータレイクに拡張 Amazon Redshift JDBC/ODBC オープンフォーマットファイル (Parquet, ORC, JSON, CSV etc) アプリケーションは、 データウェアハウスと データレイクの双⽅の データに透過的に アクセスできる Amazon Redshift Spectrum • S3 上のファイルに対する 並列クエリ実⾏エンジン データレイク • ユーザー管理 S3 バケット
  11. © 2021, Amazon Web Services, Inc. or its Affiliates. SUPER

    データ型 半構造化データをスキーマ指定なしにテーブルに取り込み、クエリ可能 ネイティブに半構造化データをサポートする SUPER データ型 ネストされた JSON データの取り込みが 従来のようにフラット化して取り込むよりも 最⼤で 5 倍⾼速に SUPER 型のデータを Materialized View 化 することによる⾼速な分析も容易 直感的にわかりやすい SQL で スキーマレスなネストデータへの分析を かんたんに⾏えるように Public Preview SELECT name.given AS firstname, ph.num FROM customers c, c.phones ph WHERE ph.type = ’cell’; firstname | num ----------+--------------- "Jane" | 6505550101 id INTEGER name SUPER phones SUPER 1 {"given":"Jane", "family":"Doe"} [{"type":"work", "num":"9255550100"}, {"type":"cell", "num": 6505550101} ] 2 {"given":„Richard", "family":„Roe"}, [{"type":"work", "num": 5105550102}]
  12. © 2021, Amazon Web Services, Inc. or its Affiliates. 3.

    複数のDWHクラスターで同じデータをシェアしたい それぞれ別々な処理要件を持つ多様なユースケースに 対して、個別に費⽤計算をしたい ワークロードを分離して 適切に費⽤計算 ⼀括管理せずに セルフサービスで グループやチームごとに、⾃分たちに必要な処理能⼒ を独⽴して管理したい データをシェアして第三者がデータ利⽤をしやすく したい 組織の枠を超えたデータ利⽤ ⾼度な分析や機械学習を 利⽤可能に 使⽤する分析ツールやフレームワークを⾃由に選べる ようにしたい DWH クラスターが社内に複数⽴てられている環境では、クラスター間 でデータをシェアしたいという要望があることが多い
  13. © 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

    Redshift Data Sharing Redshift クラスター間でセキュアに簡単にデータを共有することが可能 プロデューサー クラスター コンピュート ノード コンピュート ノード コンピュート ノード コンピュート ノード リーダーノード コンシューマー クラスター コンピュート ノード コンピュート ノード コンピュート ノード リーダーノード コンピュート ノード コンピュート ノード Amazon Redshift マネージドストレージ 共有データの 読み込み プライベートデータの 読み込みと書き込み • プロデューサークラスターが書き込んだ共有データを、データの移動なしに コンシューマークラスターに read only で共有することが可能 • アクセス権の管理と共有状況の監査により、セキュアなデータ共有を実現 RA3 インスタンス RA3 インスタンス
  14. © 2021, Amazon Web Services, Inc. or its Affiliates. Demo:

    ワークロード別にクラスターを分けてみる • ETLクラスターのテーブルを、アドホック クエリ⽤のクラスター、ダッシュボード ⽤のクラスターに共有する • 各クラスターでクエリを実⾏し、それぞ れのクラスターが⾃分のリソースのみを 使ってクエリを実⾏している様⼦を確認 • ETLクラスターでテーブルを更新し、各ク ラスターで更新結果が反映されることを 確認 ETL クラスタ ダッシュボードクラスタ 2-node RA3.4XL 2-node RA3.4XL 2–node RA3.4XL アドホッククエリクラスタ
  15. © 2021, Amazon Web Services, Inc. or its Affiliates. まとめ

    Amazon Redshift は現在も活発に新機能追加が進められています。 以前はできないと思っていたことも、現在はできるようになってい るかもしれません 今回ご紹介した新機能はほんの⼀部です。Amazon Redshiftの最新 機能をぜひお試しください︕
  16. © 2021, Amazon Web Services, Inc. or its Affiliates. Thank

    you!