Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azureでも高速データウェアハウスはNetezza! / 20221129-Netezza-...

Azureでも高速データウェアハウスはNetezza! / 20221129-Netezza-SaaS-Azure

This slide was shown at below event:
https://ibm-developer.connpass.com/event/262487/

Kazutaka Yamasaki

December 05, 2022
Tweet

Other Decks in Technology

Transcript

  1. IBM Technology / © 2022 IBM Corporation 目次 1. お客様によるNetezzaの評価

    2. ラインナップと歴史 3. 速さの秘密 4. フルマネージドサービスの概要 5. フルマネージドサービスのデモ 6. 他製品と比較したときの特徴
  2. 2022 Gartner Peer Insights Customers' Choice for Cloud Database Management

    Systems IBM Technology / © 2022 IBM Corporation 3 IBM Is a 2022 Gartner Peer Insights Customers’ Choice for Cloud Database Management Systems https://www.ibm.com/cloud/blog/announcements/ibm-is-a-2022-gartner-peer-insights-customers-choice-for-cloud-database-management-systems IBMが Gartner Peer Insights のクラウド・データベース部門において Customers' Choice に選定され その中でNetezzaなど IBM Cloud フルマネージド・サービスが評価されました。
  3. Netezza Performance Server (NPS) 次世代の先進データウェアハウスと分析基盤 標準SQL規格に準拠したデータ活用・AI活用システム – データベース、サーバー、ストレージ、および高度な分析機能を 統合 –

    簡便な管理を実現するデータ・AI基盤 – クラウド基盤 (IBM Red Hat OpenShift) で稼働し、 大量データの分析用に最適化 – 用途に応じた構成 • IBM Cloud Pak for Data (CP4D) のサービスと統合 – NPSはCP4Dのアドオンとして稼働 • NPS専用(v1.0.7.8、コードネーム Hammerhead) – NPSはDocker上で稼働 © 2022 IBM Corporation Netezza Performance Server for Cloud Pak for Data System Y2001 (PaaS) Azure IBM Cloud AWS Netezza Performance Server for Cloud Pak for Data Azure Netezza Performance Server for Cloud Pak for Data as a Service (SaaS) パブリック・クラウドとオンプレミスのどちらの環境でも 利用可能 5
  4. Netezzaの歴史 © 2022 IBM Corporation NPS® 8000 Series TwinFin™ with

    i-Class Advanced Analytics N1001 NPS® 10000 Series NPS TwinFin™ PureData System for Analytics N2001, N3001 Netezza Performance Server for Cloud Pak for Data System Y2001 2006 2003 2009 2010 2019- 2012-2014 (Multi-Cloud) Azure IBM Cloud AWS Netezza Performance Server for Cloud Pak for Data Azure Netezza Performance Server for Cloud Pak for Data as a Service 世界初のDWH アプライアンス (専用HW+SW) 世界初の100TB DWHアプライアンス 世界初のペタバイト級 DWHアプライアンス 低環境負荷(green)で 世界最速の分析基盤 世界初のハイブリッド・ クラウド/マルチ・クラ ウドのデータ基盤 分析用途向けDWH アプライアンス Netezza はクラウド・データ活用基盤 Cloud Pak for Data (CP4D) に統合され、ハイブリッド・クラウド/ マルチ・クラウド環境のどこでも場所を選ばずお使いいただけるようになりました。
  5. Netezza Performance Server のラインナップ © 2022 IBM Corporation NPSaaS •

    Netezza専用アプライアンスの他、SPSS等分析機能とNetezzaの組み合わせが可能なアプライアンスも 提供しています。 • クラウドにおいてはNetezzaのフル・マネージドサービス※をご利用いただけます。 ※ NPSaaSは現時点でAzure海外拠点のみで提供しています。対応パブリック・クラウドは今後拡大予定
  6. Netezza Performance Serverの導入パターン © 2022 IBM Corporation オンプレミス • お客様のデータセンターにおいて標準規格準拠のIBMアプライアンス上で稼働

    パブリック・クラウド • PaaS (AWS, Azure, IBM Cloud ) • お客様のクラウド・アカウントに導入した Red Hat OpenShift と IBM Cloud Pak for Data 上で稼働 • お客様が導入・運用・保守 • SaaS (Azure) • IBMが導入・運用・保守(フルマネージド・サービス) ※ SaaSは現時点でAzure海外拠点のみで提供しています。対応パブリック・クラウドは今後拡大予定です。
  7. Netezza Performance Server Cloud Pak for Data System • オンプレミス環境向けアプライアンス

    • ハードウェアは事前設定済み • お客様のデータセンターにて導入と設定を IBMエンジニアが実施 • 2系列のNPS • 1.0.7.x (NPS専用) • NPSホストはLinuxコンテナとして稼働 • NPS SPUはベアメタルサーバー上で稼働 • CP4DS 2.0 (データサイエンスやBIと組み合わせ) • NPSホストはOCP Podとして稼働 • NPS SPUはベアメタルサーバー上で稼働 © 2022 IBM Corporation
  8. Netezza Performance Server SaaS • IBMが管理・インストール • コンテナ化された機能 • RedHat

    OpenShift上で稼働 • Azureでサービス • スケールアップ・ダウンが可能なハイ・パフォーマンス・ クラウド・データウェアハウス • コンテナ化されたNPSホストとSPUはOpenShift ワーカーノード上で稼働 • データ保護と可用性のためにクラウド・ストレージに バックアップ • IBM Cloud:パフォーマンス・ブロックストレージ • AWS: Elastic Block Store(EBS) • Azure:プレミアム・マネージドSSD © 2022 IBM Corporation
  9. Netezza Performance Server Netezzaは進化してもシンプルさは変わりません。 Netezzaは最新化されクラウドでも稼働していますが、 これまでと同じデータベース・エンジンが同じ顧客体験を提供します。 © 2022 IBM Corporation

    移行作業 (スムーズなアップグレードを実現) フルマネージド・サービスへの スムーズな移行 0% 零リスク Netezzaで稼働する6年前に開発したアプリケーション(数千のETLを実 行)をクラウドに移行しました。あまりにも早く終わったのでアプリ実行が失 敗したと勘違いしました。- 大手コンシェルジュ・サービス会社
  10. © 2022 IBM Corporation BI / client applications Netezza On

    Premise Netezza aaS nzbackup nzrestore Cloud object storage Change the IP It just works! nz_migrate 1. NPSのエンジンは旧モデル(Pure Data for Analytics)と100%互換 2. データの移行方法 • Backupコマンド • nz_migrateコマンド 3. データ移行後、アプリケーションを NPSaaSに接続すればOK
  11. Netezza Performance Server (NPS) IBM Technology / © 2022 IBM

    Corporation 14 CPU メモリ NVMe SSD CPU メモリ FPGA 管理層 独立ノードを 統合管理 CPU メモリ 並列処理層 (MPP) CPU メモリ 実行命令、データ (SQL ,プログラム等) NVMe SSD CPU メモリ FPGA NVMe SSD CPU メモリ FPGA NVMe SSD CPU メモリ FPGA NVMe SSD CPU メモリ FPGA NVMe SSD CPU メモリ FPGA NVMe SSD CPU メモリ FPGA NVMe SSD CPU メモリ FPGA NVMe SSD CPU メモリ FPGA NVMe SSD CPU メモリ FPGA NVMe SSD CPU メモリ FPGA NVMe SSD CPU メモリ FPGA 表データ 超並列処理によって桁違いの性能をスケーラブルに実現します。 不要なデータ読み込みを排除する技術と超並列処理により、大量データに対する複雑な分析処理、 データ加工処理をチューニングレスで高速化します。
  12. AMPPアーキテクチャ (Asymmetric Massively Parallel Processing Architecture) Netezza Performance Server Snippet

    Processing Unit (SPU) Network Fabric Advanced Analytics Loaders ETL BI Applications Netezza Client/drivers (ODBC JDBC Golang nzpy OLE-DB) Memory FPGA CPU Memory FPGA CPU Memory FPGA CPU “Lite” Host (CP4D System Node) Host IBM Technology / © 2022 IBM Corporation 15 Port: 5480
  13. SPUにおけるデータ・ストリームの処理 Select State, Age, Gender, count(*) From MultiBillionRowCustomerTable Where BirthDate

    < ‘01/01/1960’ And State in (’FL’, ’GA’, ‘SC’, ‘NC’) Group by State, Age, Gender Order by State, Age, Gender FPGA Processing (FPGA Core or CPU Core (emulated)) CPU Core Decompress Project Restrict Visibility SQL & Advanced Analytics From MultiBillionRowCustomerTable Where BirthDate <‘01/01/1960’ Group by State, Age, Gender Select State, Age, Gender, count(*) And State in (‘FL’, ‘GA’, ‘SC’, ‘NC’) Order by State, Age, Gender From Select Where Group by Stream via Zone Map From IBM Technology / © 2022 IBM Corporation 16 SPU: Snippet Processing Unit
  14. Asymmetric Massively Parallel Processing™ Massively Parallel Intelligent Storage 1 2

    3 . . . Network Fabric SMP Host DBOS Front End Netezza Performance Server High-Speed Loader/Unloader ODBC 3.X JDBC Type 4 OLE-DB SQL/92 Execution Engine SQL Compiler Query Plan Optimize Admin High-Performance Database Engine Streaming joins, aggregations, sorts SPU Processor & streaming DB logic SPU Processor & streaming DB logic SPU Processor & streaming DB logic SPU Processor & streaming DB logic Source Systems Client High Performance Loader 3rd Party Apps DBA CLI ETL Server SOLARIS LINUX HP-UX AIX WINDOWS System Z IBM Technology / © 2022 IBM Corporation 17
  15. High-Performance Database Engine Streaming joins, aggregations, sorts SPU Processor &

    streaming DB logic SPU Processor & streaming DB logic SPU Processor & streaming DB logic SPU Processor & streaming DB logic Execution Engine Asymmetric Massively Parallel Processing™ Massively Parallel Intelligent Storage 1 2 3 . . . Network Fabric SMP Host DBOS Front End Netezza Performance Server High-Speed Loader/Unloader SQL Compiler Query Plan Optimize Admin SQL 1 2 3 1 2 3 1 2 3 1 2 3 Snippets SQL Source Systems Client High Performance Loader 3rd Party Apps DBA CLI ETL Server SOLARIS LINUX HP-UX AIX WINDOWS System Z 1 2 3 IBM Technology / © 2022 IBM Corporation 18
  16. SPU Processor & streaming DB logic SPU Processor & streaming

    DB logic SPU Processor & streaming DB logic SPU Processor & streaming DB logic Asymmetric Massively Parallel Processing™ Massively Parallel Intelligent Storage 1 2 3 . . . Network Fabric SMP Host DBOS Front End Netezza Performance Server High-Speed Loader/Unloader SQL Compiler Query Plan Optimize Admin 1 2 3 1 2 3 1 2 3 1 2 3 Consolidate Execution Engine ODBC 3.X JDBC Type 4 OLE-DB SQL/92 High-Performance Database Engine Streaming joins, aggregations, sorts Source Systems Client High Performance Loader 3rd Party Apps DBA CLI ETL Server SOLARIS LINUX HP-UX AIX WINDOWS System Z IBM Technology / © 2022 IBM Corporation 19
  17. SPUのストレージ構成 IBM Technology / © 2022 IBM Corporation 20 •

    4 disks per node • 15 partitions per disk • nzlocal (1) - temp • primary (6) – primary data • mirror (6) – mirror data • spare (2) •Up to 4 NMVe failures before data loss •Note: base+1 is 2 NVMe driver failures before data loss • 12 data slice partitions per disk • primary (6) • mirror (6) nvme0n1 P1 - nzlocal P2 – data slice – primary P3 – data slice – primary P4 – data slice – primary P5 – data slice – primary P6 – data slice – primary P7 – data slice – primary P8 – data slice – mirror P9 – data slice – mirror P10 – data slice – mirror P11 – data slice – mirror P12 – data slice – mirror P13 – data slice – mirror P14 – spare P15 – spare nvme1n1 P1 - nzlocal P2 – data slice – primary P3 – data slice – primary P4 – data slice – primary P5 – data slice – primary P6 – data slice – primary P7 – data slice – primary P8 – data slice – mirror P9 – data slice – mirror P10 – data slice – mirror P11 – data slice – mirror P12 – data slice – mirror P13 – data slice – mirror P14 – spare P15 – spare nvme2n1 P1 - nzlocal P2 – data slice – primary P3 – data slice – primary P4 – data slice – primary P5 – data slice – primary P6 – data slice – primary P7 – data slice – primary P8 – data slice – mirror P9 – data slice – mirror P10 – data slice – mirror P11 – data slice – mirror P12 – data slice – mirror P13 – data slice – mirror P14 – spare P15 – spare nvme3n1 P1 - nzlocal P2 – data slice – primary P3 – data slice – primary P4 – data slice – primary P5 – data slice – primary P6 – data slice – primary P7 – data slice – primary P8 – data slice – mirror P9 – data slice – mirror P10 – data slice – mirror P11 – data slice – mirror P12 – data slice – mirror P13 – data slice – mirror P14 – spare P15 – spare
  18. Netezza as a Service (NPSaaS) IBM Technology / © 2022

    IBM Corporation 22 これまでのNetezzaと100%互換のサービスを、フルマネージドで提供。 NetezzaのDNAにクラウドネイティブの機能を組み込み、フル活用。 シンプル Load & Goで使用可能 チューニングやインデックス、アップグレードの手間が いらない最小限の管理 スケール ニーズに応じた柔軟なスケーリング 必要なときに必要な分だけ利用可能 データサイエンス インデータベースでデータサイエンスを実行可能 統合されたAI、機械学習、BIツールとの連携で 大規模な分析を実現 スピード より優れた コストパフォーマンスで より速くインサイトを提供 ※ 現時点でAzure海外拠点のみで提供しています。対応パブリック・クラウドは今後拡大予定です。
  19. © 2022 IBM Corporation Web Console User management – Active

    Directory, Local Users, … NZ Host NZ spu1 … NZ spuN … Reliable managed storage for user data Nz instance 1 User management – Active Directory, Local Users, … NZ Host NZ spu1 … NZ spuN … Reliable managed storage for user data Nz instance 2 AzureにIBM専用のクラウド環境(VPC)を設置 Web Console REST API Database endpoint Public endpoint Private endpoint • Rest API, CLI • Web UI • SQL clients • ODBC, JDBC • Python, Go, etc..
  20. © 2022 IBM Corporation 10% 20% 30% 40% ……. 90%

    100% 処理能力をチューン NC1 • Best suited for small BI EDW • Single function production Data marts • Test and UAT NC2 Best suited for cross functional and descriptive analytic use cases •Dash-boarding •BI and Data exploration. Increase in parallelism 要件に応じて選択可能な NPSaaSの並列度(Contour) Contour内で処理能力を調整
  21. NPSaaSの特徴 IBM Technology / © 2022 IBM Corporation 28 CPUスケーリングを100%未満

    の単位で調整可能で、コスト負 担が急増しないようになってい る。 CPUをオンラインでスケール アップ・ダウン可能である。 (書き込み処理は自動的にポー ズ・レジューム) CPUとストレージを独立してス ケーリングできる。 ポーズ・レジューム機能によっ てコスト負担をへらすことがで きる。(ただしストレージのコ ストはポーズ中にも負担発生) 専有リソース上で稼働し、他イ ンスタンスの影響を受けない。 ワークロード管理(WLM)の機能 を備えており、負荷が高い時に もスケーリングせずに効率よく 処理を行う。 他製品においてNPSaaS相当の細かなス ケーリングができず、スケーリングにより リソースがねずみ算式(2倍)に増えるこ とがある。 他製品も同等の機能を備える。 他製品においてCPUとストレージを同時に スケーリングする必要がある。 他製品の優位点であったが、NPSaaSも同 等機能を提供するようになった。 他製品は負荷が高くなるとスケールアウト して性能劣化を防ぐが、NPSaaS相当の WLM機能を持たず、その点でコストパ フォーマンスが良いとは言えない。 他製品では共有リソースを利用するため、 他利用者の影響を受けることがある。
  22. 注意事項 IBM Technology / © 2022 IBM Corporation 29 ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。それらは情

    報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、またそのような結果を生 むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示ま たは暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いか なる損害が生じた場合も、IBMは責任を負わないものとします。 本講演資料に含まれている内容は、IBMまたはそのサプライヤーやライセンス交付 者からいかなる保証または表明を引きだすことを意図したものでも、IBMソフトウェアの使用を規定する適用ライセンス契約の条項を変更することを 意図したものでもなく、またそのような結果を生むものでもありません。 本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であることを暗 示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づいてIBM独自の決定権を もっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約することを意図したものではありません。 本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示す ることを意図したものでも、またそのような結果を生むものでもありません。 パフォーマンスは、管理された環境において標準的なIBMベンチマー クを使用した測定と予測に基づいています。ユーザーが経験する実際のスループットやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマ ルチプログラミングの量、入出力構成、ストレージ構成、および処理されるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。 したがって、個々のユーザーがここで述べられているものと同様の結果を得られると確約するものではありません。 記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例として示され たものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。 IBM, IBMロゴ、ibm.comは世界の多くの国で登録されたInternational Business Machines Corporationの商標です。他の製品名およびサービス名 等は、それぞれIBMまたは各社の商標である場合があります。現時点での IBMの商標リストについては、www.ibm.com/legal/copytrade.shtml を ご覧ください。 Gartner および Peer Insights は Gartner, Inc.の米国およびその他の国における商標です。 Red Hat および OpenShift は Red Hat, Inc.の米国およびその他の国における商標です。