Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【Oracle Cloud ウェビナー】【日本語で解説!】Data Lakehouseで圧倒的...

【Oracle Cloud ウェビナー】【日本語で解説!】Data Lakehouseで圧倒的な性能の実現を可能とするMySQLの魅力とは!

Oracle Cloud ウェビナーシリーズ情報: https://oracle.com/goto/ocws-jp
セッション動画: https://go.oracle.com/ocws-jp-ondemand

oracle4engineer

February 15, 2023
Tweet

More Decks by oracle4engineer

Other Decks in Technology

Transcript

  1. 山﨑 由章 日本オラクル株式会社 MySQL Global Business Unit MySQL Master Principal

    Solution Engineer 【日本語で解説!】 Data Lakehouseで圧倒的な性能の実現を可能とする MySQLの魅力とは! Oracle Cloud ウェビナー シリーズ
  2. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    2 • OCI(Oracle Cloud Infrastructure)で実現するデータ基盤 • MySQL HeatWave Database Service 概要 • Oracle CloudWorld 2022でのMySQL関連の主な発表事項 • MySQL HeatWave のマルチクラウド戦略 • MySQL HeatWave Lakehouse • MySQL HeatWave Lakehouse の技術要素 • まとめ アジェンダ
  3. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    3 OCI(Oracle Cloud Infrastructure)で 実現するデータ基盤
  4. 包括的なデータマネジメント基盤をOCI上に実現 Oracle Cloud Infrastructure上に実現するデータ基盤 Copyright © 2023, Oracle and/or its

    affiliates. All rights reserved. 4 Producers Oracle Cloud Infrastructure Any source Any Database Any Events/Sensors Any Cloud Any Application Data Consumers Any outcome Any Application Business Leaders Any 3rd Party BI Tool File/Excel/CSV….. Data Movement GoldenGate Streaming Data Integration 3rd Party Tools Data Management Data Catalog Data Definition & Discovery Autonomous Database MySQL Heatwave Exadata Object Storage Big Data Data Flow Data Scientist & Analyst Analytics & AI/ML Analytics Machine Learning Data Science Artificial Intelligence
  5. DWH + Data Lake による 高速なデータ分析基盤の実現 MySQL HeatWave Lakehouse による

    Cloud Data Analytics Platform Copyright © 2023, Oracle and/or its affiliates. All rights reserved. 5 Producers Oracle Cloud Infrastructure Any source Any Database Data Consumers Any outcome Business Leaders File/Excel/CSV….. Data Movement GoldenGate Data Integration Data Management Data Catalog Data Definition & Discovery MySQL Heatwave Object Storage Analytics & AI/ML Analytics Data Analyst
  6. • MySQL Database Service(*)専用のクエリー・アクセラレーター • 性能が良くてコストパフォーマンスが高いDWHサービスとしても 使用できる • インメモリ列指向データベース&超並列処理により 読取り処理を高速化

    • Oracle LabsのProject RAPIDの成果を活用 https://labs.oracle.com/pls/apex/f?p=94065:12:10338 5944489261:14 • ベンチマークテスト再現手順も公表 (他のクラウドDWHサービスとの比較あり) https://www.oracle.com/mysql/analytics/performance/ MySQL HeatWave Database Service とは? Copyright © 2023, Oracle and/or its affiliates. All rights reserved. 7 • 列指向でデータを持つ時に、マルチコア&複数ノードで並列処理 できるようにチャンク分割 • ベクトル化処理を容易にする独自フォーマットでエンコーディング& 圧縮後、チャンク分割 • CPUコア間やノード間でのデータ移動を最小限に抑えられるように 設計されている HeatWaveノードのデータ保持イメージ ※ 現在はMySQL Database Service(MDS) のこともMySQL HeatWave Database Service と呼ぶように名称変更されています。しかし、単純なMDSとHeatWaveを区別して説明するため に本資料ではMDSという表現を使用している部分があります。
  7. • MySQL HeatWaveを使用する時は、ユーザーはMySQLに接続してSQLを実行する • 使い勝手はMySQLそのもの • ユーザーはHeatWaveノードへは直接アクセスしない • MySQL HeatWaveを使う時は、事前にHeatWaveノードにデータをロードしておく

    • その後、MySQL上でデータを更新した場合は、HeatWaveノード上のデータも自動的に更新される MySQL HeatWave Database Service の使い方 Copyright © 2023, Oracle and/or its affiliates. All rights reserved. 8 HeatWaveノード × 1台~64台 HeatWave専用の MySQL Database Service オラクルクラウド上の サーバー (クライアント) HeatWave バックグラウンド通信 ユーザーによるアクセス
  8. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    9 • MySQLに対してSQLを実行するだけで自動的に高速化される (HeatWaveの制限事項に該当する場合は、フロントにあるMDSで処理される) MySQL HeatWave のアーキテクチャ M ySQL Da ta b a se Service 分析 クエリ 結果 セット MySQL コンパイラ & オプティマイザー 分析クエリ 最適化 I n sert/ Up d a te OLTPクエリ 最適化 リアルタイム 更新 I nnoDB ストレージエンジン MySQL クエリ実⾏ H ea tW ave N od e インメモリデータ管理 分析クエリ実⾏ 分析ジョブスケジューラ 結果 クエリ プッシュダウン 並列化 Object Storage リロード ※HeatWaveの制限事項 https://dev.mysql.com/doc/heatwave/en/heatwave-limitations.html
  9. Oracle MySQL Database Service (MDS) の特徴 Copyright © 2023, Oracle

    and/or its affiliates. All rights reserved. 10 MySQL開発ベンダーであるオラクル社からのサポートも受けられる 高性能かつコストパフォーマンスも高いフルマネージドデータベース!! MDSでは高パフォーマンスなブロック・ボリュームを標準採用 プロビジョンド IOPS 不要 (ブロック・ボリュームのIOPS:75 IOPS/GB) 高性能 同等スペック(CPU、Memory)で比較すると、 他社製のMySQLマネージドサービスの1/2~1/3程度 低価格 オラクルのMySQLチームが100%開発、運用、サポート MySQL部分についてもコアなサポートを受けられる MySQL開発 ベンダーが提供
  10. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    11 Oracle CloudWorld 2022での MySQL関連の主な発表事項
  11. MySQL HeatWave on AWS MySQL HeatWave for Azure • オラクルのマルチクラウド戦略の一環として

    MySQL HeatWaveの利用環境を複数用意 • on AWSは 「AWS上でHeatWaveが動作」 → 利用にはUC契約必要 https://cloud.mysql.com/ • for Azureは 「OCI上でHeatWaveが動作」 「ODSAのバリエーション」 → 利用手順はODSAと同 Oracle CloudWorld 2022でのMySQL関連の主な発表事項 Copyright © 2023, Oracle and/or its affiliates. All rights reserved. 12 MySQL HeatWave Lakehouse • オブジェクトストレージ上の各種ファイル形式に 対してMySQLのSQL文で分析処理 • 数100TB級のデータに対する 高速な分析が可能 • ベータ版として提供開始
  12. Edward Screven, Chief Corporate Architect Nipun Agarwal, SVP MySQL HeatWave

    Development The State of the Dolphin MySQL Solution Keynote
  13. お客様が直面しているデータ管理における課題 Copyright © 2023, Oracle and/or its affiliates. All rights

    reserved. 15 「データの洪水」 への対応 クラウドに対する 選択肢の必要性 機械学習の 民主化 1 2 3 MySQL HeatWave Lakehouse MySQL HeatWave on OCI, AWS, & Azure MySQL HeatWave AutoML
  14. クラウドに対する選択肢の必要性 • 89%の企業や組織が マルチクラウド戦略を取っている • クラウド・プロバイダーの独自の強み を活用; 必要に応じてより多様な 機能とリソースを活用可能 •

    特定の クラウド・プロバイダーへの ロックインのリスクを回避 機械学習の民主化 • 機械学習は特別な知識と経験が求 められ、スキルを持つタレントが限ら れるため採用が簡単ではない • ビジネスリーダーは機械学習の民主 化によりより多くの部門での活用を 期待 • 機械学習の利用者や規制当局は モデルの透明性を必要としている お客様が直面しているデータ管理における課題 Copyright © 2023, Oracle and/or its affiliates. All rights reserved. 16 「データの洪水」への対応 • 2020年には一人あたり 秒間1.7 MBのデータの生成。 2025年にこの規模は? • 生成された80%以上のデータが ファイルの形式で保管されている • 95%の企業がこのファイル内の データの管理を課題としている MySQL HeatWaveが解決策を提供
  15. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    18 MySQL HeatWave 一つのデータベース 分析処理は20倍高速、 トランザクション処理の スループットは10倍 HeatWave AutoML 類似ソリューションより 25倍高速なデータベース 内の機械学習 MySQL Autopilot 機械学習ベースの自動 化により性能と運用性を 向上 フルマネージド 開発、運用、サポートを MySQLの開発チームが 担当 追加費用不要でトランザクション処理、分析処理、予測処理を一つのデータベースで
  16. 追加費用不要でトランザクション処理、分析処理、予測処理を一つのデータベースで MySQL HeatWave Copyright © 2023, Oracle and/or its affiliates.

    All rights reserved. 19 • MySQL HeatWave内の データに対して機械学習 → ETL不要 & セキュリティの向上 • オラクルのAutoMLによって 機械学習の工程を自動化 → 作業効率の向上 • AutoPilotによる最適なリソース量や データ配置を予測 → 管理業務の効率化 • 従来と比較して400倍以上の クエリ処理高速化 →圧倒的なパフォーマンスとコスト効率化 OLAP Applications OLTP Applications InnoDB HeatWave MySQL Database Service Query accelerator ML Applications HeatWave ML
  17. MySQLサーバーのクラウド・データベースとしても高い処理性能を発揮 MySQL HeatWaveはトランザクション処理でAuroraの最大10倍のスループット性能 Copyright © 2023, Oracle and/or its affiliates.

    All rights reserved. 20 Higher throughput Sustained performance *Benchmark queries are derived from the TPC-C benchmarks, but results are not comparable to published TPC-C benchmark results since these do not comply with the TPC-C specifications.
  18. ベンチマークテスト手順公開中 https://www.oracle.com/mysql/heatwave/performance/ MySQL HeatWaveの分析処理性能の比較 Copyright © 2023, Oracle and/or its

    affiliates. All rights reserved. 22 better than Snowflake BigQuery より高速 9倍 17倍 Synapse より高速 3倍 Redshift より高速 11倍 Snowflake より高速 9倍
  19. TPC-H、データサイズ4TB の場合の Redshift, Snowflake, BigQuery, Synapse との比較 Pricing for Redshift

    is based on 1-year reserved instance, paid upfront. For Snowflake is based on standard edition Pricing for Google BigQuery is based on monthly flat rate commitment. For Azure Synapse is based on 1-year reserved pricing Benchmark queries are derived from the TPC-H benchmarks, but results are not comparable to published TPC-H benchmark results since these do not comply with the TPC-H specifications. * Copyright © 2023, Oracle and/or its affiliates. All rights reserved. 23
  20. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    24 MySQL HeatWave のマルチクラウド戦略
  21. マルチクラウドのメリット • 特定のサービスのベンダー・ロックインを回避 • ディザスタ・リカバリ・オプションの堅牢性 • 移行の容易性 • スケーラビリティとアジリティの容易性 •

    競争力のある価格、新しいサービスを活用できる 25 Copyright © 2023, Oracle and/or its affiliates. All rights reserved. ✓ ニーズを満たすクラウド・サービスはありますか? ✓ 相互運用性を実現できますか? ✓ 予算を満たしていますか? ✓ セキュリティまたはガバナンスの懸念はありますか? https://www.oracle.com/jp/cloud/multicloud/what-is-multicloud/
  22. MySQL HeatWave on OCI OCIのネイティブサービスとしてデプロイ 27 Copyright © 2023, Oracle

    and/or its affiliates. All rights reserved. Oracle Cloud Infrastructure On-Premises Availability Domain Subnet A Bastian Server Subnet B Dynamic Routing Gateway VPN Customer Data Center Virtual Machine MySQL Database Service VCN User Tenancy Heatwave OCIインフラストラクチャに最適化されたMySQL ✓MySQL開発元が提供するフルマネージド・データベース・ サービス ✓OCIコンソールから起動・管理・監視が可能 ✓OCIの全リージョンで利用可能 ✓セキュリティ、ネットワークなどOCIに統合されたサービス 圧倒的なパフォーマンスとコスト効率化 ✓800GB/ノードまで搭載可能 ✓高速ストレージを利用(75IOPS/GB)
  23. MySQL HeatWave for Azure Oracle Database Service for Azure(ODSA)のひとつとしてOCIのリソース上にデプロイ Azureのサービスのように容易かつ迅速に導入可能

    ✓OCI データベース・サービスをAzureのサービスのように 作成でき、Azureポータルから監視可能 ✓AzureとOCI間のネットワーク設定が不要 ✓AzureとOCI間のユーザー連携を自動設定 ✓OCIとAzure間のデータ転送費およびポート費用が無料 (FastConnect、ExpressRoute費用が無料) Azure上のアプリケーション高速化を支援 ✓Azure、OCI間の遅延は2ミリ秒以下の専用線接続 ✓MySQL HeatWaveによる高速クエリ処理 28 Copyright © 2023, Oracle and/or its affiliates. All rights reserved. ※ODSAの説明はこちらの資料を参照
  24. MySQL HeatWave on AWS AWS上のリソースを利用してデプロイ 29 Copyright © 2023, Oracle

    and/or its affiliates. All rights reserved. クラウド・プロバイダの新たな選択肢 ✓Auroraなどからの移行を簡単に実行 ✓エグレス・コストやコンプライアンス上の懸念を解決 ✓低レイテンシネットワークからのアクセス ✓AWS上のアプリケーションとの容易な連携 操作性の高いコンソール ✓スキーマ・テーブル管理の容易化 ✓インタラクティブなSQL実行 ✓AutoPilot統合により運用作業の効率化を促進 AWS MySQL HeatWave Customer AWS Tenancy Machine Learning Transaction Processing Analytics Autopilot Console Control Plane Data Plane 8.0.31 HeatWave Applications Data OCI Identity Billing ※現時点では、AWS US East (N. Virginia) リージョン (us-east-1) でのみサービスが提供されています。東京リージョンでのサービス 開始日はまだ未確定です。
  25. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    31 • 2021年には79 ZBのデータが生成され 2025年には180 ZBになる予測 (IDC) • 2019年にはIoTだけで13.6 ZBのデータ • 集められた99.5%のデータが未活用 (Grow.com) • 80%のデータが非構造データ (mitsloan.mit.edu) データベースの外に置かれたデータ規模の成長 オブジェクト ストレージ デバイス レビュー センサー イベント
  26. ベータ版提供中 MySQL HeatWave Lakehouse Copyright © 2023, Oracle and/or its

    affiliates. All rights reserved. 32 InnoDB mysql> CREATE TABLE Sensor (date DATE, degree INT) ENGINE=DATALAKE ENGINE_ATTRIBUTE = ‘{“dialect”:{“format”:”csv”}, “file”:[{“prefix”:”temp_sensor_1.csv”}]}’ SECONDARY_ENGINE=RAPID; mysql> ALTER TABLE Sensor SECONDARY_LOAD; mysql> SELECT count(*) FROM Sensor, SALES WHERE Sensor.degrees >30 and Sensor.date=SALES.date; オブジェクト ストレージ デバイス レビュー センサー イベント
  27. MySQL HeatWave Lakehouse 400 TB TPC-H, 512ノード Copyright © 2023,

    Oracle and/or its affiliates. All rights reserved. 33 オブジェクト ストレージ デバイス レビュー センサー イベント 42 秒 クエリ実行時間 の平均
  28. MySQL HeatWave Lakehouseのクエリ処理性能 Copyright © 2023, Oracle and/or its affiliates.

    All rights reserved. 34 Redshift より高速 6倍 Snowflake より高速 17倍
  29. MySQL HeatWave Lakehouseのデータロード性能 Copyright © 2023, Oracle and/or its affiliates.

    All rights reserved. 35 Redshift より高速 8倍 Snowflake より高速 2.7倍
  30. MySQL HeatWave LakehouseはSnowflakeに対して全方位での優位性 Copyright © 2023, Oracle and/or its affiliates.

    All rights reserved. 36 better than Snowflake 低コスト -30% 高速な データロード 2.7倍 better than Snowflake 高速な クエリ処理 17倍
  31. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    37 MySQL HeatWave Lakehouse の技術要素
  32. 運用効率と処理性能の向上 MySQL Autopilot: 機械学習を活用した自動化 Copyright © 2023, Oracle and/or its

    affiliates. All rights reserved. 38 Auto Thread Pooling Auto Scheduling Auto Change Propagation Auto Query Time Estimation Auto Query Plan Improvement Auto Error Recovery Auto Parallel Loading Auto Data Placement Auto Encoding Auto Shape Prediction Auto Provisioning MySQL Autopilot Data-driven Query-driven ML automation
  33. HeatWave LakehouseでのMySQL Autopilotの活用 Copyright © 2023, Oracle and/or its affiliates.

    All rights reserved. 39 5. 自動データロード • データロードにかかる時間を予測 • データロードのためのスクリプトを自動生成 3. データサンプリングの最適化 • 統計情報取得時にファイルのごく一部をサンプリング • 収集された統計情報をAutopilotの各機能で活用 2. データフローの最適化 • オブジェクトストレージの性能にあわせて処理速度を最適化 • システム全体の性能と信頼性を向上 1. 自動スキーマ予測 • ファイルのサンプリングから列のデータ型を予測 • テーブルを作成するためのDDLを自動的に生成 4. 自動プロビジョニング • ファイルに対する最適化されたサンプリングと統計情報収集 • データロード時のメモリ消費量を予測 6. 自動実行計画改良 • クエリ実行時にも継続的に統計情報を収集 • 将来の実行計画の改良に活用
  34. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    41 N2 C 1 C 2 C 3 C N … … N1 C 1 C 2 C 3 C N … N3 C 1 C 2 C 3 C N … N M C 1 C 2 C 3 C N … … Super chunking 動的割り当て 負荷分散 処理ノード データ • オブジェクトストレージによりレイテンシにばらつき • データの部分ごとに処理時間が異なる オブジェクトストレージからのデータロード性能向上のためのアーキテクチャ データを分割する「Super chunking」 により性能のばらつきの影響を抑える • 「Super chunking」によりCPUコア数以上にタスクを生成 • データの部分ごとに動的にノードに割り当て
  35. HeatWaveのハイブリッド・カラムナーのデータ構造に効率的に変換 Parquetファイル、AuroraとRedshiftのエクスポートデータを直接ロード可能 Copyright © 2023, Oracle and/or its affiliates. All

    rights reserved. 42 10 TB TPC-H (12 ノード) HeatWaveへのロード時間 クエリ実行時間 CSV 2時間 16秒 Parquet (最適化されたレイアウト) 2時間 16秒 Auroraからのエクスポートデータ 7.2時間 (Redshiftでは11.3時間) 16秒 partition 1 partition P . . . . . . . . . column 1 column 3 vector 1 column 2 vector 2 column N vector 3 vector N tile 1 tile K Parquet HeatWaveのハイブリッド・カラムナー構造 chunk M chunk 1
  36. お客様が直面しているデータ管理における課題 Copyright © 2023, Oracle and/or its affiliates. All rights

    reserved. 44 「データの洪水」 への対応 クラウドに対する 選択肢の必要性 機械学習の 民主化 1 2 3 MySQL HeatWave Lakehouse MySQL HeatWave on OCI, AWS, & Azure MySQL HeatWave AutoML MySQL HeatWaveが解決策を提供
  37. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    45 Appendix:MySQL HeatWaveチュートリアル
  38. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    46 OCIのチュートリアルページにMySQL Database Service、HeatWaveのチュートリアルも掲載されています!(入門編:その9、その10) 画面キャプチャー付きで詳細に手順を解説しています! MySQL Database Service & HeatWave のチュートリアル 入門編 - Oracle Cloud Infrastructure を使ってみよう https://oracle-japan.github.io/ocitutorials/beginners/ チュートリアル : Oracle Cloud Infrastructure を使ってみよう https://oracle-japan.github.io/ocitutorials/
  39. Copyright © 2023, Oracle and/or its affiliates. All rights reserved.

    47 Appendix:機械学習エンジン HeatWave AutoML
  40. HeatWave AutoML 機械学習をより手軽に安全に 活用できるプラットフォーム ✓ 追加料金不要ですぐに利用可能 ✓ Oracle AutoMLにより、 機械学習工程を自動化

    ✓ HeatWave上で完結でき、外部 にデータを出さずに実行可能 実業務に活用できる 説明可能性をサポート ✓ ブラックボックス化しやすい推論の 説明を明確化 ✓ 特徴量が予測に与える影響を 自動で判断 ✓ 法令遵守、公平性などの観点から モデルの挙動、有効性を見極め 高性能・高精度なモデル生成を 誰でも実行できるインタフェース ✓ 各工程に対応した関数を実行 するだけで予測まで実行可能 ✓ パラメータ、アルゴリズムの選択など 専門的な知識は不要 ✓ トレーニングの高速化により、 迅速なモデル生成を支援 MySQLの機械学習プラットフォーム Copyright © 2023, Oracle and/or its affiliates. All rights reserved. 48 展開 HeatW ave ML ⽣成モデル クエリ 予測 説明
  41. 従来の方法との比較 8 Copyright © 2021, Oracle and/or its affiliates |

    Confidential: Internal Sensitive Model/Data Boundary Sensitive Model/Data Boundary HeatWave ML ML Model Pull data Traditional way to run ML on MySQL data ML Training MySQL Database ML application ML Training Trained Model ML Inference Pull data ML Explanation Train model request Inference request Compute MySQL Client Train model SQL Inference SQL HeatWave MySQL HeatWave HeatWave: Native machine learning capability Neither data nor model leaves MySQL HeatWave Train Inference/ Explanation Trained Model ML Inference ML Explanation MySQL HeatWave AutoML Copyright © 2023, Oracle and/or its affiliates. All rights reserved. 49 8 Copyright © 2021, Oracle and/or its affiliates | Confidential: Internal Sensitive Model/Data Boundary Sensitive Model/Data Boundary HeatWave ML ML Model Pull data Traditional way to run ML on MySQL data ML Training MySQL Database ML application ML Training Trained Model ML Inference Pull data ML Explanation Train model request Inference request Compute MySQL Client Train model SQL Inference SQL HeatWave MySQL HeatWave HeatWave: Native machine learning capability Neither data nor model leaves MySQL HeatWave Train Inference/ Explanation Trained Model ML Inference ML Explanation MySQL 従来の方法でMySQLデータに対する 機械学習処理を行う場合 HeatWave AutoML Train model SQL Inference SQL