Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【Oracle Cloud ウェビナー】【多くのAI有名企業が採用】 LLM(大規模言語モデル)などの生成AIで圧倒的なコスト・パフォーマンスを提供するOracle AIインフラストラクチャ

【Oracle Cloud ウェビナー】【多くのAI有名企業が採用】 LLM(大規模言語モデル)などの生成AIで圧倒的なコスト・パフォーマンスを提供するOracle AIインフラストラクチャ

Oracle Cloud ウェビナーシリーズ情報: https://oracle.com/goto/ocws-jp
セッション動画: https://go.oracle.com/ocws-jp-ondemand

oracle4engineer

December 19, 2023
Tweet

More Decks by oracle4engineer

Other Decks in Technology

Transcript

  1. 1. Oracle AI の全体像 2. AIインフラに必要な要素 3. OCIが提供する特徴的なポイント 4. AIインフラとデータ基盤

    5. まとめ 本セッションのアジェンダ Copyright © 2023, Oracle and/or its affiliates 2
  2. 1. Oracle AI の全体像 2. AIインフラに必要な要素 3. OCIが提供する特徴的なポイント 4. AIインフラとデータ基盤

    5. まとめ 本セッションのアジェンダ Copyright © 2023, Oracle and/or its affiliates 3
  3. 企業向けAIをビジネス・アプリ(SaaS)から、PaaS、IaaSにわたって提供 5 Copyright © 2023, Oracle and/or its affiliates AI

    インフラストラクチャ: 高性能・低コストなGPUインフラ AI サービス: 事前学習済みモデル MLサービス: AI開発プラットフォーム ビジネス・アプリケーション(SaaS)にAIを組み込んで提供 OCI Data Science OCI Generative AI NVIDIA GPUs OCI Supercluster with RDMA networking Block, object, HPC filesystems ML in Oracle Database MySQL Heatwave AutoML OCI Data Labeling Digital Assistant Speech Language Vision Document データ: 高性能でセキュアなデータ・プラットフォーム Database Service Data Integration Database Catalog Data Lakehouse ERP HCM SCM Manufacturing Healthcare CRM Finance SaaS PaaS IaaS
  4. Copyright © 2023, Oracle and/or its affiliates 6 Oracle AI:

    業界知識・データ オラクルの業界知識を活用したAIをすぐに利用できます。 回収リスク予測 ERP リスク回避と業務効率化 AI-OCRの活用 勘定科目コードの 組合せ自動セット SCM 変化対応力の強化 設備の異常予兆検知 計画・作業最適化 スマートなサプライヤ 登録・管理 購買、経費 支出分析 HCM 従業員の成長、組織力の向上 スキル開発 リスキリング支援 キャリアパス支援 生成AIによる 生産性向上 CX 顧客体験の向上 営業活動への ネクスト・アクション 推奨 問合せ内容に即した ナレッジの推奨 サブスクリプション 解約の事前検知 Oracle Fusion Cloud Applicationsに組み込まれたAIの一例
  5. Copyright © 2023, Oracle and/or its affiliates 7 Oracle AI:

    データ中心のAI 企業内のあらゆるデータ資産を最大限活用できます。 ML on Database AI Services Data Science Service Analytics Cloud ファイル オブジェクト・ストレージ AWS Azure マルチクラウド データソース データ・インテグレーション データ・カタログ Oracle Applications Analytics Cloud HCM ERP CRM Healthcare EPM Data Science Vision Forecasting Anomaly Detection Document Understanding Speech データベース (Oracle Database, MySQL HeatWave) 高品質でセキュアなデータ基盤 企業内には価値のあるデータが、多く存在していま す。オラクルでは、実績のあるデータ連携および管 理サービスを多く提供しています。これにより、企業 内のあらゆるデータを連携し、品質の良いデータを セキュアに格納できます。そして、AIでのデータ活用 がし易くなり、より高いAIの効果が得られます。 データベース組み込みのAI Oracle DatabaseおよびMySQL HeatWave では、データベース内でAIモデルを作成、稼働でき ます。そのため、今データベースにあるデータを使用 して、短期間でAIを開発できます。またSQLから実 行できるため、アプリケーションへの実装が容易です。 さまざまな用途に対応可能なAI さまざまな事前学習済みのAIモデル、大規模な開 発に対応可能なAI開発環境、機能豊富な分 析・可視化機能まで、あらゆる用途に対応可能な AIサービスを使用できます。
  6. Copyright © 2023, Oracle and/or its affiliates 8 画像認識 お客様アプリケーション

    言語 予測 異常検知 文書 音声 AI Apps (SaaS) 分析・可視化サービス AI Services 生成AIサービス ML Services AI Apps: Finance, Human Resource, Sales, Service, Procurement 分析・可視化サービス: Oracle Analytics Service AI Services: 画像認識: OCI Vision 文書認識: OCI Document Understanding 言語: OCI Language 予測: OCI Forecasting 異常検知: OCI Anomaly Detection 音声: OCI Speech チャットボット: OCI Digital Assistant 生成AIサービス(Beta): Oracle Generative AI Service ML Services: モデル開発・学習: Data Science Service データベース ML開発: ML on Database 学習データ作成: Labelling service データ連携・管理: データベース: Oracle Database, MySQL データレイク: Object Storage, Big Data データ連携: Data Integrator, GoldenGate メタデータ管理: OCI Data Catalog Oracle AI さまざまな用途に対応可能なAIポートフォリオ。 データ連携・管理 テキスト生成 要約 検索 分類 モデル開発・学習 データベース上での ML開発・デプロイ 学習データ作成 チャットボット Beta
  7. Copyright © 2023, Oracle and/or its affiliates 9 Oracle AI:

    高性能な計算基盤 圧倒的にスケーラブルで高性能なGPU基盤を低コストで利用できます。 x 32,768個 数μ秒の低遅延ネットワーク NVIDIA A10: ¥280/GPU (時間) NVIDIA A100 40GB: ¥427/GPU (時間) NVIDIA A100 80GB: ¥560/GPU (時間) NVIDIA H100: ¥1,400/GPU (時間) 32,768個までのGPUを数μ秒の超低遅延 RoCEv2/RDMAネットワークで接続した、 OCI Superclusterを提供。 高性能GPUクラスタを動的に構成でき、大規模言 語モデル(LLM)などの開発をより短期間&低コスト で実施できます。 RoCEv2 RDMA ネットワーク 高性能GPUクラスタ 最新のGPUを低コストで提供
  8. Copyright © 2023, Oracle and/or its affiliates 12 オラクルは、NVIDIAとの提携を拡大。 NVIDIA

    GPUとAIソフトウェアを Oracle Cloudで提供 • NVIDIAのAIソフトウェアとサービス、大規模なGPU 拡張により、Oracle Cloud InfrastructureのAI 基盤を大幅に強化 • 最新のH100 GPUをOCIで大規模に拡張 • NVIDIAのクラウド・サービス、DGX CloudをOCI Supercluster上で稼働
  9. • コンピュータ上で人によるタスクをサポートできるAIを開発中。 • 超低遅延クラスタ・ネットワークと、それぞれ8基のNVIDIA GPUを 搭載した、数百台のOracle Cloud ベアメタル・インスタンスを活用。 • Oracle

    Cloud上で大規模言語モデル(LLM)を従来よりも高速 かつ経済的に学習 Adeptは、OCI Supercluster上で、 数千のGPUを使用してAI/ML学習を実施 Copyright © 2023, Oracle and/or its affiliates 13 1000+ GPUs used for model training 2µs Latency for RDMA cluster networks Cluster network bandwidth over simple ethernet network 1600 Gb/sec お客様事例: Adept “With the scalability and computing power of OCI and NVIDIA technology, we are training a neural network to use every software application, website, and API in existence—building on the capabilities that software makers have already created.” David Luan CEO, Adept Press Release: https://www.oracle.com/news/announcement/adept-builds-an-ai-teammate-for- everyone-with-oracle-and-nvidia-2022-08-11/ Video: https://www.oracle.com/news/announcement/adept-builds-an-ai-teammate-for-everyone-with- oracle-and-nvidia-2022-08-11/
  10. 1. Oracle AI の全体像 2. AIインフラに必要な要素 3. OCIが提供する特徴的なポイント 4. AIインフラとデータ基盤

    5. まとめ 本セッションのアジェンダ Copyright © 2023, Oracle and/or its affiliates 14
  11. 12/18/2023 Copyright © , Oracle and/or its affiliates 15 セキュアで高性能な

    データ管理基盤 低コスト 高パフォーマンス AIの開発を迅速化するためには、高速な計算基盤が必要となる。 高性能なGPUが使用でき、その性能を最大限引き出せる基盤が必要となる。 AIの活用にはGPUが必要となることが多い。特に最近の大規模言語モデル(LLM) の学習には非常に多くのGPUが必要となる。価格性能の良いGPU基盤を使用する ことで、コストを抑えることが可能になる。 使用するデータを安全に管理でき、必要なデータを高速に取得できる必要がある。 AI インフラに必要な要件
  12. 1. Oracle AI の全体像 2. AIインフラに必要な要素 3. OCIが提供する特徴的なポイント 4. AIインフラとデータ基盤

    5. まとめ 本セッションのアジェンダ Copyright © 2023, Oracle and/or its affiliates 16
  13. Oracle Cloud Infrastructure - GPUシェイプ A100 GPU(40GB, 80GB) ¥427 or

    ¥560 /時間/GPU • ベアメタルで提供 • 8GPU搭載 (NVLink) • GPUあたりメモリ:40GB or 80GB • CPU: AMD EPYC 7542 (Base 2.9GHz) • CPUメモリ: 最大2048GB • ローカル NVMe SSD 27.2TB搭載 • ネットワーク: • 50Gbps フロント・ネットワーク • 1.6Tbps 低遅延RDMA Copyright © 2021, Oracle and/or its affiliates 17 V100 GPU ¥413 /時間 /GPU • VMおよびベアメタルで提供 • 1GPUから最大8GPUまで選択可能 (NVLink) • GPUあたりメモリ:16GB • CPU:Intel Xeon 8167M (Base 2.0GHz) • CPUメモリ: 最大768GB • ネットワーク: 最大50Gbps (25Gbps x 2) P100 GPU ¥178.5 /時間 /GPU • VMおよびベアメタルで提供 • 1GPUまたは2GPUを選択可能 • GPUあたりメモリ:16GB • CPU:Intel Xeon 8167M (Base2.0GHz) • CPUメモリ: 最大192GB • ネットワーク: 最大50Gbps 2022/12 現在
  14. Oracle Cloud Infrastructure - GPUシェイプ Copyright © 2021, Oracle and/or

    its affiliates 18 A10 GPU ¥280 /時間 /GPU • 最大4GPU搭載 ベアメタルおよびVM • RTX仮想ワークステーションをサポート • 高速なグラフィックス、ストリーミング、 クラウドゲーム、リアルタイムAI推論に最適 L40S GPU 次世代リアルタイム GPUワークロードに対応 高性能グラフィック、 小 - 中規模AIモデル 2023/10 現在 • CPU: 最大112 Cores, Intel Xeon • GPU: NVIDIA L40S • メモリー: 最大 1TB • ローカル・ストレージ: 最大15.36 TB NVMe • クラスタ・ネットワーク: 400 Gb/sec 来年提供予定 H100 GPU 大規模言語AIモデル対応を さらに加速 • CPU: 112 Cores, 4th Gen Intel Xeon • GPU: 8x NVIDIA H100 80GB • メモリー: 2 TB DDR5 • ローカル・ストレージ: 61.44 TB NVMe • クラスタ・ネットワーク: 8x 400 Gb/sec ¥1,400 /時間 /GPU
  15. Copyright © 2023, Oracle and/or its affiliates 19 GPU価格比較 -

    A100 80GB Azure AWS Google Cloud OCI NDm A100 v4 P4de.24xlarge A2-ultragpu-8g BM.GPU.GM4.8 Region US East (N. VA) East US (N. VA) US-Central1 Any region Instance type Virtual machine Virtual machine Virtual machine Bare metal vCPU 96 96 96 256(128コア) CPU memory (GB) 1900 GiB 1152 GB 1360 GB 2048 GB GPU type NVIDIA A100 80GB NVIDIA A100 80GB NVIDIA A100 80GB NVIDIA A100 80GB GPU 8 8 8 8 Local storage(TB) 6.4 TB 8 TB 3 TB 27.2 TB 月額 (730時間) $23,922 $29,905 $29,602 $23,360 https://blogs.oracle.com/cloud-infrastructure/post/ai-infrastructure-cloud-cost-comparison-best-value 2023年5月時点で、もっとも安いリージョンで比較。 OCIは、最も良いスペック 最も低コスト
  16. Copyright © 2023, Oracle and/or its affiliates 20 GPU価格比較 -

    H100 80GB Azure AWS Google Cloud OCI シェイプ名 NDm A100 v4 P4de.24xlarge A2-ultragpu-8g BM.GPU.GM4.8 インスタンス種別 Virtual machine Virtual machine Virtual machine Bare metal vCPU数 96 192 224 CPUメモリー (GB) 1900GiB 2TB 2TB 2TB GPU NVIDIA H100 SMX NVIDIA H100 SMX NVIDIA H100 SMX NVIDIA H100 SMX GPU数/ホスト 8 8 8 8 内蔵ストレージ(TB) 1000GiB 30.72 TB 61.44 TB ネットワーク 3.2Tbps 3.2Tbps 3.2Tbps ホスト/時間 $98.32 $80 OCIは、最も良いスペック 低コスト 2023年11月時点
  17. ストレージ(Block Storage) コスト比較 Copyright © 2023, Oracle and/or its affiliates

    21 https://www.oracle.com/cloud/economics/ 6K IOPS 38K - 375K IOPS If the cloud provider offered multiple options, including the need to purchase “performance credits,” the cheapest option was selected. Additional options, such as replication, were declined. For AWS, the choice was gp3. For Azure, it was Premium SSD v2. For Google Cloud, it was balanced Persistent Disk. The cheapest option was selected for each cloud provider and any additional options were declined. For AWS, the choice was io2 as gp3 tops out at just 256K IOPS. For Azure, it was Premium SSD v2. For Google Cloud, it was extreme Persistent Disk. OCIが最も低コスト 高性能(IOPS)が必要な場合、 OCIは圧倒的に低コスト
  18. クラウドから外部へのデータ転送コスト比較 Copyright © 2023, Oracle and/or its affiliates 22 https://www.oracle.com/cloud/economics/

    インターネット経由での外部データ転送費用 OCIでは、データ転送量が多くても低コスト
  19. クラウドから外部へのデータ転送コスト比較 Copyright © 2023, Oracle and/or its affiliates 23 https://www.oracle.com/cloud/economics/

    専用線/閉域網での外部データ転送費用(10Gbps) OCIでは、専用線環境では転送料が無料
  20. Copyright © 2023, Oracle and/or its affiliates 24 OCI Supercluster™:

    GPUを最大限活かすクラウド基盤 AIのモデル学習時間を大幅に削減、AI開発を高速化 RoCE v2 RDMA Network RDMA Switch RDMA Switch RDMA Switch 最大16,384GPU までスケール GPU GPU GPU GPU GPU GPU GPU 同じGPUでも、他のクラウドとは性能が違います。 圧倒的高性能を実現する、オラクル独自のテクノロジー。 GPUサーバーの性能が違う: Oracle Cloudは、NVIDIAのハイエンドGPUサーバーの DGXサーバーと同じ構成のサーバーを提供しています。そ のため、GPUの性能を最大限引き出しています。 GPUのネットワーク基盤が違う: さらにAIモデルの学習時間を短縮するため、複数のGPU サーバーをたばねて処理する、クラスタをサポートしています。 超低遅延(数μs)で広帯域(H100の場合は3.2Tbps) のRDMAネットワークにより、H100では最大 16,384GPUまで性能をスケールできます。 NVIDIA DGX H100と同じ構成の高性能サーバー 超低遅延ネットワークのより、大規模AIで高い性能
  21. On-premise Performance in the Cloud オンプレミスのハイエンドGPUマシン(DGX) と同等のパフォーマンスをクラウドで実現 (言語処理 - BERTでのベンチマーク)

    Copyright © 2023, Oracle and/or its affiliates 0 200 400 600 800 1000 1200 1400 1600 1800 2000 V100 A100 NLP - BERT Large Training Benchmark (sequences/s) OCI GPU NVIDIA DGX
  22. Copyright © 2023, Oracle and/or its affiliates 26 「OCIの高性能AIインフラを利用することで、 MosaicMLは他のクラウドプロバイダーと比較して、パ

    フォーマンスが最大50%高速化し、コストが最大80% 削減。」 (With OCI’s high-performance AI infrastructure, MosaicML states that it has seen up to 50 percent faster performance and cost savings of up to 80 percent compared to other cloud providers.) お客様事例: MosaicML
  23. 12/18/2023 Copyright © , Oracle and/or its affiliates | Confidential:

    Internal/Restricted/Highly Restricted 27 精度約80%での学習時間差 精度約80%でのコスト差 他クラウド https://youtu.be/IAZPpUVjNJ0
  24. Copyright © 2023, Oracle and/or its affiliates https://arxiv.org/pdf/2210.15315.pdf "Noise in

    the Clouds: Influence of Network Performance Variability on Application Scalability" ネットワーク・パフォーマンス比較
  25. Copyright © 2023, Oracle and/or its affiliates https://arxiv.org/pdf/2210.15315.pdf "Noise in

    the Clouds: Influence of Network Performance Variability on Application Scalability" ネットワーク・パフォーマンス比較 使用しているシェイプ - Oracleは低価格
  26. ネットワーク・パフォーマンス比較 (2022年11月 第三者による比較公開資料) Copyright © 2023, Oracle and/or its affiliates

    https://arxiv.org/pdf/2210.15315.pdf "Noise in the Clouds: Influence of Network Performance Variability on Application Scalability" 30 • HPC向けインスタンスの、2ノード間の遅延と帯域を計測 • 結果: Oracleは、安定した低遅延と、スペック通りの帯域 AWS Oracleの遅延は、低遅延( 約数μs)、かつ安定した通信 Oracleでは、帯域を最大限使 用したパフォーマンスで通信 AWS 遅延 帯域 Google Google
  27. Copyright © 2023, Oracle and/or its affiliates 31 OCI Supercluster

    • 大規模 RoCEv2 RDMAネットワーク • 数μs秒の超低遅延 • 最大 4,096のコンピュート・ノード • 最大 32,768基のA100 GPU
  28. RoCEv2 RDMAによる超低遅延ネットワーク 大規模ノン・ブロッキング・ネットワーク OCI Supercluster Copyright © 2023, Oracle and/or

    its affiliates 32 RoCEv2 RDMAネットワークにより、数μ秒の遅延を実現。 RoCEv2では、ロスレス・ネットワークが必要とされ、制御に はPFCを使用する。 しかしPFCではスケールや制御に問題があるため、Oracle Cloudでは、ECNとDC-QCNを組み合わせて、大規模な RoCEv2 RDMAネットワークを実現。 ノンブロッキング、フル・バイセクションの大規模なRoCEv2 RDMAネットワークを構築。 最大4,096台のノードを1.6Tbpsで接続可能。A100 GPUでは、最大32,768基のGPUをRDMAで接続でき、 大規模なAI学習に対応。
  29. Copyright © 2023, Oracle and/or its affiliates 33 RDMAネットワークとベアメタルGPUサーバーにより、 GPU間の通信遅延を最小化。

    RDMAネットワーク + ベアメタルGPUサーバー https://blogs.oracle.com/oracle4engineer/post/ja-accelerate-distributed-deep-learning A100 GPUサーバー間のNCCL通信の帯域測定結果 ほぼスペック(1.6Tbps)通りの帯域での通信(1.52Tbps)が確認できる。 (190.219GB x 8 = 1.52Tbps)
  30. OCI Supercluster: 卓越した性能をもたらす要素技術 GPUインスタンスを支えるネットワーク層「OCI Superclusters」にオラクルの知財が組み込まれています • RDMA通信専用の高性能ネットワークを RoCEv2を用いて実装。最高のパフォーマン スを実現しています。 •

    Infinibandと同等の性能を少ないコストで 実現。さらに柔軟でダイナミックなクラスタ構成 を可能にしています。 • 高い費用対効果と大規模構成を実現してい ます。 • "インテリジェント・ワークロード配置"と"配置ヒ ント"により、柔軟で最適なGPUクラスタ構成 を行います。 • 可能な限り低いレイテンシーを実現しながら、 大規模にスケールすることを可能としています。 34 Copyright © 2023, Oracle and/or its affiliates • OCI Superclustersでは、NVIDA DGX (オンプレミス)と同じのH/W構成を可能に しています。 • 結果、オンプレミスと同等の処理性能を提供 することが可能です。 • 同じGPU A100であっても、クラウド・プロバイ ダによって性能が変わります • RoCEv2では、ネットワーク全体がロス・レスで 構成されている必要があります。 • OCIでは通常利用されるフロー制御だけでは なく、RDMA輻輳制御のための通信規格 (ECN、DC-QCN)を併用し、大規模なロ ス・レス・ネットワークを実現しています。 • Exadataの研究開発成果を使用しています。 • 最大32,768 NVIDIA GPUs クラスタを 実現 • 広帯域(1.6Tbps),低遅延 ( <2µs )による卓越した性能を実現 • ノン・ブロッキング・ネットワークにより、スケール アウトによるネットワーク帯域不足、ネットワー ク遅延を極小化。 べメアメタル・サーバー ノン・ブロッキング・ネットワーク 大規模・高拡張GPUクラスタ RDMA/RoCEv2 ネットワーク インテリジェント・オート・スケーリング
  31. お客様事例: Aleph Alpha Copyright © 2023, Oracle and/or its affiliates

    35 “This is a new generation model, and in order to train those you need a new generation of hardware—the old GPU clusters aren’t sufficient anymore. On the industry side we have raised a lot of capital and partnered with Oracle. We’re building a way to translate an impressive playground task into an enterprise application that creates value.” Jonas Andrulis, Founder and CEO Aleph Alpha Aleph Alphaは、高速ネットワーキングで接続された数百台 のNVIDIAの最も強力なGPUを使用して、OCI上で130億 パラメータを持つAIモデルをトレーニングしています。また、2 つ目のモデルは、2000億以上のパラメータを保持します。 Aleph Alphaは、OCIにより、A100 GPUをRDMA(8x 200Gb/s)で接続して使用することが可能になりました。 Copyright © 2023, Oracle and/or its affiliates 35
  32. Copyright © 2023, Oracle and/or its affiliates 36 • Bastion/管理ノード

    • VMインスタンスで構成 • NFSエクスポートし、GPUサーバーか らマウント • 大規模、アクセス頻度が少ないデー タはオブジェクト・ストレージに格納 • ジョブ・スケジューラとしても使用 • GPUクラスタ • RDMAネットワークで接続し、クラス タを構成 • 外部との通信は、フロント・ネットワー クを介して実施 (クラスタへの影響を 与えない) シンプルなAI環境(GPUクラスタ)構成例 OCI Region VCN GPU Cluster Private Subnet 00.0.00.0/00 Bastion Subnet (private or public) 00.0.00.0/00 GPU GPU GPU GPU GPU ...... RDMAネットワーク フロント・ネットワーク • Bastion/管理ノード • ジョブ・スケジューラ • NFSサーバー オブジェクト・ストレージ
  33. Copyright © 2023, Oracle and/or its affiliates 37 AI環境(GPUクラスタ)の自動構成 •

    GPUクラスタ環境をGUIですばやく自動構成 可能 • 管理ノード、NFSサーバー、GPUクラスタを構 成し、NVIDIA NCCLなどのソフトウェア、コン テナ環境も自動設定。 • 2つのタイプの構成が選択可能 • スタティック・クラスタ: GPUクラスタが起動した状態で構成。 • オンデマンド・クラスタ: ジョブを実行した際に、自動的にクラスタ が作成され、ジョブを実行。終了後にクラ スタは削除され、課金が停止。
  34. Copyright © 2023, Oracle and/or its affiliates 39 • ステップ・バイ・ステップのGPUクラスタ構成手順を

    公開 • クラスタ環境での、サンプル・プログラムによる、分散 学習の実行まで解説 AI環境(GPUクラスタ)の自動構成 - 作成方法のチュートリアル https://oracle-japan.github.io/ocitutorials/hpc/spinup-ml-instance/
  35. CLIからジョブを実行することで、複数GPUノード上での分散学習を実施 • 概要 • コマンド(ADS CLI)による容易なプロビジョニング • データパラレル(学習の高速化)とモデルパラレル(大規模モデ ル)の両学習手法を実装可能 •

    学習処理実行時間のみの課金(GPUインスタンス含む) • サポートAPI構成のパターン ✓ PyTorch Distributed ✓ Distributed TensorFlow ✓ HorovodとPytorchもしくはHorovodとTensorflow • 分散学習の実装と実行 ✓ 学習環境として利用するコンテナイメージのDockerfileを作 成し、でOCI Registoryに登録(ADS CLI) ✓ 学習用のソースコード、実行環境の定義ファイルを作成 ✓ 学習実行(ADS CLI)後、学習環境定義ファイルの定義に 沿って複数のComputeが自動起動され、定義済のイメー ジからコンテナを作成し、学習処理コードを実行、実行後に Computeは削除され課金停止 Data Science Serviceによる分散学習 Copyright © 2023, Oracle and/or its affiliates Dockerfile Train.py Train.yaml OCI Registry Repository image compute container OCI Data Science compute container compute container コンテナイメージ作成・登録 • Pytorch • TensorFlow • Horovod • etc. 学習処理のコード Pythonスクリプト 学習環境の定義 • DSプロジェクト • コンパートメント • シェイプ • ノード数 • etc. 分散学習の実行 ADS CLI 分散学習 40
  36. Copyright © 2023, Oracle and/or its affiliates 41 実行手順 1.

    学習実行環境(コンテナ)の準備 2. ジョブ設定ファイルの作成 3. adsコマンドによるジョブの実行 Data Science Serviceによる分散学習 ジョブ設定YAMLファイル ローカルでテスト実行 GPUクラスタで分散学習を実行
  37. 専任のエンジニアチーム。本サービスに関するお客様の費用負担なし(クラウド利用料は別途) GPU環境の無償支援サービス: Oracle Cloud Lift Services(OCLS) Copyright © 2023, Oracle

    and/or its affiliates 42 フィジビリティスタディ支援 PoC(実機検証) 支援* 早期立ち上げ支援* ケーススタディ支援 * クラウド利用契約をお持ちのお客様向け
  38. 1. Oracle AI の全体像 2. AIインフラに必要な要素 3. OCIが提供する特徴的なポイント 4. AIインフラとデータ基盤

    5. まとめ 本セッションのアジェンダ Copyright © 2023, Oracle and/or its affiliates 43
  39. Copyright © 2023, Oracle and/or its affiliates 44 Oracle AI:

    データ中心のAI 企業内のあらゆるデータ資産を最大限活用できます。 ML on Database AI Services Data Science Service Analytics Cloud ファイル オブジェクト・ストレージ AWS Azure マルチクラウド データソース データ・インテグレーション データ・カタログ Oracle Applications Analytics Cloud HCM ERP CRM Healthcare EPM Data Science Vision Forecasting Anomaly Detection Document Understanding Speech データベース (Oracle Database, MySQL HeatWave) 高品質でセキュアなデータ基盤 企業内には価値のあるデータが、多く存在していま す。オラクルでは、実績のあるデータ連携および管 理サービスを多く提供しています。これにより、企業 内のあらゆるデータを連携し、品質の良いデータを セキュアに格納できます。そして、AIでのデータ活用 がし易くなり、より高いAIの効果が得られます。 データベース組み込みのAI Oracle DatabaseおよびMySQL HeatWave では、データベース内でAIモデルを作成、稼働でき ます。そのため、今データベースにあるデータを使用 して、短期間でAIを開発できます。またSQLから実 行できるため、アプリケーションへの実装が容易です。 さまざまな用途に対応可能なAI さまざまな事前学習済みのAIモデル、大規模な開 発に対応可能なAI開発環境、機能豊富な分 析・可視化機能まで、あらゆる用途に対応可能な AIサービスを使用できます。
  40. AI/MLで使用するデータを統合的に、そして安全に管理し、かつ透過的に高速アクセス データ・カタログ + データベース + データレイクの構成 45 透過的・高速SQLアクセス Autonomous Data

    Warehouseでは、 オブジェクト・ストレージ内のデータへ高速か つ透過的にSQLアクセス可能。あらゆるデー タにアクセスできAIで活用可能。 メタ・データ管理 Data Catalogにより、オブジェクト・ストレー ジやデータベースに、どんなデータがあるかを管 理。 Unified, accelerated queries Autonomous Data Warehouse Serverless OCI Data Catalog: あらゆるデータのメタデータを統合管理 Oracle Data Lake (オブジェクト・ストレージ) Big Data Service Data Flow Copyright © 2023, Oracle and/or its affiliates AI/ML ワークロード SQL NoSQL Spark REST
  41. Copyright © 2023, Oracle and/or its affiliates 47 Data Catalog:

    あらゆるデータのメタ・データを一元的に管理 メタ・データ収集と管理 テクニカル・メタデータの収集、ビジネス・ メタデータの追加、ビジネス辞書の管理、 AI/MLレコメンデーション、カスタム・プロ パティやタグによるメタデータの充実 技術名、ビジネス用語、およびタグに基 づいて検索し、フィルターを使用して関 心のあるオブジェクトを見つけることが可 能 REST APIとSDKを備えた、安全で信 頼性の高いサーバーレスのネイティブ OCIサービスとして提供。他のOCIサー ビスとの連携・統合も段階的に提供 検索と発見 さまざまなサービスと連携
  42. Data Catalogによって解決できる課題 Copyright © 2023, Oracle and/or its affiliates 48

    Data Analysts Data Scientists Data Engineers Developers Data Stewards 分析に適したデータが見つからない ! • データ資産の全体像の欠如 • 部門固有知識への依存 • 困難を極めるデータ問題のトラブル シューティング • データの情報が簡単に入手できない データを理解するのが困難 ! • データ辞書が存在しない • 手動でのスキーマ定義 • データ・モデルをそもそも共有できていない データ・ガバナンスを改善する必要がある ! • データの所有権が不明瞭 • 一般的なビジネス概念の欠如 • データ問題を解決するためのコラボレー ションがない • 機密データの拡散
  43. データ利用者のためのデータ資産全体像の考え方 Data Catalog を構成していく考え方 Copyright © 2023, Oracle and/or its

    affiliates 49 Technical Metadata Operational Metadata • ソースシステムからメタデータを収集 • 一般的に自動化されたプロセス Business Metadata • データ専門家による情報追加等 • 一般的に手動で行われるプロセス ◼ Enriche / Curate Business Glossary メタ・データ ◼ Harvesting • オペレーショナル情報 • 使用傾向、ジョブ実行サマリー、成功/失敗、 更新日、リソース消費量など • ソースにあるオブジェクト情報 • スキーマ名、テーブル/カラム名、データタイプ、 PK/FK、レポート、ETLフロー、変換ロジック、 式など • データリネージとデータプロファイル • テクニカルオブジェクトについての追加のビジ ネスコンテキスト • ビジネスコンセプトの用語集、分類、注釈。 説明、所有者、部署、地域、更新頻度 評 価、コメント、Q&A、フリーフォームタグなど
  44. Autonomous Data Warehouse Serverless: 強力なデータベース+分析基盤 豊富なデータ・インテグレーション機能 オブジェクト・ストレージを含む数百のソースからデータを発見・抽出。ドラッグ・アンド・ ドロップで一括/リアルタイム・ロードと変換が可能。さらにマルチクラウドにも対応。 分析/機械学習環境 GUIで、機械学習、グラフ分析、空間分析、多次元モデル分析、ドキュメント分析

    などを高速に実施。 あらゆるデータを格納、横断的に検索 表データ、文書、JSON、CSV、グラフ、画像などあらゆるデータを格納し、横断的に 検索可能。 Auto Insights Load Transform Discover Model Graph Relational Document Spatial Multi ML Autonomous Data Warehouse (ADW) AutoML Copyright © 2023, Oracle and/or its affiliates Serverless、DB管理者不要かつ低コスト データベースの管理からチューニングまで自動化され、さらに負荷に応じて自動的にス ケール。データベース管理者不要で、コストを大幅に削減可能。 52
  45. Copyright © 2023, Oracle and/or its affiliates 53 Autonomous Data

    Warehouse Serverless: Data Studio データ・ロード&変換 モデル自動検出 データ・インサイト データのロード・変換から分析まで、 あらゆるデータ操作を使いやすいGUI画面と、高速なデータ・アクセスで実施。
  46. Copyright © 2023, Oracle and/or its affiliates 54 Autonomous Data

    Warehouse Serverless: 機械学習環境(Notebook) Notebook環境で、データベース内でデータを可視化、機械学習の開発、デプロイを実施。
  47. [Date] Copyright © 2023, Oracle and/or its affiliates 55 Oracle

    Database 23c AI Vector Search 高速なセマンティック検索を可能にする、ベクトル検索を提供。 Oracle Databaseのデータを生成AI(LLM)の活用して、 新しい価値を創造。 New! ベクトル検索 Coming Soon
  48. 56 Copyright © 2023, Oracle and/or its affiliates 既存データ 7

    1 4 9 ベクトル・データ 既存業務データを生成AIで活用するために、 Oracle Databaseにベクトル・データ型を導入 Oracle Database 23c AI Vector Search
  49. Announcement Oracle Database 23c - AI Vector Search 業務システムのデータをAIに解放する、OracleのAIソリューション 7

    1 4 9 SELECT … FROM entry_info WHERE name in (SELECT name FROM customer …) AND address in (SELECT search_city FROM customer …) ORDER BY vector_distance(doc_vector, :input_vector); 例えば: 名前や住所と、関連文書のベクトル検索を組み合わせる。 SELECT … FROM entry_info WHERE prod_name in (SELECT name FROM products …) AND prod_category in (SELECT category FROM products …) ORDER BY vector_distance(prod_image, :input_vector); 例えば: 製品カテゴリと、製品画像のベクトル検索を組み合わせる。 57 Copyright © 2023, Oracle and/or its affiliates
  50. Copyright © 2023, Oracle and/or its affiliates 58 生成AIアプリ LLM

    + Oracle Database 23c AI Vector Search 問い合わせ (テキスト) 非構造化データ 構造データ + あらゆるビジネス・データを検索 ベクトル・データ ベクトル検索 回答 結果 LLMとAI Vector Searchとの組み合わせ RAG (Retrieval augmented generation)
  51. AI/MLで使用するデータを統合的に、そして安全に管理し、かつ透過的に高速アクセス データ・カタログ + データベース + データレイクの構成 59 透過的・高速SQLアクセス Autonomous Data

    Warehouseでは、 オブジェクト・ストレージ内のデータへ高速か つ透過的にSQLアクセス可能。あらゆるデー タにアクセスできAIで活用可能。 メタ・データ管理 Data Catalogにより、オブジェクト・ストレー ジやデータベースに、どんなデータがあるかを管 理。 Unified, accelerated queries Autonomous Data Warehouse Serverless OCI Data Catalog: あらゆるデータのメタデータを統合管理 Oracle Data Lake (オブジェクト・ストレージ) Big Data Service Data Flow Copyright © 2023, Oracle and/or its affiliates AI/ML ワークロード SQL NoSQL Spark REST
  52. Copyright © 2023, Oracle and/or its affiliates 61 • NVIDIA

    DGX CloudはOracle Cloud Infrastructure上で稼働。 • DGX Cloudのファイルシステムでは、Lustre Storage ClusterをNVMe内蔵ストレージを多 く搭載したインスタンスで構成 • これにより非常に高速なファイルシステムを実現 非常に高速なファイルシステム
  53. Copyright © 2023, Oracle and/or its affiliates 63 価格: Autonomous

    Data Warehouse: $0.336(¥47.04円) [ECPU/時間, 最小 2ECPU] Oracle Autonomous Database Storage: $0.0244(¥3.416円) [GB/月] Autonomous Data Warehouse Serverless: 価格 価格例: 9ECPU、10TBの場合: 常に使用し続ける場合: 月額(730時間): $2,457.376 (¥344,032.64円) ECPU: $2207.52 ($0.336 * 9ECPU * 730時間), Storage: $249.856($0.0244 * 10240GB) ピーク使用率が20%の場合 (自動スケール機能では、3倍までスケール可能): 月額(730時間): $1,529.888 (¥214,184.32円) ECPU: $441.504 ($0.336 * 9ECPU * 730時間 * 20%) + $588.672 ($0.336 * 3ECPU * 730時間 * 80%) Storage: $249.856($0.0244 * 10240GB)
  54. 1. Oracle AI の全体像 2. AIインフラに必要な要素 3. OCIが提供する特徴的なポイント 4. AIインフラとデータ基盤

    5. まとめ 本セッションのアジェンダ Copyright © 2023, Oracle and/or its affiliates 65
  55. Copyright © 2023, Oracle and/or its affiliates 66 Oracle AI

    インフラストラクチャ セキュアで高性能な データ管理基盤 低コスト 高パフォーマンス GPUの性能を最大限引き出せるサーバーと、高性能なネットワークにより、非常に高 い性能を実現。学習時間を大幅に削減し、AI開発のスピードを向上。 より高い性能、低いコストにより、優れた価格性能を提供。 サーバーだけでは無く、ネットワーク、ストレージにおいても低コストで提供。 さまざまなデータを一元的に管理することで、データのガバナンスを強化。 クラウド機能によるセキュリティに加え、データベース管理によるセキュリティを活用。 高いデータベースおよびストレージ性能により、データ・アクセスのボトルネックを排除。
  56. Copyright © 2023, Oracle and/or its affiliates 67 OCI Generative

    AI service *OCI: Oracle Cloud Infrastructure ベータ公開中
  57. OCI Generative AI service 企業向けに最適化された生成AIサービスを提供 Copyright © 2023, Oracle and/or

    its affiliates 68 高性能 セキュアで安定 スケーラブル 専有HWで使用可能。 データがプロバイダーや 他の顧客に利用され ることなく、パフォーマン スも安定。 モデルの性能に加え、 高速なAI基盤上から サービス提供。 ビジネスの状況に応じ たリソース拡張・縮退 が可能。 リソース拡張性 専有環境 高性能なモデル カスタマイズが容易 パラメータ数が少なく コンパクト。独自モデル の作成が比較的容易。 コンパクト
  58. OCI Generative AI service 高性能でカスタマイズがし易いCohereのAIモデル 優れたカスタマイズ性 高性能ながらコンパクトであり、お客様に よるカスタマイズがしやすく、必要な GPUリソースも少なくて済む 高性能なモデル

    第三者による生成AIのベンチマーク (HELM)において、高いスコアを達成 (not included: GPT-4 from OpenAI) 520億 OpenAI GPT-3 パラメータ数 1,750億 Source: Standford’s HELM benchmarks 高品質なベクトル化 高多様なデータソースから収集した“ノイ ズの多い”データセットに対しても、より正 確な結果を得ることが可能 69 Copyright © 2023, Oracle and/or its affiliates https://txt.cohere.com/introducing-embed-v3/