Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Intelligence PlatformによるIT管理の効率化

Data Intelligence PlatformによるIT管理の効率化

こちらのワークショップで使用した資料です。

データ+ AI プロフェッショナル向けワークショップシリーズ : IT 管理者編 https://events.databricks.com/data-architect-jp

Takaaki Yayoi

May 13, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  2. アジェンダ • IT管理者の日々の業務 • IT管理者が抱える課題 • Databricksの Data Intelligence Platform

    • IT管理者の課題に対する Databricksのアプローチ • 事例紹介 • まとめ
  3. ©2024 Databricks Inc. — All rights reserved 現代のIT管理者 • システムの設計・運用

    • クラウドを含むインフラストラクチャ の管理 • コスト • パフォーマンス • ガバナンスの保証 • アクセスコントロール • 監査 • データの真正性 • データ活用の容易性 データ & AIの活用が進む現在 対象はシステムだけではありません
  4. IT管理者の抱える課題 • 管理すべきシステムが多数で複雑 ✓ 特にデータ分析においては、”多種多様な”データを一元的に分析する必要がある ✓ 例: 顧客データ(構造化データ) + 画像/動画/音声/IoT(非構造化データ) • クラウドサービスのコストが制御できない

    ✓ ユーザーが野放図に計算資源を利用しており、無駄なコストが発生している ✓ 管理を強化するとユーザーの自由度を奪ってしまう ✓ コストを削減したらリソース競合が発生した • システムのガバナンスが利かない ✓ アクセスすべきではないデータに許可されていないユーザーがアクセスしてしまっている ✓ 監査したくても記録がとられていない ✓ データの信頼性を担保できず、データ活用が進まない
  5. ©2023 Databricks Inc. — All rights reserved 6000+ の従業員 $1.5B+

    の収益 $4B の投資 レイクハウスの発明者 & 生成AIのパイオニア Gartnerに認知されるリーダー Database Management Systems Data Science and Machine Learning Platforms データ & AIカンパニー のクリエイター
  6. ©2023 Databricks Inc. — All rights reserved データ + AI

    カンパニー がすべての業界で勝者に
  7. ©2023 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク

    オーケストレーショ ン & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI
  8. ©2023 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク

    オーケストレーショ ン & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI サイロ化された データ、AI ガバナンス AIがもたらすデータ プライバシー& コントロールの課題 高度に技術的な スタッフへの依存
  9. ©2023 Databricks Inc. — All rights reserved データレイクハウス すべてのデータに対するオープンで統合された基盤 オープンデータレイク

    すべての生データ (ログ、テキスト、音声、動画、画像) Databricksが レイクハウス アーキテクチャを発明 2020 統合セキュリティ、ガバナンス、カタログ 信頼性と共有のための統合データストレージ ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL Unity Catalog Delta Lake グローバル企業の 74% がレイクハウスを導 入 現在 MIT Technology Review Insights, 2023
  10. ©2023 Databricks Inc. — All rights reserved すべてのデータに対するオープンで 統合された基盤 データレイクハウス

    データとAIを容易にスケール、活用 生成AI 皆様の組織全体のデータ + AIを民主化 データ・インテリジェンス・ プラットフォーム
  11. ©2023 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータ・インテリジェンス・プラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化 Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Databricks AI カスタムLLMの作成チュー ニング、提供
  12. ©2023 Databricks Inc. — All rights reserved Databricksによる コスト /

    パフォーマンスの最適化 BI & データ ウェアハウス データエンジ ニアリング データ ストリーミング データ サイエンス & ML Databricksクラスター ストレージと完全に分離された柔軟性のある計算資源 クラウドデータレイク すべての構造化、半構造化、非構造化データ オートスケール 自動停止 ポリシー コスト追跡
  13. ©2023 Databricks Inc. — All rights reserved 柔軟かつコスト効率の高いクラスター ▪ 作業要件に応じて数クリックで必要な計算資源をセットアッ

    プできます。GPUもサポートしています。 ▪ 計算資源を複数ユーザーで共有することも、専用の計算資 源を準備することもできますので、リソース競合を容易に回 避できます。 ▪ オートスケーリングを用いると、実行しているジョブに基づ いてノードとストレージを自動で追加 / 削除することがで き、計算資源の利用率を最適化できます。 ▪ 自動停止を有効化すると、処理が行われていない計算資 源は自動で停止されるので、無駄なコストの発生を回避で きます。
  14. ©2023 Databricks Inc. — All rights reserved クラスターポリシーによるコストコントロール ▪ クラスターポリシーを用いることで、ユーザーが

    クラスター設定時に事前定義のルールに従うことを 強制できます。 ▪ ポリシーではクラスターのサイズやタイプ、 クラスターで使用できる時間あたりの金額を設定できます。 ▪ 部署ごとの課金を追跡できるようにクラスターへの タグづけを強制できます。
  15. ©2023 Databricks Inc. — All rights reserved DatabricksはデータとAIの ガバナンスを統合します 外部の計算プラットフォーム

    BI & データ ウェアハウス データエンジ ニアリング データ ストリーミング データ サイエンス & ML オープンインタフェース Databricks Unity Catalog (UC) 構造化、非構造化のデータ + AIに対する単一のガバナンスモデル データベースやデータウェアハウス クラウドデータレイク すべての構造化、半構造化、非構造化データ 外部カタログ
  16. Databricks Unity Catalog (UC) ディスカバリー データ共有 アクセス制御 監査 リネージ モニタリング

    テーブル ファイル モデル ノート ブック ダッシュボー ド データ & AIに対する統合ガバナンス ユーザー アプリ Databricks Unity Catalog データとAIに対する統合ビュー データとAIに対するシンプルな権限モデル AIで強化された監視と観測可能性 オープンなデータ共有 Databricks Unity Catalog
  17. ©2023 Databricks Inc. — All rights reserved ML Models BI

    dashboards Data lake Data warehouse Permissions on files Permissions on tables, rows and columns Permissions on ML models, features Permissions on reports, dashboards Data Governance Team Data scientist Data engineer Data analyst Data Consumers Applications “Where are the datasets, models, notebooks, dashboards that I need?” “Can I trust the data and ML models?” “How to secure these assets?” “Who is accessing these assets and how?” “Are we meeting the regulatory compliance? ” Unity Catalogが価値を解放します データとAIの統合ビュー データとAIに対する シンプルな権限モデル AIで強化された監視と 観測可能性 オープンなデータ共有 イノベーションの加速 プラットフォームの複雑性とコ ストの削減 リスクの低減と コンプライアンスの保証 データの価値の連携と 収益化
  18. ©2023 Databricks Inc. — All rights reserved データとAIの統合ビュー ▪ 構造化データ、非構造化データ、ファイル、ノートブック、ML

    モデル、ダッシュボードを一つの場所からディスカバリー・ 分類 ▪ データを移動、コピーすることなしに、単一の アクセスポイントを用いて他のデータベースやデータウェア ハウスからのデータを統合、クエリー ▪ 自動化リネージ、タグ、自動生成されるデータ洞察を用い て、ご自身のデータ領域をより深く理解 ▪ 自然言語を用いたご自身のデータやAI資産の検索、 理解、洞察の抽出による生産性の向上
  19. ©2023 Databricks Inc. — All rights reserved データとAIに対するシンプルな権限モデル ▪ 一つの場所ですべてのデータとAI資産に対する

    アクセスポリシーを管理、監査するための統合され、 シンプルなインタフェースを用いて皆様のデータ資産を保 護 ▪ 強化されたセキュリティのために、行や列に対する きめ細かいアクセス制御を有効化 ▪ 一つの場所で一貫性を持って管理される権限と オープンなインタフェースを用いた他の計算プラット フォームからセキュアにデータにアクセス
  20. ©2023 Databricks Inc. — All rights reserved AIで強化された監視と観測可能性 ▪ データとMLモデルの品質問題に対するプロアクティブな

    警告を受信 ▪ 効率的な根本原因分析やインパクト評価のためにカラム レベルにまで追跡できるリアルタイムのデータリネージへのアク セス ▪ ステークホルダーとデータとML品質レポートを容易に共有する ための自動生成ダッシュボードの活用 ▪ 課金、監査、リネージなどに対する運用インテリジェンスによる 完全なデータとAIの観測可能性の実現
  21. ©2023 Databricks Inc. — All rights reserved 課題 Hiveメタストアによるレガシーな ガバナンスモデルはワークスペース間の

    データ共有の課題を引き起こして おり、アクセスの分離、重複した ユーザー管理や分断されたガバナンスプ ロセスの工数を強いていました。 ソリューション Unity Catalogは統合されたメタデータカタ ログを提供することで、重複したテーブルの 作成を不要にし、データ 共有をシンプルにします。 テーブルやカラムレベルでのきめ細かいア クセスコントロールを定義する 能力を提供します。 きめ細かいアクセスコントロールに よって 強化された データセキュリティ インパクト “Unity Catalogによる分散データガバナンスはAkamaiのデータ管理、統治のアプローチを変革しました。 Akamaiでは40テラバイトから65テラバイトに至るいくつかの大規模なテーブルを含む 100以上のテーブルの移行に 成功しました。Unity Catalogによって、行・列に対するきめ細かいアクセスコントロールが施された 6ペタバイト以上のデータを管 理、制御できるようになっています。 ”— Gilad Asulin, Big Data Team Leader スケーラブルな 分散データガバナンスの実現 ワークスペース横断で 6PB のデータを管理、制御
  22. ©2023 Databricks Inc. — All rights reserved 課題 分散されたファイルシステムの アクセスコントロールは困難であり、様々な

    データソースからのストリーム /バッチによるデータ取り込みによってさら に複雑なものとなり、データから洞察を得る のに4時間のレーテンシーが発生していま した。 ソリューション Unity Catalogによってきめ細かいロー ルベースのアクセスコントロールが可能と なり、権限が維持されていることを検証す るためのリアルタイムのデータリネージを 利用できるようになりました。 15分以内に 50億 のイベントが分析で利用可能に インパクト “Unity Catalogによってデータベースよりも優れた柔軟性でファイル権限を管理できるようになりました。 データリネージによって、我々のデータの使用状況を効果的に監視でき、データプラットフォームチームとして我々が設定した標準 が維持されていることを確認できるようになりました。 ” —Chris Locklin, Engineering Manager, Data Platforms, きめ細かいデータセキュリティによ る迅速な洞察 効果的に データリネージによってデータの利 用をモニタリング
  23. ©2023 Databricks Inc. — All rights reserved 課題 データカタログではAWS Glue、

    アクセスコントロールではAWSのIAMに 依存していました。これは様々なユース ケースにおいて個別のIAMロールを作成 し、特定のクラスターにリンクするというこ とを意味していました。ガバナンスで IAM ロールを使うには管理が困難で、きめ細 かいアクセスコントロールに欠けていまし た。 ソリューション 長期的にはDatabricksのネイティブなガバ ナンスソリューションが必要となりました。 Unity Catalogによって、Amgenの厳密に 制限されたデータセットに対して正確かつ 複雑なガバナンスポリシーを実装する能力 が強化されました。 監査の管理の効率が 50% 改善されました インパクト “Unity Catalogとのインテグレーションによって、 Amgenの厳格なデータセットに対して正確かつ複雑なガバナンス ポリシーを定義する我々の能力が強化されました。この特筆すべき偉業によって、我々のデータエンジニアリング部門で非常に大 きなやる気が引き起こされ、Unity Catalogが中央メタストアやアクセス管理サービスとして動作することで、我々のデータプラット フォームへの投資が増加しました ”— Jaison Dominic, Senior Manager, Information Systems 規制の厳しい業界でエンタープライズレ ベルのガバナンスをデプロイ 20% のDatabricksコスト削減
  24. ©2023 Databricks Inc. — All rights reserved Data Intelligence Platformによる管理の効率化

    Databricksはインフラ管理の負荷を削減し、データとAIに対するガバナンスを実現します 複雑化するシステム コスト / リソースの 最適化 データ / AIに対する ガバナンス Databricksでシステムをシンプルに 柔軟性のあるクラスターと 管理機構によるコスト / リソースの最適化 Unity CatalogによるデータとAIに対する ガバナンスの実現
  25. ©2023 Databricks Inc. — All rights reserved データ・インテリジェンス・プラットフォーム による管理の効率化 ▪

    ここ数年で管理対象はデータやAIに拡張し、IT管理者の皆様は複雑化していくシステムの 管理に苦慮されているかと思います。特に今年の生成AIの爆発によって、企業における 生成AIの活用が促進され、それらを実現するために必要なシステム対するコストやパ フォーマンス、ガバナンスの管理の複雑性、難易度がこれまで以上に高まることは想像に 難くありません。 ▪ DatabricksのData Intelligence Platformを活用することで、これらデータ&AIのシステム 管理の課題に容易に対応することができることを感じていただけたら幸いです。皆様の データと(生成AIを含む)AIの取り組みを支援するために、Databricksは継続的に改善し てまいります。是非ご活用ください! Databricksはインフラ管理の負荷を削減し、データとAIに対するガバナンスを実現します