Slide 1

Slide 1 text

©2023 Databricks Inc. — All rights reserved Databricks The data and AI company DataとAIの民主化を実現する 次世代データ分析基盤 “レイクハウス“のこれから お問合せ先 [email protected]

Slide 2

Slide 2 text

©2023 Databricks Inc. — All rights reserved LT1:Generative AIとDatabricks 1 Agenda:本日やること LT2:LLMOpsをレイクハウスで実現するには 2 LT3:データブリックスとデジタルツイン 3 LT4:Databricks ソリューションマーケットプレースとガバナンス 4 LT5:Databricks Assistantについて 5 LT6:MosaicML のプロダクト紹介 6 LT7 MLOpsとエンジニアの進化 7 基調講演 : DataとAIの民主化を実現する“レイクハウス“のこれから

Slide 3

Slide 3 text

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005 2003年 ● Apache Hadoopが登場 ● GoogleのMapReduce論文を基にした分散処理フレームワークが OSS化 ● データベースでは取り扱えなかったファイルベースで分散処理 ● 貧弱なネットワークとオンプレミスベースのアーキテクチャ ○ (オンプレ前提)コンピュート層とデータ層の密結合 ● Hadoopがビッグデータの分散処理に新たなアプローチ ○ HadoopのHDFSでデータを分散保存と分散処理 ○ MapReduceモデルで並列処理 することで、大規模データの処理が実現 並列分散処理のMap Reduceフレームワークの登場

Slide 4

Slide 4 text

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005 2006-2010 2006年 ● Amazon Web Services (AWS) がElastic Compute Cloud (EC2) や 安価なオブジェクトストレージ S3をリリース ● クラウド上でのデータ処理が広まり、スケーラビリティと柔軟性が向上 ● コンピュート層とストレージ層の分離が始まる 2003年 クラウドサービスの登場で、コンピュート層とデータ層が分離

Slide 5

Slide 5 text

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005 2006-2010 2008年 2006年 2003年 ● Apache PigとApache Hive:Hadoopのサブプロジェクト Hadoop上でのJAVAベースのデータ処理の抽象化が進む Pig言語やHiveクエリを使って、 SQLベースで複雑なデータ処理を簡略化 データ処理の抽象化が始まる

Slide 6

Slide 6 text

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005 2006-2010 2008年 2006年 2003年 2010年 ● Spark: インメモリ処理を活用 ○ 中間データの書き込みを HDFSではなくメモリ上で行う ことで、 データ処理の速度向上 ○ リアルタイム分析や反復的処理をサポート し、従来のMapReduceよりも 高速なデータ処理を可能にした MapReduceのインメモリ化と抽象化(Dataframeへの移行)開始

Slide 7

Slide 7 text

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005 2006-2010 2011-2015 2008年 2006年 2003年 2010年 2011年 ● kafka/fluentd: ストリームデータの収集とリアルタイムなデータパイプラインの需要 が高ま り、kafka/fluentdで効率的なデータ処理が実現 ○ Kafkaは高スループットでストリームデータを配信 ○ Fluentdはログデータの収集と転送を実現 データの中継についても、エコシステムを拡大

Slide 8

Slide 8 text

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005 2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 ● Luigi/Kedro:データプロジェクトの管理と再現性の重要性 が認識 され、データ処理の依存関係を定義、プロジェクトの構造化と管 理を容易に。 ● NiFi:データフローの可視化と管理 を提供し、データのリアルタイ ムな転送や変換を容易にした ● Airflow:データパイプラインの自動化と監視 の需要が高まり、タ スクの依存関係とスケジューリングを定義し、データ処理の自動 化を実現した。柔軟なワークフローの設計と可視化が可能で、 データエンジニアリングの生産性向上に貢献 更なるデータ処理の抽象化、構造化、UIが進化

Slide 9

Slide 9 text

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005 2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2015年 2016-2020 ● great expectations: データ品質の保証とデータの妥当性を検証する必要性 が高まり、オープンソース のGreat Expectationsは、データの期待値と実際の結果を検証する ライブラリとして、データの信頼性と品質の向上に寄与。 データ品質を担保するためのフレームワークも登場

Slide 10

Slide 10 text

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005 2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2015年 2016年 2016-2020 ● datahub: Linkedinが開発したオープンソースの データカタログ・メタデータ管理プラットフォーム データベースやデータセットのメタデータを中央リポジトリに保存 し、メタデータの検索、探索、可視化、共有が可能 ● Others : Apache Atlas, OpenMetaData, Amundsen Lyft..etc メタデータとデータカタログを管理し、データの民主化へ

Slide 11

Slide 11 text

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005 2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 2015年 2016年 2016年 2016年 2018年 2017年 ● TensorFlow: Googleが機械学習ライブラリ をオープンソースでリリース その後機能拡張されモデルサービングまでカバーする ● kubeflow: Kubernetes上で機械学習ワークフローを管理 、機械学習モデルの バージョン管理からデプロイメントを実現 ● Mlflow:機械学習ライフサイクル管理プラットフォーム 機械学習プロジェクト 管理、追跡、共有、再現性の確保 を実現 機械学習ライブラリ、ワークフローの抽象化 2016年

Slide 12

Slide 12 text

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005 2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 2015年 2016年 2016年 2016年 2018年 2017年 2019年 ● delta: Databricksが開発したオープンソース Parquetのオープンフォーマットをベース に、データレイクにおける 高度なトランザクション性とデータのバージョン管理 を導入 ● Iceberg: Netflixが開発したオープンソース Parquetのオープンフォーマットをベース に、データレイク内での 大規模データセットの効率的な管理 とクエリが可能 ● hudi:Uber Technologiesが開発したオープンソース parquetのオープンフォーマットをベース に、 大規模なデータレイクでの データ更新と増分処理の管理 が可能 ファイルベースのデータフォーマットの進化

Slide 13

Slide 13 text

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005 2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 2015年 2016年 2016年 2016年 2018年 2017年 2021-現在 2021年 ● mosaicML: 大規模言語モデル( LLM)をオープンソースとして提供 しており、品質を保ち つつもパラペータ数が少ないため、ローカル環境でも自国しやすく推論コスト を安価に抑えることが可能 ● Hugging Face:機械学習アプリケーションを作成するためのツール であり、 種々のオープンソースの言語モデルを扱うことができる Hub機能があり、オン プレ・クラウドの双方に対応 ● LangChain:大規模言語モデル( LLM)を使ったアプリケーション開発を簡素 化するためのフレームワーク ● ENGLISH SDK for Spark:ENGLISHをプログラミング言語に! をコンセプト に、LLMをコンパイラとして ENGLISHからpysparkコードを生成 Big Dataに関する抽象化とAI/MLの機能を統合していく流れに

Slide 14

Slide 14 text

©2023 Databricks Inc. — All rights reserved ラップトップ 地図情報 時計 カメラ 音楽 電話 iPhone

Slide 15

Slide 15 text

©2023 Databricks Inc. — All rights reserved Lakehouse Unified Analytics Platform BIツール・レポーティング ストリーミング データサイエンス / 機械学習 データウェアハウス ジョブ実行 オーケストレーション Big Dataの進化を 全て取り込む

Slide 16

Slide 16 text

©2023 Databricks Inc. — All rights reserved Our strategy in one word Lakehouse Platform Lakehouse Unified Analytics Platform BIツール・レポーティング ストリーミング データサイエンス / 機械学習 データウェアハウス ジョブ実行 オーケストレーション ● DATAとAIの中央集権的ガバナンス ● シンプルなMLOpsからLLMOps iPhone のように データAI活用を一つに

Slide 17

Slide 17 text

©2023 Databricks Inc. — All rights reserved Thank You!

Slide 18

Slide 18 text

©2023 Databricks Inc. — All rights reserved 8月9日!!

Slide 19

Slide 19 text

©2023 Databricks Inc. — All rights reserved