DataとAIの民主化を実現する次世代データ分析基盤 “レイクハウス“のこれから

©2023 Databricks Inc. — All rights reserved Databricks The data
and AI company DataとAIの民主化を実現する次世代データ分析基盤 “レイクハウス“のこれからお問合せ先 [email protected]

©2023 Databricks Inc. — All rights reserved LT1:Generative AIとDatabricks 1
Agenda：本日やること LT2:LLMOpsをレイクハウスで実現するには 2 LT3:データブリックスとデジタルツイン 3 LT4:Databricks ソリューションマーケットプレースとガバナンス 4 LT5:Databricks Assistantについて 5 LT6:MosaicML のプロダクト紹介 6 LT7 MLOpsとエンジニアの進化 7 基調講演 : DataとAIの民主化を実現する“レイクハウス“のこれから

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005
2003年 • Apache Hadoopが登場 • GoogleのMapReduce論文を基にした分散処理フレームワークが OSS化 • データベースでは取り扱えなかったファイルベースで分散処理 • 貧弱なネットワークとオンプレミスベースのアーキテクチャ ◦ （オンプレ前提）コンピュート層とデータ層の密結合 • Hadoopがビッグデータの分散処理に新たなアプローチ ◦ HadoopのHDFSでデータを分散保存と分散処理 ◦ MapReduceモデルで並列処理することで、大規模データの処理が実現並列分散処理のMap Reduceフレームワークの登場

2006-2010 2006年 • Amazon Web Services (AWS) がElastic Compute Cloud (EC2) や安価なオブジェクトストレージ S3をリリース • クラウド上でのデータ処理が広まり、スケーラビリティと柔軟性が向上 • コンピュート層とストレージ層の分離が始まる 2003年クラウドサービスの登場で、コンピュート層とデータ層が分離

2006-2010 2008年 2006年 2003年 • Apache PigとApache Hive：Hadoopのサブプロジェクト Hadoop上でのJAVAベースのデータ処理の抽象化が進む Pig言語やHiveクエリを使って、 SQLベースで複雑なデータ処理を簡略化データ処理の抽象化が始まる

2006-2010 2008年 2006年 2003年 2010年 • Spark：インメモリ処理を活用 ◦ 中間データの書き込みを HDFSではなくメモリ上で行うことで、データ処理の速度向上 ◦ リアルタイム分析や反復的処理をサポートし、従来のMapReduceよりも高速なデータ処理を可能にした MapReduceのインメモリ化と抽象化（Dataframeへの移行）開始

2006-2010 2011-2015 2008年 2006年 2003年 2010年 2011年 • kafka/ﬂuentd：ストリームデータの収集とリアルタイムなデータパイプラインの需要が高まり、kafka/ﬂuentdで効率的なデータ処理が実現 ◦ Kafkaは高スループットでストリームデータを配信 ◦ Fluentdはログデータの収集と転送を実現データの中継についても、エコシステムを拡大

2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 • Luigi/Kedro：データプロジェクトの管理と再現性の重要性が認識され、データ処理の依存関係を定義、プロジェクトの構造化と管理を容易に。 • NiFi：データフローの可視化と管理を提供し、データのリアルタイムな転送や変換を容易にした • Airﬂow：データパイプラインの自動化と監視の需要が高まり、タスクの依存関係とスケジューリングを定義し、データ処理の自動化を実現した。柔軟なワークフローの設計と可視化が可能で、データエンジニアリングの生産性向上に貢献更なるデータ処理の抽象化、構造化、UIが進化

2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2015年 2016-2020 • great expectations：データ品質の保証とデータの妥当性を検証する必要性が高まり、オープンソースのGreat Expectationsは、データの期待値と実際の結果を検証するライブラリとして、データの信頼性と品質の向上に寄与。データ品質を担保するためのフレームワークも登場

2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2015年 2016年 2016-2020 • datahub： Linkedinが開発したオープンソースのデータカタログ・メタデータ管理プラットフォームデータベースやデータセットのメタデータを中央リポジトリに保存し、メタデータの検索、探索、可視化、共有が可能 • Others : Apache Atlas, OpenMetaData, Amundsen Lyft..etc メタデータとデータカタログを管理し、データの民主化へ

2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 2015年 2016年 2016年 2016年 2018年 2017年 • TensorFlow： Googleが機械学習ライブラリをオープンソースでリリースその後機能拡張されモデルサービングまでカバーする • kubeﬂow： Kubernetes上で機械学習ワークフローを管理、機械学習モデルのバージョン管理からデプロイメントを実現 • Mlﬂow：機械学習ライフサイクル管理プラットフォーム機械学習プロジェクト管理、追跡、共有、再現性の確保を実現機械学習ライブラリ、ワークフローの抽象化 2016年

2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 2015年 2016年 2016年 2016年 2018年 2017年 2019年 • delta： Databricksが開発したオープンソース Parquetのオープンフォーマットをベースに、データレイクにおける高度なトランザクション性とデータのバージョン管理を導入 • Iceberg： Netﬂixが開発したオープンソース Parquetのオープンフォーマットをベースに、データレイク内での大規模データセットの効率的な管理とクエリが可能 • hudi：Uber Technologiesが開発したオープンソース parquetのオープンフォーマットをベースに、大規模なデータレイクでのデータ更新と増分処理の管理が可能ファイルベースのデータフォーマットの進化

2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 2015年 2016年 2016年 2016年 2018年 2017年 2021-現在 2021年 • mosaicML：大規模言語モデル（ LLM）をオープンソースとして提供しており、品質を保ちつつもパラペータ数が少ないため、ローカル環境でも自国しやすく推論コストを安価に抑えることが可能 • Hugging Face：機械学習アプリケーションを作成するためのツールであり、種々のオープンソースの言語モデルを扱うことができる Hub機能があり、オンプレ・クラウドの双方に対応 • LangChain：大規模言語モデル（ LLM）を使ったアプリケーション開発を簡素化するためのフレームワーク • ENGLISH SDK for Spark：ENGLISHをプログラミング言語に！をコンセプトに、LLMをコンパイラとして ENGLISHからpysparkコードを生成 Big Dataに関する抽象化とAI/MLの機能を統合していく流れに

©2023 Databricks Inc. — All rights reserved Our strategy in
one word Lakehouse Platform Lakehouse Uniﬁed Analytics Platform BIツール・レポーティングストリーミングデータサイエンス / 機械学習データウェアハウスジョブ実行オーケストレーション • DATAとAIの中央集権的ガバナンス • シンプルなMLOpsからLLMOps iPhone のようにデータAI活用を一つに

DataとAIの民主化を実現する次世代データ分析基盤 “レイクハウス“のこれから

DataとAIの民主化を実現する次世代データ分析基盤 “レイクハウス“のこれから

AP Communications Co., Ltd.

More Decks by AP Communications Co., Ltd.

Other Decks in Technology

Featured

Transcript

©2023 Databricks Inc. — All rights reserved Databricks The data

©2023 Databricks Inc. — All rights reserved LT1:Generative AIとDatabricks 1

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

©2023 Databricks Inc. — All rights reserved ラップトップ地図情報時計

©2023 Databricks Inc. — All rights reserved Lakehouse Uniﬁed Analytics

©2023 Databricks Inc. — All rights reserved Our strategy in

©2023 Databricks Inc. — All rights reserved Thank You!

©2023 Databricks Inc. — All rights reserved 8月9日！！

©2023 Databricks Inc. — All rights reserved