Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Lakehouse×生成AI Databricksで体験する次世代データ分析ハンズオン 短縮版
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
島村学
May 17, 2025
Technology
0
28
Lakehouse×生成AI Databricksで体験する次世代データ分析ハンズオン 短縮版
SocioInfo#30「AIとデータ利活用とRAG」(自然言語処理,AI,RAG,データ分析他)時にて発表した資料の一部です。
島村学
May 17, 2025
Tweet
Share
More Decks by 島村学
See All by 島村学
Databricks で Iceberg を試してみた
shimamura
0
570
Databricks における Apache Iceberg の活用ポイント
shimamura
0
410
Other Decks in Technology
See All in Technology
ThetaOS - A Mythical Machine comes Alive
aslander
0
160
AIエージェント×GitHubで実現するQAナレッジの資産化と業務活用 / QA Knowledge as Assets with AI Agents & GitHub
tknw_hitsuji
0
220
契約書からの情報抽出を行うLLMのスループットを、バッチ処理を用いて最大40%改善した話
sansantech
PRO
2
250
韓非子に学ぶAI活用術
tomfook
2
270
スケールアップ企業でQA組織が機能し続けるための組織設計と仕組み〜ボトムアップとトップダウンを両輪としたアプローチ〜
qa
0
250
Bill One 開発エンジニア 紹介資料
sansan33
PRO
5
18k
スピンアウト講座06_認証系(API-OAuth-MCP)入門
overflowinc
0
1.1k
AWS Systems Managerのハイブリッドアクティベーションを使用したガバメントクラウド環境の統合管理
toru_kubota
0
160
Phase09_自動化_仕組み化
overflowinc
0
1.6k
CloudFrontのHost Header転送設定でパケットの中身はどう変わるのか?
nagisa53
1
160
「通るまでRe-run」から卒業!落ちないテストを書く勘所
asumikam
2
480
Copilot 宇宙へ 〜生成AIで「専門データの壁」を壊す方法〜
nakasho
0
180
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
310
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
150
Joys of Absence: A Defence of Solitary Play
codingconduct
1
320
The untapped power of vector embeddings
frankvandijk
2
1.6k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
220
Code Review Best Practice
trishagee
74
20k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
61
43k
HDC tutorial
michielstock
1
580
How to make the Groovebox
asonas
2
2k
Designing for Performance
lara
611
70k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.2k
Transcript
SocioInfo#30 Lakehouse × 生成AI Databricksで体験する 次世代データ分析ハンズオン 島村 学
はじめに Lakehouse と 生成 AI というホットなテーマについてハンズオンを通して理解を深めていた だきます。 理論編としてデータ分析業界において注目されている Lakehouse と
Databricks に解 説します。 ハンズオンとして、 Databricks 上でメダリオンアーキテクチャにより Lakehouse の構築を 行い、 そのデータに対する生成 AI によるデータ分析を実施していただきます。
自己紹介 (1/2) Databricks Champion 認定者 データ分析システムにおける アーキテクト兼データエンジニア 株式会社ジール 島村 学
自己紹介 (2/2) DAMA のイベントにて登壇 IT 記事のブロガーです
理論編
Lakehouse とは (1/2) Lakehouse とは、 Data Lake と Data Warehouses
を組み合わせたデータ基盤アーキテクチャです。 オープンなフォーマットで低価格のストレージにデータを格納するなどの特徴があります。 出所:Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics
メダリオンアーキテクチャとは Lakehouse の普及とともに、メダリオンアーキテクチャというデータ設計パターンが注目されています。 ブロンズ (Bronze)・シルバー (Silver)・ゴールド (Gold)の3つのレイヤーを順次通過させることで、データの構造 と品質を段階的に向上させていく方法論であり、Lakehouse 構築時のベストプラクティスの1つです。 出所:メダリオンアーキテクチャ
(medallion architecture) | Databricks
1. Databricks にログイン Databricks にログインします。接続先 URL、および、接続情報は別途送付します。 続きは参加者のみです。
ハンズオンの実施に向けて
Microsoft 最近のクラウドサービスを利用するにはスマホなどで認証する方法がデフォルトの動作となっているため、 今回はお待ちのスマホで Microsoft Authenticator というアプリをダウンロードしてください。 iPhone 版 Android 版
ハンズオン
ハンズオン概要 Databricks のログインからはじめて、Databricks にてメダリオンアーキテクチャでデータ を蓄積を行い、生成 AI によるデータ分析を実施していただきます。下記の実施手順を実施 します。 Databricks にログイン
GitHub からコードを取得 「00_config」ノートブックの実行 「01_medallion_architecture 」ノートブックの実行 「03_data_analysis_by_gen_ai」ノートブックの実行
1. Databricks にログイン Databricks にログインします。接続先 URL、および、接続情報は別途送付します。 続きは参加者のみです。