Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DuckDBを使ってみたら分析プロジェクトが動き出した
Search
ふくすけ
April 25, 2025
Programming
7
1.7k
DuckDBを使ってみたら分析プロジェクトが動き出した
2025/04/25 めぐろLT #26 「データエンジニアリングよもやま」
ふくすけ
April 25, 2025
Tweet
Share
More Decks by ふくすけ
See All by ふくすけ
社内LTで醸成する開発組織のアウトプット文化
tonegawa07
0
220
TypeSpecで実現する辛くないOpenAPIスキーマ駆動開発
tonegawa07
1
210
構造化・自動化・ガードレール - Vibe Coding実践記 -
tonegawa07
0
480
Other Decks in Programming
See All in Programming
開発生産性を上げるための生成AI活用術
starfish719
1
200
GraphQL×Railsアプリのデータベース負荷分散 - 月間3,000万人利用サービスを無停止で
koxya
1
1.2k
アメ車でサンノゼを走ってきたよ!
s_shimotori
0
200
CSC509 Lecture 04
javiergs
PRO
0
300
開発者への寄付をアプリ内課金として実装する時の気の使いどころ
ski
0
360
Pull-Requestの内容を1クリックで動作確認可能にするワークフロー
natmark
2
480
Advance Your Career with Open Source
ivargrimstad
0
390
詳しくない分野でのVibe Codingで困ったことと学び/vibe-coding-in-unfamiliar-area
shibayu36
3
4.6k
Le côté obscur des IA génératives
pascallemerrer
0
130
WebエンジニアがSwiftをブラウザで動かすプレイグラウンドを作ってみた
ohmori_yusuke
0
170
CSC305 Lecture 02
javiergs
PRO
1
260
overlayPreferenceValue で実現する ピュア SwiftUI な AdMob ネイティブ広告
uhucream
0
170
Featured
See All Featured
Practical Orchestrator
shlominoach
190
11k
How GitHub (no longer) Works
holman
315
140k
Context Engineering - Making Every Token Count
addyosmani
5
200
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
960
Facilitating Awesome Meetings
lara
56
6.6k
Documentation Writing (for coders)
carmenintech
75
5k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
51k
Building Applications with DynamoDB
mza
96
6.6k
Designing for Performance
lara
610
69k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Learning to Love Humans: Emotional Interface Design
aarron
274
40k
Bash Introduction
62gerente
615
210k
Transcript
DuckDBを使ってみたら 分析プロジェクトが動き出した ふくすけ (@tonegawa07) 2025/04/25 | めぐろLT 1
自己紹介 ふくすけ (@tonegawa07) スタークス株式会社 仕事: Engineer 主戦場はバックエンド Ruby on Rails,
TypeScript(Node.js) 趣味: サッカー観戦 (Jサポ) 2025/04/25 | めぐろLT 2
自社プロダクトの成果指標を計測したい 指標が決まっているわけではなく、まず仮説を出す必要がある 仮説は出たが、データソースは複数 データレイクやDWHに一元化されておらず、気軽に分析できない 2025/04/25 | めぐろLT 3
とりあえず検証結果を出したい 仮説段階でETLパイプラインを作り込むわけにもいかず、 とりあえずRawデータをJSONやCSVでストレージに置いて手を動かしてみることに 2025/04/25 | めぐろLT 4
分析どうしよう Python (pandas) データフレームを扱う 一通り触ったことはある 忘れた R (dplyr) データフレームを扱う 学生時代めっちゃ使ってた
忘れた 2025/04/25 | めぐろLT 5
SQLで考えたほうが楽かも Python (pandas) で始めてみたものの、 、 、 出したい数字が出せているのか? LLMの出力が合っているのか? ちょっとデータ出力想定と違うけどどこがおかしいんだ? SQLで出してくれれば判断できるんだけどな〜
2025/04/25 | めぐろLT 6
DuckDB https://duckdb.org OLAP(オンライン分散処理)分析に特化した組み込み型DBMS SQLiteのOLAP版のイメージ CSV、JSON、Parquet、Excelなど、様々なファイル形式に対応 2025/04/25 | めぐろLT 7
DuckDBならSQLで書けた LLMに出力してもらったSQLを修正しつつ分析結果確認 SQLで思考できるのが本職バックエンドにはかなりありがたい import duckdb duckdb.sql(''' SELECT * FROM users
WHERE 1=1; ''') 2025/04/25 | めぐろLT 8
DuckDBでPoC用軽量ETLができた 2025/04/25 | めぐろLT 9
検証スピードUP!! 分析プロジェクトが動き出した 2025/04/25 | めぐろLT 10
社内LT会でも発表してみた pandasとの速度比較 行数、列数ともに大きくなるほどDuckDBが速い 2025/04/25 | めぐろLT 11
まとめ DuckDBを採用することで検証スピードが上がった やっぱり速かった 2025/04/25 | めぐろLT 12
ご清聴ありがとうございました 2025/04/25 | めぐろLT 13