Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DuckDBを使ってみたら分析プロジェクトが動き出した
Search
ふくすけ
April 25, 2025
Programming
7
1.5k
DuckDBを使ってみたら分析プロジェクトが動き出した
2025/04/25 めぐろLT #26 「データエンジニアリングよもやま」
ふくすけ
April 25, 2025
Tweet
Share
More Decks by ふくすけ
See All by ふくすけ
構造化・自動化・ガードレール - Vibe Coding実践記 -
tonegawa07
0
160
Other Decks in Programming
See All in Programming
新しいモバイルアプリ勉強会(仮)について
uetyo
1
240
Git Sync を超える!OSS で実現する CDK Pull 型デプロイ / Deploying CDK with PipeCD in Pull-style
tkikuc
4
490
Quality Gates in the Age of Agentic Coding
helmedeiros
PRO
1
120
[SRE NEXT] 複雑なシステムにおけるUser Journey SLOの導入
yakenji
1
870
MCP連携で加速するAI駆動開発/mcp integration accelerates ai-driven-development
bpstudy
0
220
Jakarta EE Meets AI
ivargrimstad
0
520
新世界の理解
koriym
0
110
リッチエディターを安全に開発・運用するために
unachang113
1
330
なぜあなたのオブザーバビリティ導入は頓挫するのか
ryota_hnk
4
550
PHPカンファレンス関西2025 基調講演
sugimotokei
6
1k
バイブスあるコーディングで ~PHP~ 便利ツールをつくるプラクティス
uzulla
1
310
変化を楽しむエンジニアリング ~ いままでとこれから ~
murajun1978
0
630
Featured
See All Featured
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
21
1.4k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
1k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
Designing for Performance
lara
610
69k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
We Have a Design System, Now What?
morganepeng
53
7.7k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
Code Review Best Practice
trishagee
69
19k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
BBQ
matthewcrist
89
9.8k
Transcript
DuckDBを使ってみたら 分析プロジェクトが動き出した ふくすけ (@tonegawa07) 2025/04/25 | めぐろLT 1
自己紹介 ふくすけ (@tonegawa07) スタークス株式会社 仕事: Engineer 主戦場はバックエンド Ruby on Rails,
TypeScript(Node.js) 趣味: サッカー観戦 (Jサポ) 2025/04/25 | めぐろLT 2
自社プロダクトの成果指標を計測したい 指標が決まっているわけではなく、まず仮説を出す必要がある 仮説は出たが、データソースは複数 データレイクやDWHに一元化されておらず、気軽に分析できない 2025/04/25 | めぐろLT 3
とりあえず検証結果を出したい 仮説段階でETLパイプラインを作り込むわけにもいかず、 とりあえずRawデータをJSONやCSVでストレージに置いて手を動かしてみることに 2025/04/25 | めぐろLT 4
分析どうしよう Python (pandas) データフレームを扱う 一通り触ったことはある 忘れた R (dplyr) データフレームを扱う 学生時代めっちゃ使ってた
忘れた 2025/04/25 | めぐろLT 5
SQLで考えたほうが楽かも Python (pandas) で始めてみたものの、 、 、 出したい数字が出せているのか? LLMの出力が合っているのか? ちょっとデータ出力想定と違うけどどこがおかしいんだ? SQLで出してくれれば判断できるんだけどな〜
2025/04/25 | めぐろLT 6
DuckDB https://duckdb.org OLAP(オンライン分散処理)分析に特化した組み込み型DBMS SQLiteのOLAP版のイメージ CSV、JSON、Parquet、Excelなど、様々なファイル形式に対応 2025/04/25 | めぐろLT 7
DuckDBならSQLで書けた LLMに出力してもらったSQLを修正しつつ分析結果確認 SQLで思考できるのが本職バックエンドにはかなりありがたい import duckdb duckdb.sql(''' SELECT * FROM users
WHERE 1=1; ''') 2025/04/25 | めぐろLT 8
DuckDBでPoC用軽量ETLができた 2025/04/25 | めぐろLT 9
検証スピードUP!! 分析プロジェクトが動き出した 2025/04/25 | めぐろLT 10
社内LT会でも発表してみた pandasとの速度比較 行数、列数ともに大きくなるほどDuckDBが速い 2025/04/25 | めぐろLT 11
まとめ DuckDBを採用することで検証スピードが上がった やっぱり速かった 2025/04/25 | めぐろLT 12
ご清聴ありがとうございました 2025/04/25 | めぐろLT 13