Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DuckDBを使ってみたら分析プロジェクトが動き出した
Search
ふくすけ
April 25, 2025
Programming
7
1.9k
DuckDBを使ってみたら分析プロジェクトが動き出した
2025/04/25 めぐろLT #26 「データエンジニアリングよもやま」
ふくすけ
April 25, 2025
Tweet
Share
More Decks by ふくすけ
See All by ふくすけ
開発生産性が組織文化になるまでの軌跡
tonegawa07
0
280
秩序を保つためのレイヤードアーキテクチャ
tonegawa07
0
140
社内LTで醸成する開発組織のアウトプット文化
tonegawa07
0
490
TypeSpecで実現する辛くないOpenAPIスキーマ駆動開発
tonegawa07
1
560
構造化・自動化・ガードレール - Vibe Coding実践記 -
tonegawa07
0
690
Other Decks in Programming
See All in Programming
Pythonではじめるオープンデータ分析〜書籍の紹介と書籍で紹介しきれなかった事例の紹介〜
welliving
3
750
実は歴史的なアップデートだと思う AWS Interconnect - multicloud
maroon1st
0
300
2年のAppleウォレットパス開発の振り返り
muno92
PRO
0
180
ZJIT: The Ruby 4 JIT Compiler / Ruby Release 30th Anniversary Party
k0kubun
1
310
ゲームの物理 剛体編
fadis
0
390
MDN Web Docs に日本語翻訳でコントリビュート
ohmori_yusuke
0
210
それ、本当に安全? ファイルアップロードで見落としがちなセキュリティリスクと対策
penpeen
4
1.4k
AtCoder Conference 2025「LLM時代のAHC」
imjk
2
640
脳の「省エネモード」をデバッグする ~System 1(直感)と System 2(論理)の切り替え~
panda728
PRO
0
130
tsgolintはいかにしてtypescript-goの非公開APIを呼び出しているのか
syumai
7
2.4k
AI時代を生き抜く 新卒エンジニアの生きる道
coconala_engineer
1
500
PC-6001でPSG曲を鳴らすまでを全部NetBSD上の Makefile に押し込んでみた / osc2025hiroshima
tsutsui
0
200
Featured
See All Featured
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
120
Building Adaptive Systems
keathley
44
2.9k
Building Applications with DynamoDB
mza
96
6.9k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
84
sira's awesome portfolio website redesign presentation
elsirapls
0
110
Optimizing for Happiness
mojombo
379
70k
Utilizing Notion as your number one productivity tool
mfonobong
2
190
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
35
A Modern Web Designer's Workflow
chriscoyier
698
190k
Code Review Best Practice
trishagee
74
19k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
0
140
Transcript
DuckDBを使ってみたら 分析プロジェクトが動き出した ふくすけ (@tonegawa07) 2025/04/25 | めぐろLT 1
自己紹介 ふくすけ (@tonegawa07) スタークス株式会社 仕事: Engineer 主戦場はバックエンド Ruby on Rails,
TypeScript(Node.js) 趣味: サッカー観戦 (Jサポ) 2025/04/25 | めぐろLT 2
自社プロダクトの成果指標を計測したい 指標が決まっているわけではなく、まず仮説を出す必要がある 仮説は出たが、データソースは複数 データレイクやDWHに一元化されておらず、気軽に分析できない 2025/04/25 | めぐろLT 3
とりあえず検証結果を出したい 仮説段階でETLパイプラインを作り込むわけにもいかず、 とりあえずRawデータをJSONやCSVでストレージに置いて手を動かしてみることに 2025/04/25 | めぐろLT 4
分析どうしよう Python (pandas) データフレームを扱う 一通り触ったことはある 忘れた R (dplyr) データフレームを扱う 学生時代めっちゃ使ってた
忘れた 2025/04/25 | めぐろLT 5
SQLで考えたほうが楽かも Python (pandas) で始めてみたものの、 、 、 出したい数字が出せているのか? LLMの出力が合っているのか? ちょっとデータ出力想定と違うけどどこがおかしいんだ? SQLで出してくれれば判断できるんだけどな〜
2025/04/25 | めぐろLT 6
DuckDB https://duckdb.org OLAP(オンライン分散処理)分析に特化した組み込み型DBMS SQLiteのOLAP版のイメージ CSV、JSON、Parquet、Excelなど、様々なファイル形式に対応 2025/04/25 | めぐろLT 7
DuckDBならSQLで書けた LLMに出力してもらったSQLを修正しつつ分析結果確認 SQLで思考できるのが本職バックエンドにはかなりありがたい import duckdb duckdb.sql(''' SELECT * FROM users
WHERE 1=1; ''') 2025/04/25 | めぐろLT 8
DuckDBでPoC用軽量ETLができた 2025/04/25 | めぐろLT 9
検証スピードUP!! 分析プロジェクトが動き出した 2025/04/25 | めぐろLT 10
社内LT会でも発表してみた pandasとの速度比較 行数、列数ともに大きくなるほどDuckDBが速い 2025/04/25 | めぐろLT 11
まとめ DuckDBを採用することで検証スピードが上がった やっぱり速かった 2025/04/25 | めぐろLT 12
ご清聴ありがとうございました 2025/04/25 | めぐろLT 13