Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DuckDBを使ってみたら分析プロジェクトが動き出した
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ふくすけ
April 25, 2025
Programming
7
2k
DuckDBを使ってみたら分析プロジェクトが動き出した
2025/04/25 めぐろLT #26 「データエンジニアリングよもやま」
ふくすけ
April 25, 2025
Tweet
Share
More Decks by ふくすけ
See All by ふくすけ
開発生産性が組織文化になるまでの軌跡
tonegawa07
0
310
秩序を保つためのレイヤードアーキテクチャ
tonegawa07
0
170
社内LTで醸成する開発組織のアウトプット文化
tonegawa07
0
530
TypeSpecで実現する辛くないOpenAPIスキーマ駆動開発
tonegawa07
1
610
構造化・自動化・ガードレール - Vibe Coding実践記 -
tonegawa07
0
730
Other Decks in Programming
See All in Programming
CSC307 Lecture 07
javiergs
PRO
0
540
Implementation Patterns
denyspoltorak
0
270
MUSUBIXとは
nahisaho
0
120
Data-Centric Kaggle
isax1015
2
750
公共交通オープンデータ × モバイルUX 複雑な運行情報を 『直感』に変換する技術
tinykitten
PRO
0
200
Pythonではじめるオープンデータ分析〜書籍の紹介と書籍で紹介しきれなかった事例の紹介〜
welliving
3
870
例外処理とどう使い分ける?Result型を使ったエラー設計 #burikaigi
kajitack
16
5.9k
Rust 製のコードエディタ “Zed” を使ってみた
nearme_tech
PRO
0
110
AIエージェント、”どう作るか”で差は出るか? / AI Agents: Does the "How" Make a Difference?
rkaga
4
2k
Architectural Extensions
denyspoltorak
0
260
16年目のピクシブ百科事典を支える最新の技術基盤 / The Modern Tech Stack Powering Pixiv Encyclopedia in its 16th Year
ahuglajbclajep
5
970
フルサイクルエンジニアリングをAI Agentで全自動化したい 〜構想と現在地〜
kamina_zzz
0
400
Featured
See All Featured
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
130
A Modern Web Designer's Workflow
chriscoyier
698
190k
The Cost Of JavaScript in 2023
addyosmani
55
9.5k
The Limits of Empathy - UXLibs8
cassininazir
1
210
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
200
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
55
50k
The Invisible Side of Design
smashingmag
302
51k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
3.9k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
170
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
170
HDC tutorial
michielstock
1
340
Transcript
DuckDBを使ってみたら 分析プロジェクトが動き出した ふくすけ (@tonegawa07) 2025/04/25 | めぐろLT 1
自己紹介 ふくすけ (@tonegawa07) スタークス株式会社 仕事: Engineer 主戦場はバックエンド Ruby on Rails,
TypeScript(Node.js) 趣味: サッカー観戦 (Jサポ) 2025/04/25 | めぐろLT 2
自社プロダクトの成果指標を計測したい 指標が決まっているわけではなく、まず仮説を出す必要がある 仮説は出たが、データソースは複数 データレイクやDWHに一元化されておらず、気軽に分析できない 2025/04/25 | めぐろLT 3
とりあえず検証結果を出したい 仮説段階でETLパイプラインを作り込むわけにもいかず、 とりあえずRawデータをJSONやCSVでストレージに置いて手を動かしてみることに 2025/04/25 | めぐろLT 4
分析どうしよう Python (pandas) データフレームを扱う 一通り触ったことはある 忘れた R (dplyr) データフレームを扱う 学生時代めっちゃ使ってた
忘れた 2025/04/25 | めぐろLT 5
SQLで考えたほうが楽かも Python (pandas) で始めてみたものの、 、 、 出したい数字が出せているのか? LLMの出力が合っているのか? ちょっとデータ出力想定と違うけどどこがおかしいんだ? SQLで出してくれれば判断できるんだけどな〜
2025/04/25 | めぐろLT 6
DuckDB https://duckdb.org OLAP(オンライン分散処理)分析に特化した組み込み型DBMS SQLiteのOLAP版のイメージ CSV、JSON、Parquet、Excelなど、様々なファイル形式に対応 2025/04/25 | めぐろLT 7
DuckDBならSQLで書けた LLMに出力してもらったSQLを修正しつつ分析結果確認 SQLで思考できるのが本職バックエンドにはかなりありがたい import duckdb duckdb.sql(''' SELECT * FROM users
WHERE 1=1; ''') 2025/04/25 | めぐろLT 8
DuckDBでPoC用軽量ETLができた 2025/04/25 | めぐろLT 9
検証スピードUP!! 分析プロジェクトが動き出した 2025/04/25 | めぐろLT 10
社内LT会でも発表してみた pandasとの速度比較 行数、列数ともに大きくなるほどDuckDBが速い 2025/04/25 | めぐろLT 11
まとめ DuckDBを採用することで検証スピードが上がった やっぱり速かった 2025/04/25 | めぐろLT 12
ご清聴ありがとうございました 2025/04/25 | めぐろLT 13