Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Snowflake女子会#3 Snowpipeの良さを5分で語るよ
Search
tkkihr2548
December 12, 2024
Technology
0
380
Snowflake女子会#3 Snowpipeの良さを5分で語るよ
tkkihr2548
December 12, 2024
Tweet
Share
More Decks by tkkihr2548
See All by tkkihr2548
Snowflakeのパフォーマンスチューニングってこんな感じ ~Snowflake Unconference #4~
lana2548
0
25
BigQuery × ML × troccoを用いた VoC分析のためのデータ基盤構築
lana2548
0
240
Other Decks in Technology
See All in Technology
株式会社Awarefy(アウェアファイ)会社説明資料 / Awarefy-Company-Deck
awarefy
3
12k
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
550
スクラムというコンフォートゾーンから抜け出そう!プロジェクト全体に目を向けるインセプションデッキ / Inception Deck for seeing the whole project
takaking22
3
240
DeepSeekとは?何がいいの? - Databricksと学ぶDeepSeek! 〜これからのLLMに備えよ!〜
taka_aki
2
200
Amazon Bedrock 2025 年の熱いアップデート (2025/3 時点)
icoxfog417
PRO
3
290
完璧を捨てろ! “攻め”のQAがもたらすスピードと革新/20250306 Hiroki Hachisuka
shift_evolve
0
160
どうすると生き残れないのか/how-not-to-survive
hanhan1978
3
2.7k
JAWS FESTA 2024「バスロケ」GPS×サーバーレスの開発と運用の舞台裏/jawsfesta2024-bus-gps-serverless
ma2shita
3
410
AIエージェント開発のノウハウと課題
pharma_x_tech
9
5.5k
OCI Success Journey OCIの何が評価されてる?疑問に答える事例セミナー(2025年2月実施)
oracle4engineer
PRO
2
270
Amazon Athenaから利用時のGlueのIcebergテーブルのメンテナンスについて
nayuts
0
130
データベースの負荷を紐解く/untangle-the-database-load
emiki
2
570
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.3k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
11
1.3k
Speed Design
sergeychernyshev
28
820
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.7k
Code Review Best Practice
trishagee
67
18k
Optimising Largest Contentful Paint
csswizardry
34
3.1k
How to Ace a Technical Interview
jacobian
276
23k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
13
1k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
580
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7.1k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
Transcript
Snowpipeの良さを5分で語るよ Snowflake女子会#3 2024.12
2 庵原 崚生(Takaki Ihara) 株式会社primeNumber シニアデータエンジニア primeNumber1人目のデータエンジニア → JTC SIerのフロントエンドエンジニア
先週ジムでぎっくり腰になって療養中 ポケポケのやりたい
会社概要 3 株式会社primeNumber 代表取締役CEO 田邊 雄樹 2015年11月 約105名 約34億円 東京都品川区上大崎3丁目1番1号
JR東急目黒ビル5F 会社名 代表 創業 メンバー数 累計調達額 オフィス © primeNumber Inc.
あらゆるデータを、 ビジネスの力に変える。 人とAIが共存する時代に。 知の源泉となるデータを、 誰もがすばやく、自由に使えるように。 primeNumberは、テクノロジーの力で データ活用における不自由をなくし、 あらゆるデータを、ビジネスの力に変えていく。 そして、それまでの常識や産業の枠を超えて、 さまざまな人や企業、技術、アイデアとつながり、
まだない価値を共に生み出していく。 私たちは、人とデータの開かれた関係を築くことで、 人の創造力を解放し、 世界中のビジネスと社会全体の可能性を拡げます。 VISION 4 © primeNumber Inc.
5 さてみなさん、 Snowpipe。使ってますか?
6 もしかしてご存知ない?
7 伝授しましょう
8 Snowpipeとは? 例えば、CSVファイルをSnowflakeに入れたい時にどうするか? SnowSQL Snowsight
9 Snowpipeとは? 例えば、CSVファイルをSnowflakeに入れたい時にどうするか? SnowSQL Snowsight 手動でファイル連携するのは結構面倒!! とはいえOSS採用するにもSaaS契約するにも大変!!
10 そんな時のSnowpipe
11 改めて、Snowpipeとは? Snowflakeに対して、継続的なデータロードを行える仕組み → S3やGoogle Cloud Storageなどのクラウドストレージ(外部ストレージ)にファイル が格納されたら、Snowflakeに通知が飛び、勝手にテーブルにファイルデータが格納され る Continuous
ingestion, and data streaming
12 ざっくりいうと データ取り込みを“勝手に” やってくれるヤツです
13 何が嬉しいの? • 管理が必要最低限になる ◦ データロードのコンピューティングリソース ▪ サーバレス ◦ 転送タイミングの調整が不要
▪ メッセージングキューの利用 ▪ ニアリアルタイム連携 ▪ SimpleIngestManager(後述) • データパイプラインとしての堅牢性 ◦ 冪等性の担保 ◦ 1度ロードしたファイルは14日間ロードできない • コストの納得感 ◦ ベストプラクティスに則ればコストを最小限にできる ▪ ファイルサイズ
14 働きすぎなデータエンジニアの 強い味方
15 Snowpipeを使っていない世界線(おおげさ) またエラー出た... クリスマスに残業か… 毎日バッチジョブの 結果を見て手動で修正... 疲れた...
16 Snowpipeを使っている世界線(おおげさ) Snowpipeが 働いてる間に一服 データをS3にあげたら あとは勝手にやってくれる
17 Snowpipe、使いたくなりません?
18 私が組んだ実例も授けましょう
19 Snowpipeを使った実際の例 Excelのダウンロードを画面上でしか行えないサービスを スクレイピングツール(Selenium)を用いて開発した話
20 Snowpipeを使った実際の例 Excelのダウンロードを画面上でしか行えないサービスを スクレイピングツール(Selenium)を用いて開発した話 ⭐Point⭐ • 後続処理の起動タイミング に合わせるために、あえて 自動データロード機能を 不採用
• SimpleIngestManagerとい うPythonライブラリを用い てSnowpipeを制御 • 諸々のデプロイメントは Terraformを利用
21 とはいえ注意点もあります
22 Snowpipeを使う上での注意点 便利だけではないよ、Snowpipe • 監視は必要 ◦ COPY_HISTORYなどを用いた監視 ◦ エラー時はNOTIFICATION INTEGRATIONを用いた通知管理(メール・Slack)
• ファイルサイズの最適化が必要 ◦ 1ファイルあたり100MB ~ 250MBが最適 ◦ 同じデータ量でもファイルサイズが小さいとコストが跳ね上がる 出展: Snowflake Snowpipe: The Definitive Guide (2024)
23 正しく使って 良いデータエンジニアリングライフを
24 参考記事 めっちゃ助かる。Snowflakeコミュニティの成熟度に感謝。 • Snowpipe によるファイル取り込みを AWS Lambda から動かしてみる ◦
LambdaからSimpleIngestManagerを用いてSnowpipeを制御方法の指南書 ◦ Terraformでのデプロイ前提なのが嬉しい • Snowflake Snowpipeを本番導入する前に読むやつ ◦ 「At least once」との付き合い方について説いている ◦ 本番導入に際して、気をつけるべき点がどこかを包括的に説明
25 最後に宣伝 一緒に働いてくれる方、探しています!👀 • データエンジニア • データストラテジスト • その他の職種について(全ての求人一覧) •
primeNumberリクルートサイト
Thank you!